Spaces:

mib-bench
/

leaderboard

Running

jasonshaoshun commited on Jan 22

Commit

aea751c

1 Parent(s): 79683c9

debug

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -254,35 +254,35 @@ class EvalResult_MIB_CAUSALGRAPH:
     #     return data_dict
     def to_dict(self):
-    """Converts the Eval Result to a dict for dataframe display"""
-    data_dict = {
-        "eval_name": self.eval_name,
-        "Method": self.method_name,
-    }
-    # Process each model's results
-    for model_id, task_scores in self.results.items():
-        model_name = model_id.lower()  # Lowercase for consistency
-        # Each task_scores contains layer data
-        for layer_data in task_scores.get("MCQA", []):
-            layer = layer_data.get("layer")
-            layer_scores = layer_data.get("layer_scores", [])
-            # Process each intervention and counterfactual
-            for intervention_data in layer_scores:
-                intervention = intervention_data["intervention"][0]
-                counterfactual_scores = intervention_data["counterfactual_scores"]
-                for cf_score in counterfactual_scores:
-                    counterfactual = cf_score["counterfactual"][0]
-                    score = cf_score["score"]
-                    # Column name matches what we defined in utils.py
-                    col_name = f"{model_name}_layer{layer}_{intervention}_{counterfactual}".lower()
-                    data_dict[col_name] = score
-    return data_dict
 # def get_raw_eval_results_mib_causalgraph(results_path: str, requests_path: str) -> List[EvalResult_MIB_CAUSALGRAPH]:

     #     return data_dict
     def to_dict(self):
+        """Converts the Eval Result to a dict for dataframe display"""
+        data_dict = {
+            "eval_name": self.eval_name,
+            "Method": self.method_name,
+        }
+        # Process each model's results
+        for model_id, task_scores in self.results.items():
+            model_name = model_id.lower()  # Lowercase for consistency
+            # Each task_scores contains layer data
+            for layer_data in task_scores.get("MCQA", []):
+                layer = layer_data.get("layer")
+                layer_scores = layer_data.get("layer_scores", [])
+                # Process each intervention and counterfactual
+                for intervention_data in layer_scores:
+                    intervention = intervention_data["intervention"][0]
+                    counterfactual_scores = intervention_data["counterfactual_scores"]
+                    for cf_score in counterfactual_scores:
+                        counterfactual = cf_score["counterfactual"][0]
+                        score = cf_score["score"]
+                        # Column name matches what we defined in utils.py
+                        col_name = f"{model_name}_layer{layer}_{intervention}_{counterfactual}".lower()
+                        data_dict[col_name] = score
+        return data_dict
 # def get_raw_eval_results_mib_causalgraph(results_path: str, requests_path: str) -> List[EvalResult_MIB_CAUSALGRAPH]: