Spaces:

mib-bench
/

leaderboard

Running

jasonshaoshun commited on Jan 23

Commit

56d1796

1 Parent(s): 753260a

debug

Files changed (2) hide show

src/about.py CHANGED Viewed

@@ -66,11 +66,22 @@ class TaskMIB_Causalgraph:
 #         ["score"]
 #     )
 class TasksMib_Causalgraph(Enum):
     task0 = TaskMIB_Causalgraph(
         "MCQA",
-        ["Qwen2ForCausalLM", "Gemma2ForCausalLM", "LlamaForCausalLM"],  # Match exact model names with correct casing
-        [str(i) for i in range(32)],
         "mcqa",
         ["output_token", "output_location"],
         ["randomLetter_counterfactual", "answerPosition_counterfactual",

 #         ["score"]
 #     )
+# class TasksMib_Causalgraph(Enum):
+#     task0 = TaskMIB_Causalgraph(
+#         "MCQA",
+#         ["Qwen2ForCausalLM", "Gemma2ForCausalLM", "LlamaForCausalLM"],  # Match exact model names with correct casing
+#         [str(i) for i in range(32)],
+#         "mcqa",
+#         ["output_token", "output_location"],
+#         ["randomLetter_counterfactual", "answerPosition_counterfactual",
+#          "answerPosition_randomLetter_counterfactual"],
+#         ["score"]
+#     )
 class TasksMib_Causalgraph(Enum):
     task0 = TaskMIB_Causalgraph(
         "MCQA",
+        ["qwen2forcausallm", "gemma2forcausallm", "llamaforcausallm"],  # Use lowercase consistently
+        [str(i) for i in range(32)],
         "mcqa",
         ["output_token", "output_location"],
         ["randomLetter_counterfactual", "answerPosition_counterfactual",

src/populate.py CHANGED Viewed

@@ -248,15 +248,30 @@ def get_leaderboard_df_mib_causalgraph(results_path: str, requests_path: str, co
     # Convert each result to dict format for detailed df
     all_data_json = [v.to_dict() for v in raw_data]
     detailed_df = pd.DataFrame.from_records(all_data_json)
-    print("Columns in detailed_df:", detailed_df.columns.tolist())
     # Create aggregated df
     aggregated_df = aggregate_methods(detailed_df)
-    print("Columns in aggregated_df:", aggregated_df.columns.tolist())
     # Create intervention-averaged df
     intervention_averaged_df = create_intervention_averaged_df(aggregated_df)
-    print("Columns in intervention_averaged_df:", intervention_averaged_df.columns.tolist())
     return detailed_df, aggregated_df, intervention_averaged_df

     # Convert each result to dict format for detailed df
     all_data_json = [v.to_dict() for v in raw_data]
     detailed_df = pd.DataFrame.from_records(all_data_json)
+    # Print the actual columns for debugging
+    print("Original columns:", detailed_df.columns.tolist())
+    # Rename columns to match schema
+    column_mapping = {}
+    for col in detailed_df.columns:
+        if col in ['eval_name', 'Method']:
+            continue
+        # Ensure consistent casing for the column names
+        new_col = col.replace('Qwen2ForCausalLM', 'qwen2forcausallm') \
+                    .replace('Gemma2ForCausalLM', 'gemma2forcausallm') \
+                    .replace('LlamaForCausalLM', 'llamaforcausallm')
+        column_mapping[col] = new_col
+    detailed_df = detailed_df.rename(columns=column_mapping)
     # Create aggregated df
     aggregated_df = aggregate_methods(detailed_df)
     # Create intervention-averaged df
     intervention_averaged_df = create_intervention_averaged_df(aggregated_df)
+    print("Transformed columns:", detailed_df.columns.tolist())
     return detailed_df, aggregated_df, intervention_averaged_df