Spaces:

mib-bench
/

leaderboard

Running

jasonshaoshun commited on Jan 22

Commit

753260a

1 Parent(s): 531005f

debug

Files changed (2) hide show

src/about.py CHANGED Viewed

@@ -69,12 +69,12 @@ class TaskMIB_Causalgraph:
 class TasksMib_Causalgraph(Enum):
     task0 = TaskMIB_Causalgraph(
         "MCQA",
-        ["qwen2forcausallm", "gemma2forcausallm", "llamaforcausallm"],  # Match exact model names
-        [str(i) for i in range(32)],  # 0-31 layers
         "mcqa",
         ["output_token", "output_location"],
         ["randomLetter_counterfactual", "answerPosition_counterfactual",
-         "answerPosition_randomLetter_counterfactual"],  # Match exact counterfactual names
         ["score"]
     )

 class TasksMib_Causalgraph(Enum):
     task0 = TaskMIB_Causalgraph(
         "MCQA",
+        ["Qwen2ForCausalLM", "Gemma2ForCausalLM", "LlamaForCausalLM"],  # Match exact model names with correct casing
+        [str(i) for i in range(32)],
         "mcqa",
         ["output_token", "output_location"],
         ["randomLetter_counterfactual", "answerPosition_counterfactual",
+         "answerPosition_randomLetter_counterfactual"],
         ["score"]
     )

src/display/utils.py CHANGED Viewed

@@ -163,7 +163,6 @@ BENCHMARK_COLS_MIB_CAUSALGRAPH = []
 auto_eval_column_dict_mib_causalgraph = []
 # Method name column
@@ -174,15 +173,16 @@ auto_eval_column_dict_mib_causalgraph.append(["eval_name", ColumnContent, Column
 # For each model-task-intervention-counterfactual combination
 for task in TasksMib_Causalgraph:
-    for model in task.value.models:
         for layer in task.value.layers:
             for intervention in task.value.interventions:
                 for counterfactual in task.value.counterfactuals:
                     # Match exact format from the actual data
-                    col_name = f"{model}_layer{layer}_{intervention}_{counterfactual}"
-                    field_name = col_name.lower()  # Use lowercase for field name
                     auto_eval_column_dict_mib_causalgraph.append([
-                        field_name,
                         ColumnContent,
                         ColumnContent(col_name, "number", True)
                     ])

 auto_eval_column_dict_mib_causalgraph = []
 # Method name column
 # For each model-task-intervention-counterfactual combination
 for task in TasksMib_Causalgraph:
+    for model in task.value.models:  # Use exact model names with correct casing
+        model_name = model  # Don't convert to lowercase
         for layer in task.value.layers:
             for intervention in task.value.interventions:
                 for counterfactual in task.value.counterfactuals:
                     # Match exact format from the actual data
+                    col_name = f"{model_name}_layer{layer}_{intervention}_{counterfactual}"
+                    # Use the exact column name as both the field name and display name
                     auto_eval_column_dict_mib_causalgraph.append([
+                        col_name,
                         ColumnContent,
                         ColumnContent(col_name, "number", True)
                     ])