Spaces:

mib-bench
/

leaderboard

Running

jasonshaoshun commited on Jan 29

Commit

ea7f09a

1 Parent(s): 2490332

debug

Files changed (2) hide show

src/display/utils.py CHANGED Viewed

@@ -157,9 +157,6 @@ for field in auto_eval_column_dict_mib_subgraph:
 # Create the dataclass for MIB columns
 AutoEvalColumn_mib_subgraph = make_dataclass("AutoEvalColumn_mib_subgraph", auto_eval_column_dict_mib_subgraph, frozen=True)


157
158
159



160	# Create the dataclass for MIB columns
161	AutoEvalColumn_mib_subgraph = make_dataclass("AutoEvalColumn_mib_subgraph", auto_eval_column_dict_mib_subgraph, frozen=True)
162

src/leaderboard/read_evals.py CHANGED Viewed

@@ -110,7 +110,7 @@ class EvalResult_MIB_SUBGRAPH:
         expected_models = TasksMib_Subgraph.get_all_models()
         expected_tasks = TasksMib_Subgraph.get_all_tasks()
         for task in expected_tasks:
-            for model in expected_models:
                 # if model == "gpt2" and task != "ioi":
                 #     continue
                 # if model == "qwen2_5" and task.startswith(("arithmetic", "arc")):

         expected_models = TasksMib_Subgraph.get_all_models()
         expected_tasks = TasksMib_Subgraph.get_all_tasks()
         for task in expected_tasks:
+            for model in task.value.models::
                 # if model == "gpt2" and task != "ioi":
                 #     continue
                 # if model == "qwen2_5" and task.startswith(("arithmetic", "arc")):