Spaces:

mib-bench
/

leaderboard

Running

App Files Files Community

jasonshaoshun commited on Jan 29

Commit

e8fa8c8

1 Parent(s): 00daaaf

debug

Browse files

Files changed (2) hide show

src/display/utils.py +40 -40
src/leaderboard/read_evals.py +1 -1

src/display/utils.py CHANGED Viewed

@@ -61,23 +61,23 @@ AutoEvalColumnMultimodal = make_dataclass("AutoEvalColumnMultimodal", auto_eval_
 ##############################################################################################################
 # Version 1
-# auto_eval_column_dict_mib_subgraph = []
-# # Method name column
-# auto_eval_column_dict_mib_subgraph.append(["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)])
-# # For each task and model combination
-# for task in TasksMib_Subgraph:
-#     for model in task.value.models:
-#         col_name = f"{task.value.benchmark}_{model}"  # ioi_gpt2, mcqa_qwen2.5, etc.
-#         auto_eval_column_dict_mib_subgraph.append([
-#             col_name,
-#             ColumnContent,
-#             ColumnContent(col_name, "number", True)
-#         ])
-# # Average column
-# auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
 # ##############################################################################################################
@@ -118,39 +118,39 @@ AutoEvalColumnMultimodal = make_dataclass("AutoEvalColumnMultimodal", auto_eval_
 ##############################################################################################################
-# Version 3
-auto_eval_column_dict_mib_subgraph = []
-# Method name column (always present)
-auto_eval_column_dict_mib_subgraph.append(
-    ["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)]
-)
-# Add columns for each task-model combination
-for task in TasksMib_Subgraph:
-    for model in task.value.models:
-        field_name = f"{task.value.benchmark}_{model}"
-        display_name = f"{task.value.benchmark}({model})"
-        print(f"Creating column - Field name: {field_name}, Display name: {display_name}")
-        column_content = ColumnContent(display_name, "number", True)
-        print(f"Column content name property: {column_content.name}")
-        auto_eval_column_dict_mib_subgraph.append([
-            field_name,
-            ColumnContent,
-            column_content
-        ])
-# Add the Average column
-auto_eval_column_dict_mib_subgraph.append(
-    ["average", ColumnContent, ColumnContent("Average", "number", True)]
-)
-print("\nFinal column configurations:")
-for field in auto_eval_column_dict_mib_subgraph:
-    print(f"Field name: {field[0]}, Display name: {field[2].name}")

 ##############################################################################################################
 # Version 1
+auto_eval_column_dict_mib_subgraph = []
+# Method name column
+auto_eval_column_dict_mib_subgraph.append(["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)])
+# For each task and model combination
+for task in TasksMib_Subgraph:
+    for model in task.value.models:
+        col_name = f"{task.value.benchmark}_{model}"  # ioi_gpt2, mcqa_qwen2.5, etc.
+        auto_eval_column_dict_mib_subgraph.append([
+            col_name,
+            ColumnContent,
+            ColumnContent(col_name, "number", True)
+        ])
+# Average column
+auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
 # ##############################################################################################################
 ##############################################################################################################
+# # Version 3
+# auto_eval_column_dict_mib_subgraph = []
+# # Method name column (always present)
+# auto_eval_column_dict_mib_subgraph.append(
+#     ["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)]
+# )
+# # Add columns for each task-model combination
+# for task in TasksMib_Subgraph:
+#     for model in task.value.models:
+#         field_name = f"{task.value.benchmark}_{model}"
+#         display_name = f"{task.value.benchmark}({model})"
+#         print(f"Creating column - Field name: {field_name}, Display name: {display_name}")
+#         column_content = ColumnContent(display_name, "number", True)
+#         print(f"Column content name property: {column_content.name}")
+#         auto_eval_column_dict_mib_subgraph.append([
+#             field_name,
+#             ColumnContent,
+#             column_content
+#         ])
+# # Add the Average column
+# auto_eval_column_dict_mib_subgraph.append(
+#     ["average", ColumnContent, ColumnContent("Average", "number", True)]
+# )
+# print("\nFinal column configurations:")
+# for field in auto_eval_column_dict_mib_subgraph:
+#     print(f"Field name: {field[0]}, Display name: {field[2].name}")

src/leaderboard/read_evals.py CHANGED Viewed

@@ -121,7 +121,7 @@ class EvalResult_MIB_SUBGRAPH:
         for task in TasksMib_Subgraph:
             for model in task.value.models:
-                print(f"task is {task}, task.value.benchmark is {task.value.benchmark}, model is {model}")
                 data_dict[f"{task.value.benchmark}_{model}"] = '-'
         all_scores = []

         for task in TasksMib_Subgraph:
             for model in task.value.models:
+                # print(f"task is {task}, task.value.benchmark is {task.value.benchmark}, model is {model}")
                 data_dict[f"{task.value.benchmark}_{model}"] = '-'
         all_scores = []