Spaces:

mib-bench
/

leaderboard

Running

App Files Files Community

jasonshaoshun commited on Jan 13

Commit

5dd7582

1 Parent(s): 53e4364

debug

Browse files

Files changed (2) hide show

app.py +16 -14
src/display/utils.py +12 -23

app.py CHANGED Viewed

@@ -19,14 +19,15 @@ from src.display.css_html_js import custom_css
 from src.display.utils import (
     BENCHMARK_COLS,
     BENCHMARK_COLS_MULTIMODAL,
-    BENCHMARK_COLS_MIB,
     COLS,
     COLS_MIB,
     COLS_MULTIMODAL,
     EVAL_COLS,
     EVAL_TYPES,
     AutoEvalColumn,
-    AutoEvalColumn_mib,
     fields,
 )
 from src.envs import API, EVAL_REQUESTS_PATH, QUEUE_REPO, REPO_ID, TOKEN, RESULTS_REPO_MIB_SUBGRAPH, EVAL_RESULTS_MIB_SUBGRAPH_PATH, RESULTS_REPO_MIB_CAUSALGRAPH, EVAL_RESULTS_MIB_CAUSALGRAPH_PATH
@@ -69,8 +70,9 @@ except Exception:
-LEADERBOARD_DF_MIB_SUBGRAPH = get_leaderboard_df_mib_subgraph(EVAL_RESULTS_MIB_SUBGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB, BENCHMARK_COLS_MIB)
-LEADERBOARD_DF_MIB_CAUSALGRAPH = get_leaderboard_df_mib_causalgraph(EVAL_RESULTS_MIB_CAUSALGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB, BENCHMARK_COLS_MIB)
 # LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 # LEADERBOARD_DF_MULTIMODAL = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS_MULTIMODAL, BENCHMARK_COLS_MULTIMODAL)
@@ -95,14 +97,14 @@ def init_leaderboard_mib_subgraph(dataframe, track):
     return Leaderboard(
         value=dataframe,
-        datatype=[c.type for c in fields(AutoEvalColumn_mib)],
         select_columns=SelectColumns(
-            default_selection=[c.name for c in fields(AutoEvalColumn_mib) if c.displayed_by_default],
-            cant_deselect=[c.name for c in fields(AutoEvalColumn_mib) if c.never_hidden],
             label="Select Columns to Display:",
         ),
-        search_columns=["Method"],  # Changed from AutoEvalColumn_mib.model.name to "Method"
-        hide_columns=[c.name for c in fields(AutoEvalColumn_mib) if c.hidden],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
     )
@@ -120,14 +122,14 @@ def init_leaderboard_mib_causalgraph(dataframe, track):
     return Leaderboard(
         value=dataframe,
-        datatype=[c.type for c in fields(AutoEvalColumn_mib)],
         select_columns=SelectColumns(
-            default_selection=[c.name for c in fields(AutoEvalColumn_mib) if c.displayed_by_default],
-            cant_deselect=[c.name for c in fields(AutoEvalColumn_mib) if c.never_hidden],
             label="Select Columns to Display:",
         ),
-        search_columns=["Method"],  # Changed from AutoEvalColumn_mib.model.name to "Method"
-        hide_columns=[c.name for c in fields(AutoEvalColumn_mib) if c.hidden],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
     )

 from src.display.utils import (
     BENCHMARK_COLS,
     BENCHMARK_COLS_MULTIMODAL,
+    BENCHMARK_COLS_MIB_SUBGRAPH,
     COLS,
     COLS_MIB,
     COLS_MULTIMODAL,
     EVAL_COLS,
     EVAL_TYPES,
     AutoEvalColumn,
+    AutoEvalColumn_mib_subgraph,
+    AutoEvalColumn_mib_causalgraph,
     fields,
 )
 from src.envs import API, EVAL_REQUESTS_PATH, QUEUE_REPO, REPO_ID, TOKEN, RESULTS_REPO_MIB_SUBGRAPH, EVAL_RESULTS_MIB_SUBGRAPH_PATH, RESULTS_REPO_MIB_CAUSALGRAPH, EVAL_RESULTS_MIB_CAUSALGRAPH_PATH
+LEADERBOARD_DF_MIB_SUBGRAPH = get_leaderboard_df_mib_subgraph(EVAL_RESULTS_MIB_SUBGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB, BENCHMARK_COLS_MIB_SUBGRAPH)
+LEADERBOARD_DF_MIB_CAUSALGRAPH = get_leaderboard_df_mib_causalgraph(EVAL_RESULTS_MIB_CAUSALGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB, BENCHMARK_COLS_MIB_CAUASALGRAPH)
 # LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 # LEADERBOARD_DF_MULTIMODAL = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS_MULTIMODAL, BENCHMARK_COLS_MULTIMODAL)
     return Leaderboard(
         value=dataframe,
+        datatype=[c.type for c in fields(AutoEvalColumn_mib_subgraph)],
         select_columns=SelectColumns(
+            default_selection=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.displayed_by_default],
+            cant_deselect=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.never_hidden],
             label="Select Columns to Display:",
         ),
+        search_columns=["Method"],  # Changed from AutoEvalColumn_mib_subgraph.model.name to "Method"
+        hide_columns=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.hidden],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
     )
     return Leaderboard(
         value=dataframe,
+        datatype=[c.type for c in fields(AutoEvalColumn_mib_causalgraph)],
         select_columns=SelectColumns(
+            default_selection=[c.name for c in fields(AutoEvalColumn_mib_causalgraph) if c.displayed_by_default],
+            cant_deselect=[c.name for c in fields(AutoEvalColumn_mib_causalgraph) if c.never_hidden],
             label="Select Columns to Display:",
         ),
+        search_columns=["Method"],  # Changed from AutoEvalColumn_mib_causalgraph.model.name to "Method"
+        hide_columns=[c.name for c in fields(AutoEvalColumn_mib_causalgraph) if c.hidden],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
     )

src/display/utils.py CHANGED Viewed

@@ -21,7 +21,7 @@ class ColumnContent:
     never_hidden: bool = False
 ## Leaderboard columns
-auto_eval_column_dict_mib = []
 auto_eval_column_dict = []
 auto_eval_column_dict_multimodal = []
@@ -29,42 +29,40 @@ auto_eval_column_dict_multimodal = []
-auto_eval_column_dict_mib = []
 # Method name column
-auto_eval_column_dict_mib.append(["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)])
 # For each task and model combination
 for task in TasksMib_Subgraph:
     for model in task.value.models:
         col_name = f"{task.value.benchmark}_{model}"  # ioi_meta_llama, mcqa_qwen, etc.
-        auto_eval_column_dict_mib.append([
             col_name,
             ColumnContent,
             ColumnContent(col_name, "number", True)
         ])
 # Average column
-auto_eval_column_dict_mib.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
 # Create the dataclass for MIB columns
-AutoEvalColumn_mib = make_dataclass("AutoEvalColumn_mib", auto_eval_column_dict_mib, frozen=True)
 # Column selection for display
-COLS_MIB = [c.name for c in fields(AutoEvalColumn_mib) if not c.hidden]
-# BENCHMARK_COLS_MIB = [t.value.col_name for t in TasksMib_Subgraph]
-BENCHMARK_COLS_MIB = []
 for task in TasksMib_Subgraph:
     for model in task.value.models:
         col_name = f"{task.value.col_name}_{model.replace('-', '_')}"
-        BENCHMARK_COLS_MIB.append(col_name)
@@ -72,15 +70,6 @@ for task in TasksMib_Subgraph:
-# Init
-auto_eval_column_dict_mib.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
-# auto_eval_column_dict_mib.append(["hf_repo", ColumnContent, ColumnContent("HF Repo", "str", False)])
-# auto_eval_column_dict_mib.append(["track", ColumnContent, ColumnContent("Track", "markdown", False)])
-#Scores
-for task in TasksMib_Subgraph:
-    auto_eval_column_dict_mib.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])

     never_hidden: bool = False
 ## Leaderboard columns
+auto_eval_column_dict_mib_subgraph = []
 auto_eval_column_dict = []
 auto_eval_column_dict_multimodal = []
+auto_eval_column_dict_mib_subgraph = []
 # Method name column
+auto_eval_column_dict_mib_subgraph.append(["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)])
 # For each task and model combination
 for task in TasksMib_Subgraph:
     for model in task.value.models:
         col_name = f"{task.value.benchmark}_{model}"  # ioi_meta_llama, mcqa_qwen, etc.
+        auto_eval_column_dict_mib_subgraph.append([
             col_name,
             ColumnContent,
             ColumnContent(col_name, "number", True)
         ])
 # Average column
+auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
 # Create the dataclass for MIB columns
+AutoEvalColumn_mib_subgraph = make_dataclass("AutoEvalColumn_mib_subgraph", auto_eval_column_dict_mib_subgraph, frozen=True)
 # Column selection for display
+COLS_MIB = [c.name for c in fields(AutoEvalColumn_mib_subgraph) if not c.hidden]
+BENCHMARK_COLS_MIB_SUBGRAPH = []
 for task in TasksMib_Subgraph:
     for model in task.value.models:
         col_name = f"{task.value.col_name}_{model.replace('-', '_')}"
+        BENCHMARK_COLS_MIB_SUBGRAPH.append(col_name)
+# Implement the same for causal graph, auto_eval_column_dict_mib_causalgraph, AutoEvalColumn_mib_causalgraph
+BENCHMARK_COLS_MIB_CAUASALGRAPH = []