Spaces:

mib-bench
/

leaderboard

Running

App Files Files Community

jasonshaoshun commited on Jan 28

Commit

9fd4b06

1 Parent(s): 2817fcb

debug

Browse files

Files changed (2) hide show

app.py +76 -8
src/display/utils.py +45 -1

app.py CHANGED Viewed

@@ -94,16 +94,48 @@ LEADERBOARD_DF_MIB_CAUSALGRAPH_DETAILED, LEADERBOARD_DF_MIB_CAUSALGRAPH_AGGREGAT
 ) = get_evaluation_queue_df(EVAL_REQUESTS_PATH, EVAL_COLS)
-def init_leaderboard_mib_subgraph(dataframe, track):
-    # print(f"init_leaderboard_mib: dataframe head before loc is {dataframe.head()}\n")
-    if dataframe is None or dataframe.empty:
-        raise ValueError("Leaderboard DataFrame is empty or None.")
-    # filter for correct track
-    # dataframe = dataframe.loc[dataframe["Track"] == track]
-    # print(f"init_leaderboard_mib: dataframe head after loc is {dataframe.head()}\n")
     return Leaderboard(
         value=dataframe,
@@ -113,12 +145,40 @@ def init_leaderboard_mib_subgraph(dataframe, track):
             cant_deselect=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.never_hidden],
             label="Select Columns to Display:",
         ),
-        search_columns=["Method"],  # Changed from AutoEvalColumn_mib_subgraph.model.name to "Method"
         hide_columns=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.hidden],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
     )
 def init_leaderboard_mib_causalgraph(dataframe, track):
     # print("Debugging column issues:")
     # print("\nActual DataFrame columns:")
@@ -233,7 +293,15 @@ with demo:
         #         with gr.Row():
         #             gr.Markdown(EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")
         with gr.TabItem("Subgraph", elem_id="subgraph", id=0):
             leaderboard = init_leaderboard_mib_subgraph(LEADERBOARD_DF_MIB_SUBGRAPH, "Subgraph")
         # Then modify the Causal Graph tab section

 ) = get_evaluation_queue_df(EVAL_REQUESTS_PATH, EVAL_COLS)
+# def init_leaderboard_mib_subgraph(dataframe, track):
+#     # print(f"init_leaderboard_mib: dataframe head before loc is {dataframe.head()}\n")
+#     if dataframe is None or dataframe.empty:
+#         raise ValueError("Leaderboard DataFrame is empty or None.")
+#     # filter for correct track
+#     # dataframe = dataframe.loc[dataframe["Track"] == track]
+#     # print(f"init_leaderboard_mib: dataframe head after loc is {dataframe.head()}\n")
+#     return Leaderboard(
+#         value=dataframe,
+#         datatype=[c.type for c in fields(AutoEvalColumn_mib_subgraph)],
+#         select_columns=SelectColumns(
+#             default_selection=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.displayed_by_default],
+#             cant_deselect=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.never_hidden],
+#             label="Select Columns to Display:",
+#         ),
+#         search_columns=["Method"],  # Changed from AutoEvalColumn_mib_subgraph.model.name to "Method"
+#         hide_columns=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.hidden],
+#         bool_checkboxgroup_label="Hide models",
+#         interactive=False,
+#     )
+def init_leaderboard_mib_subgraph(dataframe, track):
+    if dataframe is None or dataframe.empty:
+        raise ValueError("Leaderboard DataFrame is empty or None.")
+    # Get unique tasks and models for filters
+    tasks = list(set(task.value.benchmark for task in TasksMib_Subgraph))
+    models = list(set(
+        model
+        for task in TasksMib_Subgraph
+        for model in task.value.models
+    ))
     return Leaderboard(
         value=dataframe,
             cant_deselect=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.never_hidden],
             label="Select Columns to Display:",
         ),
+        column_filters=[
+            ColumnFilter(
+                column="task_filter",
+                choices=tasks,
+                label="Filter by Task:",
+                default=None
+            ),
+            ColumnFilter(
+                column="model_filter",
+                choices=models,
+                label="Filter by Model:",
+                default=None
+            )
+        ],
+        search_columns=["Method"],
         hide_columns=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.hidden],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
     )
 def init_leaderboard_mib_causalgraph(dataframe, track):
     # print("Debugging column issues:")
     # print("\nActual DataFrame columns:")
         #         with gr.Row():
         #             gr.Markdown(EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")
+        # with gr.TabItem("Subgraph", elem_id="subgraph", id=0):
+        #     leaderboard = init_leaderboard_mib_subgraph(LEADERBOARD_DF_MIB_SUBGRAPH, "Subgraph")
         with gr.TabItem("Subgraph", elem_id="subgraph", id=0):
+            # Add description for filters
+            gr.Markdown("""
+            ### Filtering Options
+            Use the dropdown menus below to filter results by specific tasks or models.
+            You can combine filters to see specific task-model combinations.
+            """)
             leaderboard = init_leaderboard_mib_subgraph(LEADERBOARD_DF_MIB_SUBGRAPH, "Subgraph")
         # Then modify the Causal Graph tab section

src/display/utils.py CHANGED Viewed

@@ -60,15 +60,49 @@ AutoEvalColumnMultimodal = make_dataclass("AutoEvalColumnMultimodal", auto_eval_
 auto_eval_column_dict_mib_subgraph = []
 # Method name column
 auto_eval_column_dict_mib_subgraph.append(["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)])
 # For each task and model combination
 for task in TasksMib_Subgraph:
     for model in task.value.models:
-        col_name = f"{task.value.benchmark}_{model}"  # ioi_gpt2, mcqa_qwen2.5, etc.
         auto_eval_column_dict_mib_subgraph.append([
             col_name,
             ColumnContent,
@@ -79,6 +113,10 @@ for task in TasksMib_Subgraph:
 auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
 # Create the dataclass for MIB columns
 AutoEvalColumn_mib_subgraph = make_dataclass("AutoEvalColumn_mib_subgraph", auto_eval_column_dict_mib_subgraph, frozen=True)
@@ -102,6 +140,12 @@ BENCHMARK_COLS_MIB_CAUSALGRAPH = []
 # # Initialize the MIB causal graph columns
 # auto_eval_column_dict_mib_causalgraph = []

+# auto_eval_column_dict_mib_subgraph = []
+# # Method name column
+# auto_eval_column_dict_mib_subgraph.append(["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)])
+# # For each task and model combination
+# for task in TasksMib_Subgraph:
+#     for model in task.value.models:
+#         col_name = f"{task.value.benchmark}_{model}"  # ioi_gpt2, mcqa_qwen2.5, etc.
+#         auto_eval_column_dict_mib_subgraph.append([
+#             col_name,
+#             ColumnContent,
+#             ColumnContent(col_name, "number", True)
+#         ])
+# # Average column
+# auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
 auto_eval_column_dict_mib_subgraph = []
 # Method name column
 auto_eval_column_dict_mib_subgraph.append(["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)])
+# Add task filter column
+task_values = list(set(task.value.benchmark for task in TasksMib_Subgraph))
+auto_eval_column_dict_mib_subgraph.append(
+    ["task_filter", ColumnContent, ColumnContent("Task", "str", True, never_hidden=True)]
+)
+# Add model filter column
+model_values = list(set(
+    model
+    for task in TasksMib_Subgraph
+    for model in task.value.models
+))
+auto_eval_column_dict_mib_subgraph.append(
+    ["model_filter", ColumnContent, ColumnContent("Model", "str", True, never_hidden=True)]
+)
 # For each task and model combination
 for task in TasksMib_Subgraph:
     for model in task.value.models:
+        col_name = f"{task.value.benchmark}_{model}"
         auto_eval_column_dict_mib_subgraph.append([
             col_name,
             ColumnContent,
 auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
 # Create the dataclass for MIB columns
 AutoEvalColumn_mib_subgraph = make_dataclass("AutoEvalColumn_mib_subgraph", auto_eval_column_dict_mib_subgraph, frozen=True)
 # # Initialize the MIB causal graph columns
 # auto_eval_column_dict_mib_causalgraph = []