Spaces:

mib-bench
/

leaderboard

Running

App Files Files Community

jasonshaoshun commited on Jan 28

Commit

a90efab

1 Parent(s): 85b93b7

debug

Browse files

Files changed (2) hide show

app.py +57 -25
src/display/utils.py +33 -1

app.py CHANGED Viewed

@@ -125,17 +125,66 @@ LEADERBOARD_DF_MIB_CAUSALGRAPH_DETAILED, LEADERBOARD_DF_MIB_CAUSALGRAPH_AGGREGAT
 from src.about import TasksMib_Subgraph
 def init_leaderboard_mib_subgraph(dataframe, track):
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
-    # Get unique tasks and models for filters
-    tasks = list(set(task.value.benchmark for task in TasksMib_Subgraph))
-    models = list(set(
-        model
-        for task in TasksMib_Subgraph
-        for model in task.value.models
-    ))
     return Leaderboard(
         value=dataframe,
@@ -145,21 +194,7 @@ def init_leaderboard_mib_subgraph(dataframe, track):
             cant_deselect=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.never_hidden],
             label="Select Columns to Display:",
         ),
-        column_filters=[
-            ColumnFilter(
-                column="task_filter",
-                choices=tasks,
-                label="Filter by Task:",
-                default=None
-            ),
-            ColumnFilter(
-                column="model_filter",
-                choices=models,
-                label="Filter by Model:",
-                default=None
-            )
-        ],
-        search_columns=["Method"],
         hide_columns=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.hidden],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
@@ -176,9 +211,6 @@ def init_leaderboard_mib_subgraph(dataframe, track):
 def init_leaderboard_mib_causalgraph(dataframe, track):
     # print("Debugging column issues:")
     # print("\nActual DataFrame columns:")

 from src.about import TasksMib_Subgraph
+# def init_leaderboard_mib_subgraph(dataframe, track):
+#     if dataframe is None or dataframe.empty:
+#         raise ValueError("Leaderboard DataFrame is empty or None.")
+#     # Get unique tasks and models for filters
+#     tasks = list(set(task.value.benchmark for task in TasksMib_Subgraph))
+#     models = list(set(
+#         model
+#         for task in TasksMib_Subgraph
+#         for model in task.value.models
+#     ))
+#     return Leaderboard(
+#         value=dataframe,
+#         datatype=[c.type for c in fields(AutoEvalColumn_mib_subgraph)],
+#         select_columns=SelectColumns(
+#             default_selection=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.displayed_by_default],
+#             cant_deselect=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.never_hidden],
+#             label="Select Columns to Display:",
+#         ),
+#         column_filters=[
+#             ColumnFilter(
+#                 column="task_filter",
+#                 choices=tasks,
+#                 label="Filter by Task:",
+#                 default=None
+#             ),
+#             ColumnFilter(
+#                 column="model_filter",
+#                 choices=models,
+#                 label="Filter by Model:",
+#                 default=None
+#             )
+#         ],
+#         search_columns=["Method"],
+#         hide_columns=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.hidden],
+#         bool_checkboxgroup_label="Hide models",
+#         interactive=False,
+#     )
 def init_leaderboard_mib_subgraph(dataframe, track):
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
+    # Add filter columns to display
+    dataframe['Task'] = dataframe.apply(
+        lambda row: [task.value.benchmark for task in TasksMib_Subgraph
+                    if any(f"{task.value.benchmark}_{model}" in row.index
+                          for model in task.value.models)][0],
+        axis=1
+    )
+    dataframe['Model'] = dataframe.apply(
+        lambda row: [model for task in TasksMib_Subgraph
+                    for model in task.value.models
+                    if f"{task.value.benchmark}_{model}" in row.index][0],
+        axis=1
+    )
     return Leaderboard(
         value=dataframe,
             cant_deselect=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.never_hidden],
             label="Select Columns to Display:",
         ),
+        search_columns=["Method", "Task", "Model"],  # Add Task and Model to searchable columns
         hide_columns=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.hidden],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
 def init_leaderboard_mib_causalgraph(dataframe, track):
     # print("Debugging column issues:")
     # print("\nActual DataFrame columns:")

src/display/utils.py CHANGED Viewed

@@ -58,7 +58,8 @@ AutoEvalColumnMultimodal = make_dataclass("AutoEvalColumnMultimodal", auto_eval_
 # auto_eval_column_dict_mib_subgraph = []
@@ -78,6 +79,9 @@ AutoEvalColumnMultimodal = make_dataclass("AutoEvalColumnMultimodal", auto_eval_
 # # Average column
 # auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
 auto_eval_column_dict_mib_subgraph = []
 # Method name column
@@ -113,6 +117,34 @@ for task in TasksMib_Subgraph:
 auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])

+##############################################################################################################
+# Version 1
 # auto_eval_column_dict_mib_subgraph = []
 # # Average column
 # auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
+##############################################################################################################
+# Version 2
 auto_eval_column_dict_mib_subgraph = []
 # Method name column
 auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
+##############################################################################################################
+# Version 3
+auto_eval_column_dict_mib_subgraph = []
+# Method name column
+auto_eval_column_dict_mib_subgraph.append(["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)])
+# Add Task and Model columns for filtering
+auto_eval_column_dict_mib_subgraph.append(["Task", ColumnContent, ColumnContent("Task", "str", True)])
+auto_eval_column_dict_mib_subgraph.append(["Model", ColumnContent, ColumnContent("Model", "str", True)])
+# For each task and model combination
+for task in TasksMib_Subgraph:
+    for model in task.value.models:
+        col_name = f"{task.value.benchmark}_{model}"
+        auto_eval_column_dict_mib_subgraph.append([
+            col_name,
+            ColumnContent,
+            ColumnContent(col_name, "number", True)
+        ])
+# Average column
+auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])