Spaces:

mib-bench
/

leaderboard

Running

App Files Files Community

jasonshaoshun commited on Jan 29

Commit

09666ed

1 Parent(s): e8fa8c8

debug

Browse files

Files changed (2) hide show

app.py +79 -81
src/display/utils.py +40 -40

app.py CHANGED Viewed

@@ -262,30 +262,30 @@ LEADERBOARD_DF_MIB_CAUSALGRAPH_DETAILED, LEADERBOARD_DF_MIB_CAUSALGRAPH_AGGREGAT
-def init_leaderboard_mib_subgraph(dataframe, track):
-    # print(f"init_leaderboard_mib: dataframe head before loc is {dataframe.head()}\n")
-    if dataframe is None or dataframe.empty:
-        raise ValueError("Leaderboard DataFrame is empty or None.")
-    # filter for correct track
-    # dataframe = dataframe.loc[dataframe["Track"] == track]
-    # print(f"init_leaderboard_mib: dataframe head after loc is {dataframe.head()}\n")
-    return Leaderboard(
-        value=dataframe,
-        datatype=[c.type for c in fields(AutoEvalColumn_mib_subgraph)],
-        select_columns=SelectColumns(
-            default_selection=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.displayed_by_default],
-            cant_deselect=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.never_hidden],
-            label="Select Columns to Display:",
-        ),
-        search_columns=["Method"],  # Changed from AutoEvalColumn_mib_subgraph.model.name to "Method"
-        hide_columns=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.hidden],
-        bool_checkboxgroup_label="Hide models",
-        interactive=False,
-    )
@@ -351,72 +351,70 @@ def init_leaderboard_mib_subgraph(dataframe, track):
 #     )
-# def init_leaderboard_mib_subgraph(dataframe, track):
-#     """Initialize the subgraph leaderboard with display names for better readability."""
-#     if dataframe is None or dataframe.empty:
-#         raise ValueError("Leaderboard DataFrame is empty or None.")
-#     print("\nDebugging DataFrame columns:", dataframe.columns.tolist())
-#     # First, create our display name mapping
-#     # This is like creating a translation dictionary between internal names and display names
-#     display_mapping = {}
-#     for task in TasksMib_Subgraph:
-#         for model in task.value.models:
-#             field_name = f"{task.value.benchmark}_{model}"
-#             display_name = f"{task.value.benchmark}({model})"
-#             display_mapping[field_name] = display_name
-#     # Now when creating benchmark groups, we'll use display names
-#     benchmark_groups = []
-#     for task in TasksMib_Subgraph:
-#         benchmark = task.value.benchmark
-#         benchmark_cols = [
-#             display_mapping[f"{benchmark}_{model}"]  # Use display name from our mapping
-#             for model in task.value.models
-#             if f"{benchmark}_{model}" in dataframe.columns
-#         ]
-#         if benchmark_cols:
-#             benchmark_groups.append(benchmark_cols)
-#             print(f"\nBenchmark group for {benchmark}:", benchmark_cols)
-#     # Similarly for model groups
-#     model_groups = []
-#     all_models = list(set(model for task in TasksMib_Subgraph for model in task.value.models))
-#     for model in all_models:
-#         model_cols = [
-#             display_mapping[f"{task.value.benchmark}_{model}"]  # Use display name
-#             for task in TasksMib_Subgraph
-#             if model in task.value.models
-#             and f"{task.value.benchmark}_{model}" in dataframe.columns
-#         ]
-#         if model_cols:
-#             model_groups.append(model_cols)
-#             print(f"\nModel group for {model}:", model_cols)
-#     # Combine all groups using display names
-#     all_groups = benchmark_groups + model_groups
-#     all_columns = [col for group in all_groups for col in group]
-#     # Important: We need to rename our DataFrame columns to match display names
-#     renamed_df = dataframe.rename(columns=display_mapping)
-#     # Original code
-#     return Leaderboard(
-#         value=renamed_df,  # Use DataFrame with display names
-#         datatype=[c.type for c in fields(AutoEvalColumn_mib_subgraph)],
-#         select_columns=SelectColumns(
-#             default_selection=all_columns,  # Now contains display names
-#             label="Select Results:"
-#         ),
-#         search_columns=["Method"],
-#         hide_columns=[],
-#         interactive=False,
-#     )

+# def init_leaderboard_mib_subgraph(dataframe, track):
+#     # print(f"init_leaderboard_mib: dataframe head before loc is {dataframe.head()}\n")
+#     if dataframe is None or dataframe.empty:
+#         raise ValueError("Leaderboard DataFrame is empty or None.")
+#     # filter for correct track
+#     # dataframe = dataframe.loc[dataframe["Track"] == track]
+#     # print(f"init_leaderboard_mib: dataframe head after loc is {dataframe.head()}\n")
+#     return Leaderboard(
+#         value=dataframe,
+#         datatype=[c.type for c in fields(AutoEvalColumn_mib_subgraph)],
+#         select_columns=SelectColumns(
+#             default_selection=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.displayed_by_default],
+#             cant_deselect=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.never_hidden],
+#             label="Select Columns to Display:",
+#         ),
+#         search_columns=["Method"],  # Changed from AutoEvalColumn_mib_subgraph.model.name to "Method"
+#         hide_columns=[c.name for c in fields(AutoEvalColumn_mib_subgraph) if c.hidden],
+#         bool_checkboxgroup_label="Hide models",
+#         interactive=False,
+#     )
 #     )
+def init_leaderboard_mib_subgraph(dataframe, track):
+    """Initialize the subgraph leaderboard with display names for better readability."""
+    if dataframe is None or dataframe.empty:
+        raise ValueError("Leaderboard DataFrame is empty or None.")
+    print("\nDebugging DataFrame columns:", dataframe.columns.tolist())
+    # First, create our display name mapping
+    # This is like creating a translation dictionary between internal names and display names
+    display_mapping = {}
+    for task in TasksMib_Subgraph:
+        for model in task.value.models:
+            field_name = f"{task.value.benchmark}_{model}"
+            display_name = f"{task.value.benchmark}({model})"
+            display_mapping[field_name] = display_name
+    # Now when creating benchmark groups, we'll use display names
+    benchmark_groups = []
+    for task in TasksMib_Subgraph:
+        benchmark = task.value.benchmark
+        benchmark_cols = [
+            display_mapping[f"{benchmark}_{model}"]  # Use display name from our mapping
+            for model in task.value.models
+            if f"{benchmark}_{model}" in dataframe.columns
+        ]
+        if benchmark_cols:
+            benchmark_groups.append(benchmark_cols)
+            print(f"\nBenchmark group for {benchmark}:", benchmark_cols)
+    # Similarly for model groups
+    model_groups = []
+    all_models = list(set(model for task in TasksMib_Subgraph for model in task.value.models))
+    for model in all_models:
+        model_cols = [
+            display_mapping[f"{task.value.benchmark}_{model}"]  # Use display name
+            for task in TasksMib_Subgraph
+            if model in task.value.models
+            and f"{task.value.benchmark}_{model}" in dataframe.columns
+        ]
+        if model_cols:
+            model_groups.append(model_cols)
+            print(f"\nModel group for {model}:", model_cols)
+    # Combine all groups using display names
+    all_groups = benchmark_groups + model_groups
+    all_columns = [col for group in all_groups for col in group]
+    # Important: We need to rename our DataFrame columns to match display names
+    renamed_df = dataframe.rename(columns=display_mapping)
+    # Original code
+    return Leaderboard(
+        value=renamed_df,  # Use DataFrame with display names
+        datatype=[c.type for c in fields(AutoEvalColumn_mib_subgraph)],
+        select_columns=SelectColumns(
+            default_selection=all_columns,  # Now contains display names
+            label="Select Results:"
+        ),
+        search_columns=["Method"],
+        hide_columns=[],
+        interactive=False,
+    )

src/display/utils.py CHANGED Viewed

@@ -61,23 +61,23 @@ AutoEvalColumnMultimodal = make_dataclass("AutoEvalColumnMultimodal", auto_eval_
 ##############################################################################################################
 # Version 1
-auto_eval_column_dict_mib_subgraph = []
-# Method name column
-auto_eval_column_dict_mib_subgraph.append(["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)])
-# For each task and model combination
-for task in TasksMib_Subgraph:
-    for model in task.value.models:
-        col_name = f"{task.value.benchmark}_{model}"  # ioi_gpt2, mcqa_qwen2.5, etc.
-        auto_eval_column_dict_mib_subgraph.append([
-            col_name,
-            ColumnContent,
-            ColumnContent(col_name, "number", True)
-        ])
-# Average column
-auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
 # ##############################################################################################################
@@ -118,39 +118,39 @@ auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnConte
 ##############################################################################################################
-# # Version 3
-# auto_eval_column_dict_mib_subgraph = []
-# # Method name column (always present)
-# auto_eval_column_dict_mib_subgraph.append(
-#     ["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)]
-# )
-# # Add columns for each task-model combination
-# for task in TasksMib_Subgraph:
-#     for model in task.value.models:
-#         field_name = f"{task.value.benchmark}_{model}"
-#         display_name = f"{task.value.benchmark}({model})"
-#         print(f"Creating column - Field name: {field_name}, Display name: {display_name}")
-#         column_content = ColumnContent(display_name, "number", True)
-#         print(f"Column content name property: {column_content.name}")
-#         auto_eval_column_dict_mib_subgraph.append([
-#             field_name,
-#             ColumnContent,
-#             column_content
-#         ])
-# # Add the Average column
-# auto_eval_column_dict_mib_subgraph.append(
-#     ["average", ColumnContent, ColumnContent("Average", "number", True)]
-# )
-# print("\nFinal column configurations:")
-# for field in auto_eval_column_dict_mib_subgraph:
-#     print(f"Field name: {field[0]}, Display name: {field[2].name}")

 ##############################################################################################################
 # Version 1
+# auto_eval_column_dict_mib_subgraph = []
+# # Method name column
+# auto_eval_column_dict_mib_subgraph.append(["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)])
+# # For each task and model combination
+# for task in TasksMib_Subgraph:
+#     for model in task.value.models:
+#         col_name = f"{task.value.benchmark}_{model}"  # ioi_gpt2, mcqa_qwen2.5, etc.
+#         auto_eval_column_dict_mib_subgraph.append([
+#             col_name,
+#             ColumnContent,
+#             ColumnContent(col_name, "number", True)
+#         ])
+# # Average column
+# auto_eval_column_dict_mib_subgraph.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
 # ##############################################################################################################
 ##############################################################################################################
+# Version 3
+auto_eval_column_dict_mib_subgraph = []
+# Method name column (always present)
+auto_eval_column_dict_mib_subgraph.append(
+    ["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)]
+)
+# Add columns for each task-model combination
+for task in TasksMib_Subgraph:
+    for model in task.value.models:
+        field_name = f"{task.value.benchmark}_{model}"
+        display_name = f"{task.value.benchmark}({model})"
+        print(f"Creating column - Field name: {field_name}, Display name: {display_name}")
+        column_content = ColumnContent(display_name, "number", True)
+        print(f"Column content name property: {column_content.name}")
+        auto_eval_column_dict_mib_subgraph.append([
+            field_name,
+            ColumnContent,
+            column_content
+        ])
+# Add the Average column
+auto_eval_column_dict_mib_subgraph.append(
+    ["average", ColumnContent, ColumnContent("Average", "number", True)]
+)
+print("\nFinal column configurations:")
+for field in auto_eval_column_dict_mib_subgraph:
+    print(f"Field name: {field[0]}, Display name: {field[2].name}")