Spaces:

mib-bench
/

leaderboard

Running

App Files Files Community

jasonshaoshun commited on Jan 22

Commit

f585ea0

1 Parent(s): 5bcfeb8

debug

Browse files

Files changed (2) hide show

app.py +27 -3
src/populate.py +11 -14

app.py CHANGED Viewed

@@ -74,7 +74,15 @@ except Exception:
 LEADERBOARD_DF_MIB_SUBGRAPH = get_leaderboard_df_mib_subgraph(EVAL_RESULTS_MIB_SUBGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB_SUBGRAPH, BENCHMARK_COLS_MIB_SUBGRAPH)
-LEADERBOARD_DF_MIB_CAUSALGRAPH = get_leaderboard_df_mib_causalgraph(EVAL_RESULTS_MIB_CAUSALGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB_CAUSALGRAPH, BENCHMARK_COLS_MIB_CAUSALGRAPH)
 # LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 # LEADERBOARD_DF_MULTIMODAL = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS_MULTIMODAL, BENCHMARK_COLS_MULTIMODAL)
@@ -202,9 +210,25 @@ with demo:
         with gr.TabItem("Subgraph", elem_id="subgraph", id=0):
             leaderboard = init_leaderboard_mib_subgraph(LEADERBOARD_DF_MIB_SUBGRAPH, "Subgraph")
         with gr.TabItem("Causal Graph", elem_id="causalgraph", id=1):
-            leaderboard = init_leaderboard_mib_causalgraph(LEADERBOARD_DF_MIB_CAUSALGRAPH, "Causal Graph")
     # with gr.Row():
     #     with gr.Accordion("📙 Citation", open=False):

 LEADERBOARD_DF_MIB_SUBGRAPH = get_leaderboard_df_mib_subgraph(EVAL_RESULTS_MIB_SUBGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB_SUBGRAPH, BENCHMARK_COLS_MIB_SUBGRAPH)
+# LEADERBOARD_DF_MIB_CAUSALGRAPH = get_leaderboard_df_mib_causalgraph(EVAL_RESULTS_MIB_CAUSALGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB_CAUSALGRAPH, BENCHMARK_COLS_MIB_CAUSALGRAPH)
+# In app.py, modify the LEADERBOARD initialization
+LEADERBOARD_DF_MIB_CAUSALGRAPH_DETAILED, LEADERBOARD_DF_MIB_CAUSALGRAPH_AGGREGATED, LEADERBOARD_DF_MIB_CAUSALGRAPH_AVERAGED = get_leaderboard_df_mib_causalgraph(
+    EVAL_RESULTS_MIB_CAUSALGRAPH_PATH,
+    EVAL_REQUESTS_PATH,
+    COLS_MIB_CAUSALGRAPH,
+    BENCHMARK_COLS_MIB_CAUSALGRAPH
+)
 # LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 # LEADERBOARD_DF_MULTIMODAL = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS_MULTIMODAL, BENCHMARK_COLS_MULTIMODAL)
         with gr.TabItem("Subgraph", elem_id="subgraph", id=0):
             leaderboard = init_leaderboard_mib_subgraph(LEADERBOARD_DF_MIB_SUBGRAPH, "Subgraph")
+        # Then modify the Causal Graph tab section
         with gr.TabItem("Causal Graph", elem_id="causalgraph", id=1):
+            with gr.Tabs() as causalgraph_tabs:
+                with gr.TabItem("Detailed View", id=0):
+                    leaderboard_detailed = init_leaderboard_mib_causalgraph(
+                        LEADERBOARD_DF_MIB_CAUSALGRAPH_DETAILED,
+                        "Causal Graph"
+                    )
+                with gr.TabItem("Aggregated View", id=1):
+                    leaderboard_aggregated = init_leaderboard_mib_causalgraph(
+                        LEADERBOARD_DF_MIB_CAUSALGRAPH_AGGREGATED,
+                        "Causal Graph"
+                    )
+                with gr.TabItem("Intervention Averaged", id=2):
+                    leaderboard_averaged = init_leaderboard_mib_causalgraph(
+                        LEADERBOARD_DF_MIB_CAUSALGRAPH_AVERAGED,
+                        "Causal Graph"
+                    )
     # with gr.Row():
     #     with gr.Accordion("📙 Citation", open=False):

src/populate.py CHANGED Viewed

@@ -110,26 +110,23 @@ def create_intervention_averaged_df(df: pd.DataFrame) -> pd.DataFrame:
     return averaged_df
-def get_leaderboard_df_mib_causalgraph(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
-    """Creates a dataframe from all the MIB causal graph experiment results"""
-    print(f"Starting get_leaderboard_df_mib_causalgraph with path: {results_path}")
     raw_data = get_raw_eval_results_mib_causalgraph(results_path, requests_path)
-    print(f"Length of raw_data: {len(raw_data) if raw_data else 0}")
-    if not raw_data:
-        print("Warning: raw_data is empty")
-        return pd.DataFrame()
     # Convert each result to dict format for detailed df
     all_data_json = [v.to_dict() for v in raw_data]
-    print(f"Length of all_data_json: {len(all_data_json)}")
-    print(f"First entry of all_data_json: {all_data_json[0] if all_data_json else None}")
     detailed_df = pd.DataFrame.from_records(all_data_json)
-    print(f"Shape of detailed_df: {detailed_df.shape}")
-    print(f"Columns in detailed_df: {detailed_df.columns.tolist()}")
-    return detailed_df
 def get_evaluation_queue_df(save_path: str, cols: list) -> list[pd.DataFrame]:

     return averaged_df
+def get_leaderboard_df_mib_causalgraph(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame]:
+    """Creates three dataframes from all the MIB causal graph experiment results"""
+    print(f"results_path is {results_path}, requests_path is {requests_path}")
     raw_data = get_raw_eval_results_mib_causalgraph(results_path, requests_path)
+    print(f"raw_data is {raw_data}")
     # Convert each result to dict format for detailed df
     all_data_json = [v.to_dict() for v in raw_data]
     detailed_df = pd.DataFrame.from_records(all_data_json)
+    # Create aggregated df
+    aggregated_df = aggregate_methods(detailed_df)
+    # Create intervention-averaged df
+    intervention_averaged_df = create_intervention_averaged_df(aggregated_df)
+    return detailed_df, aggregated_df, intervention_averaged_df
 def get_evaluation_queue_df(save_path: str, cols: list) -> list[pd.DataFrame]: