Spaces:

mib-bench
/

leaderboard

Running

jasonshaoshun commited on Jan 22

Commit

02e508b

1 Parent(s): a100ebc

debug

Files changed (2) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -258,12 +258,14 @@ class EvalResult_MIB_CAUSALGRAPH:
                     data_dict[col_name] = round(np.mean(scores), 3)
         return data_dict
 def get_raw_eval_results_mib_causalgraph(results_path: str, requests_path: str) -> List[EvalResult_MIB_CAUSALGRAPH]:
-    """Extract evaluation results for MIB causalgraph"""
     model_result_filepaths = []
     for root, dirnames, files in os.walk(results_path):
         if len(files) == 0 or any([not f.endswith(".json") for f in files]):
             continue
@@ -275,17 +277,21 @@ def get_raw_eval_results_mib_causalgraph(results_path: str, requests_path: str)
         for file in files:
             model_result_filepaths.append(os.path.join(root, file))
     eval_results = []
     for filepath in model_result_filepaths:
         try:
             eval_result = EvalResult_MIB_CAUSALGRAPH("", "", {})
             result = eval_result.init_from_json_file(filepath)
-            result.to_dict()  # Verify conversion works
             eval_results.append(result)
         except Exception as e:
             print(f"Error processing {filepath}: {e}")
             continue
     return eval_results

                     data_dict[col_name] = round(np.mean(scores), 3)
         return data_dict
 def get_raw_eval_results_mib_causalgraph(results_path: str, requests_path: str) -> List[EvalResult_MIB_CAUSALGRAPH]:
     model_result_filepaths = []
+    print(f"Scanning directory: {results_path}")
     for root, dirnames, files in os.walk(results_path):
+        print(f"Current directory: {root}")
+        print(f"Found files: {files}")
         if len(files) == 0 or any([not f.endswith(".json") for f in files]):
             continue
         for file in files:
             model_result_filepaths.append(os.path.join(root, file))
+    print(f"Found json files: {model_result_filepaths}")
     eval_results = []
     for filepath in model_result_filepaths:
         try:
             eval_result = EvalResult_MIB_CAUSALGRAPH("", "", {})
             result = eval_result.init_from_json_file(filepath)
+            print(f"Processed file {filepath}")
+            print(f"Got result: {result}")
             eval_results.append(result)
         except Exception as e:
             print(f"Error processing {filepath}: {e}")
             continue
+    print(f"Total results processed: {len(eval_results)}")
     return eval_results

src/populate.py CHANGED Viewed

@@ -112,23 +112,23 @@ def create_intervention_averaged_df(df: pd.DataFrame) -> pd.DataFrame:
 def get_leaderboard_df_mib_causalgraph(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the MIB causal graph experiment results"""
-    print(f"results_path is {results_path}, requests_path is {requests_path}")
     raw_data = get_raw_eval_results_mib_causalgraph(results_path, requests_path)
-    print(f"raw_data is {raw_data}")
     # Convert each result to dict format for detailed df
     all_data_json = [v.to_dict() for v in raw_data]
-    detailed_df = pd.DataFrame.from_records(all_data_json)
-    print(f"detailed_df is: {detailed_df}")
-    # Create and print other views for debugging/reference
-    aggregated_df = aggregate_methods(detailed_df)
-    print(f"aggregated_df is: {aggregated_df}")
-    intervention_averaged_df = create_intervention_averaged_df(aggregated_df)
-    print(f"intervention_averaged_df is: {intervention_averaged_df}")
-    # Only return detailed_df for display
     return detailed_df

 def get_leaderboard_df_mib_causalgraph(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the MIB causal graph experiment results"""
+    print(f"Starting get_leaderboard_df_mib_causalgraph with path: {results_path}")
     raw_data = get_raw_eval_results_mib_causalgraph(results_path, requests_path)
+    print(f"Length of raw_data: {len(raw_data) if raw_data else 0}")
+    if not raw_data:
+        print("Warning: raw_data is empty")
+        return pd.DataFrame()
     # Convert each result to dict format for detailed df
     all_data_json = [v.to_dict() for v in raw_data]
+    print(f"Length of all_data_json: {len(all_data_json)}")
+    print(f"First entry of all_data_json: {all_data_json[0] if all_data_json else None}")
+    detailed_df = pd.DataFrame.from_records(all_data_json)
+    print(f"Shape of detailed_df: {detailed_df.shape}")
+    print(f"Columns in detailed_df: {detailed_df.columns.tolist()}")
     return detailed_df