Spaces:

mib-bench
/

leaderboard

Running

App Files Files Community

atticusg commited on Jan 11

Commit

9ebccf5

verified ·

1 Parent(s): aefedd7

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -100

app.py CHANGED Viewed

@@ -79,7 +79,7 @@ except Exception:
 LEADERBOARD_DF_MIB_SUBGRAPH = get_leaderboard_df_mib(EVAL_RESULTS_MIB_SUBGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB, BENCHMARK_COLS_MIB)
-LEADERBOARD_DF_MIB_CAUSALGRAPH = get_leaderboard_df_mib(EVAL_RESULTS_MIB_CAUSALGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB, BENCHMARK_COLS_MIB)
 # LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 # LEADERBOARD_DF_MULTIMODAL = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS_MULTIMODAL, BENCHMARK_COLS_MULTIMODAL)
@@ -116,103 +116,6 @@ def init_leaderboard_mib(dataframe, track):
         interactive=False,
     )
-def calculate_best_layer_scores(task_data):
-    """
-    Calculate the best scores across layers for output token and location
-    Args:
-        task_data: Dictionary containing task scores for different layers
-    Returns:
-        Dictionary with best scores and corresponding layer
-    """
-    output_token_scores = [layer_data['output_token'] for layer_data in task_data.values()]
-    output_location_scores = [layer_data['output_location'] for layer_data in task_data.values()]
-    best_output_token = max(output_token_scores)
-    best_output_location = max(output_location_scores)
-    # Find the layer with the best combined performance
-    layer_scores = [(layer, layer_data['output_token'] + layer_data['output_location'])
-                   for layer, layer_data in task_data.items()]
-    best_layer = max(layer_scores, key=lambda x: x[1])[0]
-    return {
-        'output_token': best_output_token,
-        'output_location': best_output_location,
-        'best_layer': int(best_layer)
-    }
-def process_single_method(json_data):
-    """
-    Process results for a single method into summary rows
-    Args:
-        json_data: Dictionary containing results for one method
-    Returns:
-        List of summary rows for the method
-    """
-    summary_rows = []
-    method_name = json_data['method_name']
-    for model_result in json_data['results']:
-        model_id = model_result['model_id']
-        task_data = model_result['task_scores']['MCQA']
-        best_scores = calculate_best_layer_scores(task_data)
-        summary_row = {
-            'Method': method_name,
-            'Model': model_id,
-            'Best Output Token Score': best_scores['output_token'],
-            'Best Output Location Score': best_scores['output_location'],
-            'Best Layer': best_scores['best_layer']
-        }
-        summary_rows.append(summary_row)
-    return summary_rows
-def init_leaderboard_mib_causal(json_data_list, track):
-    """
-    Creates a leaderboard summary for causal intervention results from multiple methods
-    Args:
-        json_data_list: List of dictionaries containing results for different methods
-        track: Track identifier (currently unused but maintained for compatibility)
-    Returns:
-        Leaderboard object containing processed and formatted results
-    """
-    # Process all methods
-    all_summary_data = []
-    for method_data in json_data_list:
-        method_summary = process_single_method(method_data)
-        all_summary_data.extend(method_summary)
-    # Convert to DataFrame
-    results_df = pd.DataFrame(all_summary_data)
-    # Sort by best score (using output token score as primary metric)
-    results_df = results_df.sort_values('Best Output Token Score', ascending=False)
-    # Round numeric columns to 3 decimal places
-    numeric_cols = ['Best Output Token Score', 'Best Output Location Score']
-    results_df[numeric_cols] = results_df[numeric_cols].round(3)
-    return Leaderboard(
-        value=results_df,
-        datatype=['text', 'text', 'number', 'number', 'number'],
-        select_columns=SelectColumns(
-            default_selection=['Method', 'Model', 'Best Output Token Score', 'Best Output Location Score', 'Best Layer'],
-            cant_deselect=['Method', 'Model'],
-            label="Select Metrics to Display:",
-        ),
-        search_columns=['Method', 'Model'],
-        interactive=False,
-    )
 def init_leaderboard(dataframe, track):
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
@@ -280,8 +183,8 @@ with demo:
             leaderboard = init_leaderboard_mib(LEADERBOARD_DF_MIB_SUBGRAPH, "Subgraph")
             # leaderboard = init_leaderboard_mib(LEADERBOARD_DF, "mib")
-        with gr.TabItem("Causal Graph", elem_id="causalgraph", id=1):
-            leaderboard = init_leaderboard_mib_causal(LEADERBOARD_DF_MIB_CAUSALGRAPH, "Causal Graph")
     # with gr.Row():
     #     with gr.Accordion("📙 Citation", open=False):

 LEADERBOARD_DF_MIB_SUBGRAPH = get_leaderboard_df_mib(EVAL_RESULTS_MIB_SUBGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB, BENCHMARK_COLS_MIB)
+# LEADERBOARD_DF_MIB_CAUSALGRAPH = get_leaderboard_df_mib_causal(EVAL_RESULTS_MIB_CAUSALGRAPH_PATH, EVAL_REQUESTS_PATH, COLS_MIB, BENCHMARK_COLS_MIB)
 # LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 # LEADERBOARD_DF_MULTIMODAL = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS_MULTIMODAL, BENCHMARK_COLS_MULTIMODAL)
         interactive=False,
     )
 def init_leaderboard(dataframe, track):
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
             leaderboard = init_leaderboard_mib(LEADERBOARD_DF_MIB_SUBGRAPH, "Subgraph")
             # leaderboard = init_leaderboard_mib(LEADERBOARD_DF, "mib")
+        # with gr.TabItem("Causal Graph", elem_id="causalgraph", id=1):
+        #     leaderboard = init_leaderboard_mib_causal(LEADERBOARD_DF_MIB_CAUSALGRAPH, "Causal Graph")
     # with gr.Row():
     #     with gr.Accordion("📙 Citation", open=False):