core_leaderboard

Running

App Files Files Community

benediktstroebl commited on Aug 11, 2024

Commit

221fb8a

1 Parent(s): 766750f

refactoring and USACO as default front page

Browse files

Files changed (2) hide show

app.py +19 -55
utils/data.py +20 -0

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ from pathlib import Path
 import pandas as pd
 import os
 import json
-from utils.data import parse_json_files
 from utils.viz import create_scatter_plot, create_flow_chart
 from utils.processing import check_and_process_uploads
 from huggingface_hub import snapshot_download
@@ -40,26 +40,6 @@ abs_path = Path(__file__).parent
 # Global variable to store preprocessed data
 preprocessed_traces = {}
-def preprocess_traces():
-    global preprocessed_traces
-    processed_dir = abs_path / "evals_live"
-    for file in processed_dir.glob('*.json'):
-        try:
-            with open(file, 'r') as f:
-                data = json.load(f)
-                agent_name = data['config']['agent_name']
-                benchmark_name = data['config']['benchmark_name']
-                if benchmark_name not in preprocessed_traces:
-                    preprocessed_traces[benchmark_name] = {}
-                assert type(data['raw_logging_results']) == dict, f"Invalid format for raw_logging_results: {type(data['raw_logging_results'])}"
-                preprocessed_traces[benchmark_name][agent_name] = data['raw_logging_results']
-        except AssertionError as e:
-            preprocessed_traces[benchmark_name][agent_name] = None
-        except Exception as e:
-            print(f"Error preprocessing {file}: {e}")
-            preprocessed_traces[benchmark_name][agent_name] = None
 def get_analyzed_traces(agent_name, benchmark_name):
     return preprocessed_traces.get(benchmark_name, {}).get(agent_name)
@@ -194,45 +174,12 @@ def format_call_info(step, step_index):
     return formatted_info
-def update_call_details(task_id, call_index):
-    if task_id not in analyzed_traces or call_index is None:
-        return "Please select a task and step to view details."
-    calls = analyzed_traces[task_id]['steps']
-    if isinstance(call_index, tuple):
-        call_index = call_index[1]
-    if call_index < 0 or call_index >= len(calls):
-        return f"Invalid call index: {call_index}"
-    call = calls[call_index]
-    return format_call_info(call, call_index)
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🥇 Agent Leaderboard
     """)
     with gr.Tabs():
-        with gr.Tab("SWE-Bench"):
-            with gr.Row():
-                with gr.Column(scale=1):
-                    scatter_plot = gr.Plot(create_scatter_plot(parse_json_files(os.path.join(abs_path, "evals_live"), 'swebench_lite'), "results_total_cost", "results_accuracy", "Cost (in USD)", "Accuracy", ["agent_name"]))
-                with gr.Column(scale=1):
-                    Leaderboard(
-                        value=parse_json_files(os.path.join(abs_path, "evals_live"), 'swebench_lite'),
-                        select_columns=SelectColumns(
-                            default_selection=config.SWEBENCH_ON_LOAD_COLUMNS,
-                            cant_deselect=["agent_name"],
-                            label="Select Columns to Display:",
-                        ),
-                        search_columns=config.SWEBENCH_SEARCH_COLUMNS,
-                        column_widths={"agent_name": 40,
-                                       "results_accuracy": 20,
-                                       "results_total_cost": 20},
-                    )
         with gr.Tab("USACO"):
             with gr.Row():
                 with gr.Column(scale=1):
@@ -329,7 +276,24 @@ with gr.Blocks() as demo:
             raw_step_dropdown.change(update_raw_call_details,
                                     inputs=[raw_agent_dropdown, raw_task_dropdown, raw_step_dropdown],
                                     outputs=[raw_call_details])
         with gr.Tab("About"):
             gr.Markdown((Path(__file__).parent / "about.md").read_text())

 import pandas as pd
 import os
 import json
+from utils.data import parse_json_files, preprocess_traces
 from utils.viz import create_scatter_plot, create_flow_chart
 from utils.processing import check_and_process_uploads
 from huggingface_hub import snapshot_download
 # Global variable to store preprocessed data
 preprocessed_traces = {}
 def get_analyzed_traces(agent_name, benchmark_name):
     return preprocessed_traces.get(benchmark_name, {}).get(agent_name)
     return formatted_info
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🥇 Agent Leaderboard
     """)
     with gr.Tabs():
         with gr.Tab("USACO"):
             with gr.Row():
                 with gr.Column(scale=1):
             raw_step_dropdown.change(update_raw_call_details,
                                     inputs=[raw_agent_dropdown, raw_task_dropdown, raw_step_dropdown],
                                     outputs=[raw_call_details])
+        with gr.Tab("SWE-Bench"):
+            with gr.Row():
+                with gr.Column(scale=1):
+                    scatter_plot = gr.Plot(create_scatter_plot(parse_json_files(os.path.join(abs_path, "evals_live"), 'swebench_lite'), "results_total_cost", "results_accuracy", "Cost (in USD)", "Accuracy", ["agent_name"]))
+                with gr.Column(scale=1):
+                    Leaderboard(
+                        value=parse_json_files(os.path.join(abs_path, "evals_live"), 'swebench_lite'),
+                        select_columns=SelectColumns(
+                            default_selection=config.SWEBENCH_ON_LOAD_COLUMNS,
+                            cant_deselect=["agent_name"],
+                            label="Select Columns to Display:",
+                        ),
+                        search_columns=config.SWEBENCH_SEARCH_COLUMNS,
+                        column_widths={"agent_name": 40,
+                                       "results_accuracy": 20,
+                                       "results_total_cost": 20},
+                    )
         with gr.Tab("About"):
             gr.Markdown((Path(__file__).parent / "about.md").read_text())

utils/data.py CHANGED Viewed

@@ -6,6 +6,26 @@ from utils.pareto import Agent, compute_pareto_frontier
 import plotly.graph_objects as go
 import textwrap
 def parse_json_files(folder_path, benchmark_name):
     # Convert folder path to Path object
     folder = Path(folder_path)

 import plotly.graph_objects as go
 import textwrap
+def preprocess_traces():
+    global preprocessed_traces
+    processed_dir = "evals_live"
+    for file in processed_dir.glob('*.json'):
+        try:
+            with open(file, 'r') as f:
+                data = json.load(f)
+                agent_name = data['config']['agent_name']
+                benchmark_name = data['config']['benchmark_name']
+                if benchmark_name not in preprocessed_traces:
+                    preprocessed_traces[benchmark_name] = {}
+                assert type(data['raw_logging_results']) == dict, f"Invalid format for raw_logging_results: {type(data['raw_logging_results'])}"
+                preprocessed_traces[benchmark_name][agent_name] = data['raw_logging_results']
+        except AssertionError as e:
+            preprocessed_traces[benchmark_name][agent_name] = None
+        except Exception as e:
+            print(f"Error preprocessing {file}: {e}")
+            preprocessed_traces[benchmark_name][agent_name] = None
 def parse_json_files(folder_path, benchmark_name):
     # Convert folder path to Path object
     folder = Path(folder_path)