core_leaderboard

Running

benediktstroebl commited on Aug 5, 2024

Commit

bf0e375

1 Parent(s): 387c612

fixed sorting. Modified axis labels

Files changed (2) hide show

app.py CHANGED Viewed

@@ -23,7 +23,7 @@ with gr.Blocks() as demo:
         with gr.Tab("SWE-Bench"):
             with gr.Row():
                 with gr.Column(scale=1):
-                    scatter_plot = gr.Plot(create_scatter_plot(parse_json_files(os.path.join(abs_path, "evals"), 'swebench_lite'), "results_total_cost", "results_accuracy", "Cost", "Accuracy", ["agent_name"]))
                 with gr.Column(scale=1):
                     Leaderboard(
                         value=parse_json_files(os.path.join(abs_path, "evals"), 'swebench_lite'),

         with gr.Tab("SWE-Bench"):
             with gr.Row():
                 with gr.Column(scale=1):
+                    scatter_plot = gr.Plot(create_scatter_plot(parse_json_files(os.path.join(abs_path, "evals"), 'swebench_lite'), "results_total_cost", "results_accuracy", "Cost (in USD)", "Accuracy", ["agent_name"]))
                 with gr.Column(scale=1):
                     Leaderboard(
                         value=parse_json_files(os.path.join(abs_path, "evals"), 'swebench_lite'),

utils.py CHANGED Viewed

@@ -41,8 +41,13 @@ def parse_json_files(folder_path, benchmark_name):
     # Create DataFrame from the list of dictionaries
     df = pd.DataFrame(data_list)
-    return df[df['benchmark_name'] == benchmark_name]
 def create_scatter_plot(df, x: str, y: str, x_label: str = None, y_label: str = None, hover_data: list = None):

     # Create DataFrame from the list of dictionaries
     df = pd.DataFrame(data_list)
+    df = df[df['benchmark_name'] == benchmark_name]
+    # sort df by descending accuracy
+    df = df.sort_values(by='results_accuracy', ascending=False)
+    return df
 def create_scatter_plot(df, x: str, y: str, x_label: str = None, y_label: str = None, hover_data: list = None):