evalita_llm_leaderboard

Running

App Files Files Community

rzanoli commited on Sep 19

Commit

95ac6d4

1 Parent(s): a0f2788

Add the function to highlight best per task

Browse files

Files changed (2) hide show

app.py +25 -9
src/leaderboard/read_evals.py +1 -0

app.py CHANGED Viewed

@@ -52,6 +52,19 @@ TASK_METADATA_GENERATIVE = {
     "REL": {"icon": "🔗", "name": "Relation Extraction", "tooltip": ""},
 }
 def theoretical_performance(df_hash):
     """
@@ -141,8 +154,8 @@ def create_line_chart(dataframe):
     # Layout
     fig.update_layout(
-        title="Avg. Combined Performance vs #Params",
-        xaxis_title="#Params (B)", yaxis_title="Avg. Combined Performance",
         template="plotly_white", hovermode="closest",
         font=dict(family="Arial", size=10), dragmode=False,
         xaxis=dict(tickvals=[0, 25, 50, 75, 100, 125], ticktext=["0", "25", "50", "75", "100"]),
@@ -330,6 +343,9 @@ def init_leaderboard(dataframe, default_selection=None, hidden_columns=None):
     # Apply medal assignments
     sorted_dataframe["Model"] = create_medal_assignments(sorted_dataframe)
     field_list = fields(AutoEvalColumn)
     return create_leaderboard_base(sorted_dataframe, field_list, hidden_columns)
@@ -342,7 +358,7 @@ def update_task_leaderboard(dataframe, default_selection=None, hidden_columns=No
         raise ValueError("Leaderboard DataFrame is empty or None.")
     # Sort and reset index
-    sorted_dataframe = dataframe.sort_values(by="Combined Performance", ascending=False).reset_index(drop=True)
     sorted_dataframe["Rank"] = sorted_dataframe.index + 1
     # Apply medal assignments
@@ -542,12 +558,12 @@ def create_gradio_interface():
                                 f"{task} Prompt Std": "Prompt Std",
                                 f"{task} Best Prompt": "Best Prompt",
                                 f"{task} Best Prompt Id": "Best Prompt Id",
-                                task: "Combined Performance"
                             }),
-                            default_selection=['Rank', 'Size', 'FS', 'Model', 'Combined Performance', 'Prompt Average',
                                                'Prompt Std', 'Best Prompt', 'Best Prompt Id'],
                             hidden_columns=[col for col in LEADERBOARD_DF.columns if
-                                            col not in ['Rank', 'Size', 'FS', 'Model', 'Combined Performance',
                                                         'Prompt Average', 'Prompt Std', 'Best Prompt',
                                                         'Best Prompt Id']]
                         )
@@ -567,12 +583,12 @@ def create_gradio_interface():
                                 f"{task} Prompt Std": "Prompt Std",
                                 f"{task} Best Prompt": "Best Prompt",
                                 f"{task} Best Prompt Id": "Best Prompt Id",
-                                task: "Combined Performance"
                             }),
-                            default_selection=['Rank', 'Size', 'FS', 'Model', 'Combined Performance', 'Prompt Average',
                                                'Prompt Std', 'Best Prompt', 'Best Prompt Id'],
                             hidden_columns=[col for col in LEADERBOARD_DF.columns if
-                                            col not in ['Rank', 'Size', 'FS', 'Model', 'Combined Performance',
                                                         'Prompt Average', 'Prompt Std', 'Best Prompt',
                                                         'Best Prompt Id']]
                         )

     "REL": {"icon": "🔗", "name": "Relation Extraction", "tooltip": ""},
 }
+def highlight_best_per_task(df):
+    """Add 🟡 symbol next to the maximum value in each task column"""
+    task_columns = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]
+    df = df.copy()
+    for col in task_columns:
+        if col in df.columns:
+            max_val = df[col].max()
+            df[col] = df[col].apply(
+                lambda x: f"{x:.1f}🔺" if x == max_val else f"{x:.1f}"
+            )
+    return df
 def theoretical_performance(df_hash):
     """
     # Layout
     fig.update_layout(
+        title="Average Performance vs #Params",
+        xaxis_title="#Params (B)", yaxis_title="Average Performance",
         template="plotly_white", hovermode="closest",
         font=dict(family="Arial", size=10), dragmode=False,
         xaxis=dict(tickvals=[0, 25, 50, 75, 100, 125], ticktext=["0", "25", "50", "75", "100"]),
     # Apply medal assignments
     sorted_dataframe["Model"] = create_medal_assignments(sorted_dataframe)
+    # Show the best values for tasks
+    sorted_dataframe = highlight_best_per_task(sorted_dataframe)
     field_list = fields(AutoEvalColumn)
     return create_leaderboard_base(sorted_dataframe, field_list, hidden_columns)
         raise ValueError("Leaderboard DataFrame is empty or None.")
     # Sort and reset index
+    sorted_dataframe = dataframe.sort_values(by="Comb. Perf. ⬆️", ascending=False).reset_index(drop=True)
     sorted_dataframe["Rank"] = sorted_dataframe.index + 1
     # Apply medal assignments
                                 f"{task} Prompt Std": "Prompt Std",
                                 f"{task} Best Prompt": "Best Prompt",
                                 f"{task} Best Prompt Id": "Best Prompt Id",
+                                task: "Comb. Perf. ⬆️"
                             }),
+                            default_selection=['Rank', 'Size', 'FS', 'Model', 'Comb. Perf. ⬆️', 'Prompt Average',
                                                'Prompt Std', 'Best Prompt', 'Best Prompt Id'],
                             hidden_columns=[col for col in LEADERBOARD_DF.columns if
+                                            col not in ['Rank', 'Size', 'FS', 'Model', 'Comb. Perf. ⬆️',
                                                         'Prompt Average', 'Prompt Std', 'Best Prompt',
                                                         'Best Prompt Id']]
                         )
                                 f"{task} Prompt Std": "Prompt Std",
                                 f"{task} Best Prompt": "Best Prompt",
                                 f"{task} Best Prompt Id": "Best Prompt Id",
+                                task: "Comb. Perf. ⬆️"
                             }),
+                            default_selection=['Rank', 'Size', 'FS', 'Model', 'Comb. Perf. ⬆️', 'Prompt Average',
                                                'Prompt Std', 'Best Prompt', 'Best Prompt Id'],
                             hidden_columns=[col for col in LEADERBOARD_DF.columns if
+                                            col not in ['Rank', 'Size', 'FS', 'Model', 'Comb. Perf. ⬆️',
                                                         'Prompt Average', 'Prompt Std', 'Best Prompt',
                                                         'Best Prompt Id']]
                         )

src/leaderboard/read_evals.py CHANGED Viewed

@@ -109,6 +109,7 @@ class EvalResult:
                         results[task.benchmark] = int(v[task.metric_type][-1:])
                     else:
                         #results[task.benchmark] = f"{v[task.metric_type]:.2f}"  # Ensure two decimals for display
                         results[task.benchmark] = float(v[task.metric_type])
                         #value = float(v[task.metric_type])
                         #results[task.benchmark] = round(value, 2)  # Arrotonda a 2 decimali

                         results[task.benchmark] = int(v[task.metric_type][-1:])
                     else:
                         #results[task.benchmark] = f"{v[task.metric_type]:.2f}"  # Ensure two decimals for display
+                        #results[task.benchmark] = float(v[task.metric_type])
                         results[task.benchmark] = float(v[task.metric_type])
                         #value = float(v[task.metric_type])
                         #results[task.benchmark] = round(value, 2)  # Arrotonda a 2 decimali