open-r1-eval-leaderboard

Running

lewtun HF Staff commited on May 1, 2024

Commit

b966f9c

1 Parent(s): dbe56f3

Add AlpacaEval base winrate

Files changed (1) hide show

app.py CHANGED Viewed

@@ -64,9 +64,6 @@ def get_leaderboard_df(merge_values: bool = True):
             # MATH reports qem
             elif task.lower() in ["math", "math_v2", "aimo_kaggle"]:
                 value = data["results"]["all"]["qem"]
-            # Report length controlled winrate for AlpacaEval
-            elif task.lower() == "alpaca_eval":
-                value = data["results"][first_result_key]["length_controlled_winrate"] / 100.0
             else:
                 first_metric_key = next(
                     iter(data["results"][first_result_key])
@@ -80,12 +77,18 @@ def get_leaderboard_df(merge_values: bool = True):
                         level = k.split("|")[1].split(":")[-1]
                         value = v["qem"]
                         df.loc[model_revision, f"{task}_{level}"] = value
             else:
                 df.loc[model_revision, task] = value
     # Put IFEval / BBH / AGIEval / AlpacaEval in first columns
-    alpaca_col = df.pop("Alpaca_eval")
-    df.insert(1, "Alpaca_eval", alpaca_col)
     ifeval_col = df.pop("Ifeval")
     df.insert(2, "Ifeval", ifeval_col)
     bbh_col = df.pop("Bbh")

             # MATH reports qem
             elif task.lower() in ["math", "math_v2", "aimo_kaggle"]:
                 value = data["results"]["all"]["qem"]
             else:
                 first_metric_key = next(
                     iter(data["results"][first_result_key])
                         level = k.split("|")[1].split(":")[-1]
                         value = v["qem"]
                         df.loc[model_revision, f"{task}_{level}"] = value
+            # For AlpacaEval we report base winrate and lenght corrected one
+            elif task.lower() == "alpaca_eval":
+                value = data["results"][first_result_key]["win_rate"]
+                df.loc[model_revision, "Alpaca_eval"] = value / 100.0
+                value = data["results"][first_result_key]["length_controlled_winrate"]
+                df.loc[model_revision, "Alpaca_eval_lc"] = value / 100.0
             else:
                 df.loc[model_revision, task] = value
     # Put IFEval / BBH / AGIEval / AlpacaEval in first columns
+    alpaca_col = df.pop("Alpaca_eval_lc")
+    df.insert(1, "Alpaca_eval_lc", alpaca_col)
     ifeval_col = df.pop("Ifeval")
     df.insert(2, "Ifeval", ifeval_col)
     bbh_col = df.pop("Bbh")