open-r1-eval-leaderboard

Running

lewtun HF Staff commited on Jul 5, 2024

Commit

ee2d68d

1 Parent(s): 49eaa6a

Add ifeval metrics

Files changed (1) hide show

app.py CHANGED Viewed

@@ -51,8 +51,9 @@ def get_leaderboard_df():
                     df.loc[model_revision, task] = float(value)
                 # IFEval has several metrics but we report just the prompt-loose-acc one
                 elif task.lower() == "ifeval":
-                    value = data["results"][first_result_key]["prompt_level_loose_acc"]
-                    df.loc[model_revision, task] = float(value)
                 # MMLU has several metrics but we report just the average one
                 elif task.lower() == "mmlu":
                     value = [v["acc"] for k, v in data["results"].items() if "_average" in k.lower()][0]

                     df.loc[model_revision, task] = float(value)
                 # IFEval has several metrics but we report just the prompt-loose-acc one
                 elif task.lower() == "ifeval":
+                    for metric in ["prompt_level_loose", "prompt_level_strict"]:
+                        value = data["results"][first_result_key][f"{metric}_acc"]
+                        df.loc[model_revision, f"{task}_{metric}"] = float(value)
                 # MMLU has several metrics but we report just the average one
                 elif task.lower() == "mmlu":
                     value = [v["acc"] for k, v in data["results"].items() if "_average" in k.lower()][0]