open-r1-eval-leaderboard

Running

lewtun HF Staff commited on May 6

Commit

1dede4d

1 Parent(s): 9d7fd9c

Add pass@1 for MATH-500

Files changed (1) hide show

app.py CHANGED Viewed

@@ -109,6 +109,18 @@ def get_leaderboard_df():
                         df.loc[model_revision, task] = float(data["results"]["all"]["extractive_match"])
                     elif "gpqa_pass@1:8_samples" in data["results"]["all"]:
                         df.loc[model_revision, task] = float(data["results"]["all"]["gpqa_pass@1:8_samples"])
                 # MATH reports qem
                 elif task.lower() in ["aimo_kaggle", "math_deepseek_cot", "math_deepseek_rl_cot"]:
                     value = data["results"]["all"]["qem"]

                         df.loc[model_revision, task] = float(data["results"]["all"]["extractive_match"])
                     elif "gpqa_pass@1:8_samples" in data["results"]["all"]:
                         df.loc[model_revision, task] = float(data["results"]["all"]["gpqa_pass@1:8_samples"])
+                # MATH-500 now reports pass@1
+                elif task.lower() == "math_500":
+                    # Check for 8 samples
+                    if "math_pass@1:4_samples" in data["results"]["all"]:
+                        value = data["results"]["all"]["math_pass@1:4_samples"]
+                        df.loc[model_revision, f"{task} (n=4)"] = float(value)
+                    # For backward compatibility, also store in the original column name if any value exists
+                    if "extractive_match" in data["results"]["all"]:
+                        df.loc[model_revision, task] = float(data["results"]["all"]["extractive_match"])
+                    elif "math_pass@1:4_samples" in data["results"]["all"]:
+                        df.loc[model_revision, task] = float(data["results"]["all"]["math_pass@1:4_samples"])
                 # MATH reports qem
                 elif task.lower() in ["aimo_kaggle", "math_deepseek_cot", "math_deepseek_rl_cot"]:
                     value = data["results"]["all"]["qem"]