Spaces:

yan111222
/

CapArena_Auto

Running

ycy commited on Mar 2

Commit

320abd6

1 Parent(s): 7dad3b1

test

Files changed (2) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -76,7 +76,7 @@ class EvalResult:
             if accs.size == 0 or any([acc is None for acc in accs]):
                 continue
-            mean_acc = np.mean(accs) * 100.0
             results[task.benchmark] = mean_acc
         return self(

             if accs.size == 0 or any([acc is None for acc in accs]):
                 continue
+            mean_acc = np.mean(accs)
             results[task.benchmark] = mean_acc
         return self(

src/populate.py CHANGED Viewed

@@ -18,8 +18,7 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     df = df.sort_values(by=[AutoEvalColumn.task0.name], ascending=False)
     df = df[cols].round(decimals=2)
-    print(df)
-    assert 0
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]
     return df

     df = df.sort_values(by=[AutoEvalColumn.task0.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]
     return df