open_llm_leaderboard-check

Runtime error

Clémentine commited on Aug 7, 2023

Commit

d350941

1 Parent(s): 35763fc

fix rounding

Files changed (2) hide show

app.py CHANGED Viewed

@@ -18,6 +18,8 @@ from src.assets.css_html_js import custom_css, get_window_url_params
 from src.utils_display import AutoEvalColumn, EvalQueueColumn, fields, styled_error, styled_warning, styled_message
 from src.init import get_all_requested_models, load_all_info_from_hub
 # clone / pull the lmeh eval data
 H4_TOKEN = os.environ.get("H4_TOKEN", None)
@@ -91,7 +93,7 @@ def get_leaderboard_df():
     df = pd.DataFrame.from_records(all_data)
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
-    df = df[COLS]
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, BENCHMARK_COLS)]

 from src.utils_display import AutoEvalColumn, EvalQueueColumn, fields, styled_error, styled_warning, styled_message
 from src.init import get_all_requested_models, load_all_info_from_hub
+pd.set_option('display.precision', 1)
 # clone / pull the lmeh eval data
 H4_TOKEN = os.environ.get("H4_TOKEN", None)
     df = pd.DataFrame.from_records(all_data)
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
+    df = df[COLS].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, BENCHMARK_COLS)]

src/auto_leaderboard/load_results.py CHANGED Viewed

@@ -44,9 +44,7 @@ class EvalResult:
         data_dict[AutoEvalColumn.model.name] = make_clickable_model(base_model)
         data_dict[AutoEvalColumn.dummy.name] = base_model
         data_dict[AutoEvalColumn.revision.name] = self.revision
-        data_dict[AutoEvalColumn.average.name] = round(
-            sum([v for k, v in self.results.items()]) / 4.0, 1
-        )
         for benchmark in BENCHMARKS:
             if benchmark not in self.results.keys():
@@ -95,7 +93,7 @@ def parse_eval_result(json_filepath: str) -> Tuple[str, list[dict]]:
         accs = np.array([v[metric] for k, v in data["results"].items() if benchmark in k])
         if accs.size == 0:
             continue
-        mean_acc = round(np.mean(accs) * 100.0, 1)
         eval_results.append(EvalResult(
             eval_name=result_key, org=org, model=model, revision=model_sha, results={benchmark: mean_acc}, #todo model_type=, weight_type=
         ))

         data_dict[AutoEvalColumn.model.name] = make_clickable_model(base_model)
         data_dict[AutoEvalColumn.dummy.name] = base_model
         data_dict[AutoEvalColumn.revision.name] = self.revision
+        data_dict[AutoEvalColumn.average.name] = sum([v for k, v in self.results.items()]) / 4.0
         for benchmark in BENCHMARKS:
             if benchmark not in self.results.keys():
         accs = np.array([v[metric] for k, v in data["results"].items() if benchmark in k])
         if accs.size == 0:
             continue
+        mean_acc = np.mean(accs) * 100.0
         eval_results.append(EvalResult(
             eval_name=result_key, org=org, model=model, revision=model_sha, results={benchmark: mean_acc}, #todo model_type=, weight_type=
         ))