Spaces:

Deepmama
/

LLM-FR_Leaderboard

Running

BertrandCabotIDRIS commited on Jun 16

Commit

349acce

verified ·

1 Parent(s): 6b0f22e

Update src/leaderboard/read_evals.py

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -80,6 +80,19 @@ class EvalResult:
             mean_acc = np.mean(accs) * 100.0
             results[task.benchmark] = mean_acc
         return self(
             eval_name=result_key,
             full_model=full_model,
@@ -134,6 +147,9 @@ class EvalResult:
         for task in Tasks:
             data_dict[task.value.col_name] = self.results[task.value.benchmark]
         return data_dict

             mean_acc = np.mean(accs) * 100.0
             results[task.benchmark] = mean_acc
+        mix_accs = []
+        for task in MixTasks:
+            task = task.value
+            # We average all scores of a given metric (not all metrics are present in all files)
+            accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if task.benchmark == k])
+            if accs.size == 0 or any([acc is None for acc in accs]):
+                continue
+            mix_accs.append(np.mean(accs) * 100.0)
+        results['Mix-fr'] = mean(mix_accs)
         return self(
             eval_name=result_key,
             full_model=full_model,
         for task in Tasks:
             data_dict[task.value.col_name] = self.results[task.value.benchmark]
+        for task in MixTasks:
+            data_dict['Mix-fr'] = self.results['Mix-fr']
         return data_dict