Spaces:

BAAI
/

EmbodiedVerse

Running

lixuejing commited on 5 days ago

Commit

70172bf

1 Parent(s): ff262aa

update

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -92,12 +92,13 @@ class EvalResult:
             for k, v in data["results"].items():
                 print("k,v,benchmark,metic",k,v, task.benchmark,task.metric)
                 if task.benchmark == k:
-                    print(v.get(task.metric, None))
             print("accs", accs)
             if accs.size == 0 or any([acc is None for acc in accs]):
                 continue
             mean_acc = np.mean(accs) if len(accs) > 0 else 0
             results[task.metric] = mean_acc
         return self(
@@ -183,14 +184,14 @@ class EvalResult:
                     data_dict[task.value.col_name] = "%.2f" % self.results.get(task.value.benchmark, 0)
         for task in Quotas:
-            #data_dict[task.value.col_name] = self.results.get(task.value.benchmark, 0)
             if task.value.col_name != "CLCC-H":
-                data_dict[task.value.col_name] = self.results.get(task.value.benchmark, 0)
             else:
                 if self.results.get(task.value.metric, 0) == 0:
                     data_dict[task.value.col_name] = "-"
                 else:
-                    data_dict[task.value.col_name] = "%.2f" % self.results.get(task.value.benchmark, 0)
         return data_dict

             for k, v in data["results"].items():
                 print("k,v,benchmark,metic",k,v, task.benchmark,task.metric)
                 if task.benchmark == k:
+                    print("task.benchmark == k get metic",v.get(task.metric, None))
             print("accs", accs)
             if accs.size == 0 or any([acc is None for acc in accs]):
                 continue
             mean_acc = np.mean(accs) if len(accs) > 0 else 0
+            print("mean_acc", task.metric, mean_acc)
             results[task.metric] = mean_acc
         return self(
                     data_dict[task.value.col_name] = "%.2f" % self.results.get(task.value.benchmark, 0)
         for task in Quotas:
+            #data_dict[task.value.col_name] = self.results.get(task.value.metric, 0)
             if task.value.col_name != "CLCC-H":
+                data_dict[task.value.col_name] = self.results.get(task.value.metric, 0)
             else:
                 if self.results.get(task.value.metric, 0) == 0:
                     data_dict[task.value.col_name] = "-"
                 else:
+                    data_dict[task.value.col_name] = "%.2f" % self.results.get(task.value.metric, 0)
         return data_dict