Spaces:

rntc
/

leaderboard-test

Sleeping

rntc Claude commited on Jul 18

Commit

9f4fde3

1 Parent(s): 1e26b4a

Fix critical stability issues in leaderboard

- Fix KeyError when tasks missing from evaluation results
- Prevent division by zero in average calculations
- Add safe DataFrame column access in filtering
- Fix file path bugs in subdirectory processing
- Add JSON error handling for malformed queue files
- Improve license access with proper fallbacks
- Make filter columns dynamic based on available data

These fixes prevent major crash scenarios when handling edge cases,
empty data, or malformed evaluation files.

🤖 Generated with [Claude Code](https://claude.ai/code)

Co-Authored-By: Claude <[email protected]>

Files changed (5) hide show

app.py +25 -26
src/display/formatting.py +6 -1
src/leaderboard/read_evals.py +3 -2
src/populate.py +20 -11
src/submission/submit.py +5 -1

app.py CHANGED Viewed

@@ -69,23 +69,34 @@ def init_leaderboard(dataframe):
             ),
             search_columns=["model", "license"],
             hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
-            filter_columns=[
-                ColumnFilter("precision", type="checkboxgroup", label="Precision"),
-                ColumnFilter(
-                    "params",
-                    type="slider",
-                    min=0.01,
-                    max=150,
-                    label="Select the number of parameters (B)",
-                ),
-                ColumnFilter(
-                    "still_on_hub", type="boolean", label="Deleted/incomplete", default=True
-                ),
-            ],
             bool_checkboxgroup_label="Hide models",
             interactive=False,
         )
     return Leaderboard(
         value=dataframe,
         datatype=[c.type for c in fields(AutoEvalColumn)],
@@ -96,19 +107,7 @@ def init_leaderboard(dataframe):
         ),
         search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
         hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
-        filter_columns=[
-            ColumnFilter("precision", type="checkboxgroup", label="Precision"),
-            ColumnFilter(
-                "params",
-                type="slider",
-                min=0.01,
-                max=150,
-                label="Select the number of parameters (B)",
-            ),
-            ColumnFilter(
-                "still_on_hub", type="boolean", label="Deleted/incomplete", default=True
-            ),
-        ],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
     )

             ),
             search_columns=["model", "license"],
             hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
+            filter_columns=[],
             bool_checkboxgroup_label="Hide models",
             interactive=False,
         )
+    # Build filter columns based on available data
+    filter_columns = []
+    # Add precision filter only if precision column has data
+    if "precision" in dataframe.columns and not dataframe["precision"].isna().all():
+        filter_columns.append(ColumnFilter("precision", type="checkboxgroup", label="Precision"))
+    # Add params filter only if params column has data
+    if "params" in dataframe.columns and not dataframe["params"].isna().all():
+        filter_columns.append(ColumnFilter(
+            "params",
+            type="slider",
+            min=0.01,
+            max=150,
+            label="Select the number of parameters (B)",
+        ))
+    # Add still_on_hub filter only if column has data
+    if "still_on_hub" in dataframe.columns and not dataframe["still_on_hub"].isna().all():
+        filter_columns.append(ColumnFilter(
+            "still_on_hub", type="boolean", label="Deleted/incomplete", default=True
+        ))
     return Leaderboard(
         value=dataframe,
         datatype=[c.type for c in fields(AutoEvalColumn)],
         ),
         search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
         hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
+        filter_columns=filter_columns,
         bool_checkboxgroup_label="Hide models",
         interactive=False,
     )

src/display/formatting.py CHANGED Viewed

@@ -20,7 +20,12 @@ def styled_message(message):
 def has_no_nan_values(df, columns):
-    return df[columns].notna().all(axis=1)
 def has_nan_values(df, columns):

 def has_no_nan_values(df, columns):
+    if df.empty:
+        return pd.Series([], dtype=bool)
+    existing_cols = [col for col in columns if col in df.columns]
+    if not existing_cols:
+        return pd.Series([True] * len(df), index=df.index)
+    return df[existing_cols].notna().all(axis=1)
 def has_nan_values(df, columns):

src/leaderboard/read_evals.py CHANGED Viewed

@@ -125,7 +125,8 @@ class EvalResult:
     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
-        average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             "precision": self.precision.value.name,
@@ -143,7 +144,7 @@ class EvalResult:
         }
         for task in Tasks:
-            data_dict[task.value.col_name] = self.results[task.value.benchmark]
         return data_dict

     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
+        valid_results = [v for v in self.results.values() if v is not None]
+        average = sum(valid_results) / len(valid_results) if valid_results else 0.0
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             "precision": self.precision.value.name,
         }
         for task in Tasks:
+            data_dict[task.value.col_name] = self.results.get(task.value.benchmark, None)
         return data_dict

src/populate.py CHANGED Viewed

@@ -49,24 +49,33 @@ def get_evaluation_queue_df(save_path: str, cols: list) -> list[pd.DataFrame]:
     for entry in entries:
         if ".json" in entry:
             file_path = os.path.join(save_path, entry)
-            with open(file_path) as fp:
-                data = json.load(fp)
-            data[EvalQueueColumn.model.name] = make_clickable_model(data["model"])
-            data[EvalQueueColumn.revision.name] = data.get("revision", "main")
-            all_evals.append(data)
         elif ".md" not in entry:
             # this is a folder
-            sub_entries = [e for e in os.listdir(f"{save_path}/{entry}") if os.path.isfile(e) and not e.startswith(".")]
             for sub_entry in sub_entries:
                 file_path = os.path.join(save_path, entry, sub_entry)
-                with open(file_path) as fp:
-                    data = json.load(fp)
-                data[EvalQueueColumn.model.name] = make_clickable_model(data["model"])
-                data[EvalQueueColumn.revision.name] = data.get("revision", "main")
-                all_evals.append(data)
     pending_list = [e for e in all_evals if e["status"] in ["PENDING", "RERUN"]]
     running_list = [e for e in all_evals if e["status"] == "RUNNING"]

     for entry in entries:
         if ".json" in entry:
             file_path = os.path.join(save_path, entry)
+            try:
+                with open(file_path) as fp:
+                    data = json.load(fp)
+                data[EvalQueueColumn.model.name] = make_clickable_model(data["model"])
+                data[EvalQueueColumn.revision.name] = data.get("revision", "main")
+                all_evals.append(data)
+            except (json.JSONDecodeError, KeyError, IOError) as e:
+                print(f"Error processing {file_path}: {e}")
+                continue
         elif ".md" not in entry:
             # this is a folder
+            sub_entries = [e for e in os.listdir(os.path.join(save_path, entry))
+                          if os.path.isfile(os.path.join(save_path, entry, e)) and not e.startswith(".")]
             for sub_entry in sub_entries:
                 file_path = os.path.join(save_path, entry, sub_entry)
+                try:
+                    with open(file_path) as fp:
+                        data = json.load(fp)
+                    data[EvalQueueColumn.model.name] = make_clickable_model(data["model"])
+                    data[EvalQueueColumn.revision.name] = data.get("revision", "main")
+                    all_evals.append(data)
+                except (json.JSONDecodeError, KeyError, IOError) as e:
+                    print(f"Error processing {file_path}: {e}")
+                    continue
     pending_list = [e for e in all_evals if e["status"] in ["PENDING", "RERUN"]]
     running_list = [e for e in all_evals if e["status"] == "RUNNING"]

src/submission/submit.py CHANGED Viewed

@@ -52,7 +52,11 @@ def add_new_eval(
     # Were the model card and license filled?
     try:
-        license = model_info.cardData["license"]
     except Exception:
         return styled_error("Please select a license for your model")

     # Were the model card and license filled?
     try:
+        license = "Unknown"
+        if hasattr(model_info, 'cardData') and model_info.cardData:
+            license = model_info.cardData.get("license", "Unknown")
+        if license == "Unknown":
+            return styled_error("Please select a license for your model")
     except Exception:
         return styled_error("Please select a license for your model")