Spaces:

fair-forward
/

evals-for-every-language

Running

App Files Files Community

David Pomerenke commited on Apr 5

Commit

eb1696c

1 Parent(s): 566c57e

Fix and refactor backend filtering

Browse files

Files changed (2) hide show

evals/backend.py +73 -5
evals/tables.py +0 -87

evals/backend.py CHANGED Viewed

@@ -11,7 +11,74 @@ from fastapi.staticfiles import StaticFiles
 from languages import languages
 from models import models
-from tables import aggregate, make_country_table, make_language_table, make_model_table
 app = FastAPI()
@@ -31,16 +98,17 @@ async def data(request: Request):
     body = await request.body()
     data = json.loads(body)
     selected_languages = data.get("selectedLanguages", {})
-    df = results
-    _, lang_results, model_results, task_results = aggregate(df)
     # lang_results = pd.merge(languages, lang_results, on="bcp_47", how="outer")
-    language_table = make_language_table(lang_results, languages)
     datasets_df = pd.read_json("data/datasets.json")
     countries = make_country_table(language_table)
     if selected_languages:
         # the filtering is only applied for the model table
         df = df[df["bcp_47"].isin(lang["bcp_47"] for lang in selected_languages)]
-    model_table = make_model_table(model_results, models)
     all_tables = {
         "model_table": serialize(model_table),
         "language_table": serialize(language_table),

 from languages import languages
 from models import models
+from countries import make_country_table
+def mean(lst):
+    return sum(lst) / len(lst) if lst else None
+def make_model_table(df, models):
+    df = (
+        df.groupby(["model", "task", "metric"])
+        .agg({"score": "mean", "bcp_47": "nunique"})
+        .reset_index()
+    )
+    df["task_metric"] = df["task"] + "_" + df["metric"]
+    df = df.drop(columns=["task", "metric"])
+    task_metrics = df["task_metric"].unique()
+    df = df.pivot(index="model", columns="task_metric", values="score").fillna(0)
+    df["average"] = df[task_metrics].mean(axis=1)
+    df = df.sort_values(by="average", ascending=False).reset_index()
+    df = pd.merge(df, models, left_on="model", right_on="id", how="left")
+    df["creation_date"] = df["creation_date"].dt.strftime("%Y-%m-%d")
+    df["rank"] = df.index + 1
+    df = df[
+        [
+            "rank",
+            "model",
+            "hf_id",
+            "creation_date",
+            "size",
+            "type",
+            "license",
+            "average",
+            *task_metrics,
+        ]
+    ]
+    return df
+def make_language_table(df, languages):
+    df = (
+        df.groupby(["bcp_47", "task", "metric"])
+        .agg({"score": "mean", "model": "nunique"})
+        .reset_index()
+    )
+    df["task_metric"] = df["task"] + "_" + df["metric"]
+    df = df.drop(columns=["task", "metric"])
+    task_metrics = df["task_metric"].unique()
+    df = (
+        df.pivot(index="bcp_47", columns="task_metric", values="score")
+        .fillna(0)
+        .reset_index()
+    )
+    df["average"] = df[task_metrics].mean(axis=1)
+    df = pd.merge(languages, df, on="bcp_47", how="outer")
+    df = df.sort_values(by="speakers", ascending=False)
+    df = df[
+        [
+            "bcp_47",
+            "language_name",
+            "autonym",
+            "speakers",
+            "family",
+            "average",
+            "in_benchmark",
+            *task_metrics,
+        ]
+    ]
+    return df
 app = FastAPI()
     body = await request.body()
     data = json.loads(body)
     selected_languages = data.get("selectedLanguages", {})
+    df = (
+        results.groupby(["model", "bcp_47", "task", "metric"]).mean().reset_index()
+    )
     # lang_results = pd.merge(languages, lang_results, on="bcp_47", how="outer")
+    language_table = make_language_table(df, languages)
     datasets_df = pd.read_json("data/datasets.json")
     countries = make_country_table(language_table)
     if selected_languages:
         # the filtering is only applied for the model table
         df = df[df["bcp_47"].isin(lang["bcp_47"] for lang in selected_languages)]
+    model_table = make_model_table(df, models)
     all_tables = {
         "model_table": serialize(model_table),
         "language_table": serialize(language_table),

evals/tables.py DELETED Viewed

@@ -1,87 +0,0 @@
-import pandas as pd
-from countries import make_country_table
-make_country_table = make_country_table
-def aggregate(results):
-    results = (
-        results.groupby(["model", "bcp_47", "task", "metric"]).mean().reset_index()
-    )
-    lang_results = (
-        results.groupby(["bcp_47", "task", "metric"])
-        .agg({"score": "mean", "model": "nunique"})
-        .reset_index()
-    )
-    model_results = (
-        results.groupby(["model", "task", "metric"])
-        .agg({"score": "mean", "bcp_47": "nunique"})
-        .reset_index()
-    )
-    task_results = (
-        results.groupby(["task", "metric"])
-        .agg({"score": "mean", "bcp_47": "nunique", "model": "nunique"})
-        .reset_index()
-    )
-    return results, lang_results, model_results, task_results
-def mean(lst):
-    return sum(lst) / len(lst) if lst else None
-def make_model_table(df, models):
-    df["task_metric"] = df["task"] + "_" + df["metric"]
-    df = df.drop(columns=["task", "metric"])
-    task_metrics = df["task_metric"].unique()
-    df = df.pivot(index="model", columns="task_metric", values="score").fillna(0)
-    df["average"] = df[task_metrics].mean(axis=1)
-    df = df.sort_values(by="average", ascending=False).reset_index()
-    for row in [*task_metrics, "average"]:
-        df[row] = df[row].round(2)
-    df = pd.merge(df, models, left_on="model", right_on="id", how="left")
-    df["creation_date"] = df["creation_date"].dt.strftime("%Y-%m-%d")
-    df["rank"] = df.index + 1
-    df = df[
-        [
-            "rank",
-            "model",
-            "hf_id",
-            "creation_date",
-            "size",
-            "type",
-            "license",
-            "average",
-            *task_metrics,
-        ]
-    ]
-    return df
-def make_language_table(df, languages):
-    df["task_metric"] = df["task"] + "_" + df["metric"]
-    df = df.drop(columns=["task", "metric"])
-    task_metrics = df["task_metric"].unique()
-    df = (
-        df.pivot(index="bcp_47", columns="task_metric", values="score")
-        .fillna(0)
-        .reset_index()
-    )
-    df["average"] = df[task_metrics].mean(axis=1)
-    for row in [*task_metrics, "average"]:
-        df[row] = df[row].round(2)
-    df = pd.merge(languages, df, on="bcp_47", how="outer")
-    df = df.sort_values(by="speakers", ascending=False)
-    df = df[
-        [
-            "bcp_47",
-            "language_name",
-            "autonym",
-            "speakers",
-            "family",
-            "average",
-            "in_benchmark",
-            *task_metrics,
-        ]
-    ]
-    return df