Spaces:

embedding-benchmark
/

RTEB

Running

App Files Files Community

fzoll commited on 23 days ago

Commit

602cef6

1 Parent(s): 9eae046

Handling the model alias field

Browse files

Files changed (1) hide show

app/backend/data_engine.py +24 -8

app/backend/data_engine.py CHANGED Viewed

@@ -20,7 +20,8 @@ COLUMNS_TYPES = ["markdown",
                  ]
-GIT_URL = "https://raw.githubusercontent.com/embedding-benchmark/rteb/refs/heads/main/results/"
 DATASET_URL = f"{GIT_URL}datasets.json"
 MODEL_URL = f"{GIT_URL}models.json"
 RESULT_URL = f"{GIT_URL}results.json"
@@ -104,11 +105,26 @@ class DataEngine:
         df_model = pd.DataFrame(models_list)
-        df = pd.merge(df_result, df_dataset, on=["dataset_name"], how="inner")
-        # set dataset default value to 0
-        df = df.pivot(index=["model_name", "embd_dim", "embd_dtype", "group_name"], columns="dataset_name",
-                 values=["ndcg_at_10"]).fillna(0).stack(level=1).reset_index()
         # df = pd.merge(df, df_model, on=["model_name"], how="inner")
         # dataset_num_map = {}
@@ -124,15 +140,15 @@ class DataEngine:
         }).reset_index()
         pivot = grouped_model.pivot(index=["model_name", "embd_dim", "embd_dtype"], columns="group_name",
-                                    values=["ndcg_at_10"]).round(2).fillna(0)
         # Rename columns
         pivot.columns = list(
             map(lambda x: f"{x[1].capitalize()} Average" if x[1] != 'text' else f"Average", pivot.columns))
-        pivot_dataset = df_result.pivot(index=["model_name", "embd_dim", "embd_dtype"], columns="dataset_name", values="ndcg_at_10").fillna(0)
-        df = pd.merge(df_model, pivot, on=["model_name", "embd_dim", "embd_dtype"])
         df = pd.merge(df, pivot_dataset, on=["model_name", "embd_dim", "embd_dtype"])
         if df.empty:

                  ]
+BRANCH = 'updating_the_results'
+GIT_URL = f"https://raw.githubusercontent.com/embedding-benchmark/rteb/refs/heads/{BRANCH}/results/"
 DATASET_URL = f"{GIT_URL}datasets.json"
 MODEL_URL = f"{GIT_URL}models.json"
 RESULT_URL = f"{GIT_URL}results.json"
         df_model = pd.DataFrame(models_list)
+        # Create mapping for model names/aliases
+        if 'alias' in df_model.columns:
+            # Create a lookup table for alias to model_name mapping
+            alias_mapping = df_model[df_model['alias'].notna()].set_index('alias')['model_name'].to_dict()
+            # Add rows for aliases to enable joining
+            alias_rows = []
+            for _, row in df_model[df_model['alias'].notna()].iterrows():
+                alias_row = row.copy()
+                alias_row['model_name'] = row['alias']
+                alias_rows.append(alias_row)
+            if alias_rows:
+                df_model_extended = pd.concat([df_model, pd.DataFrame(alias_rows)], ignore_index=True)
+            else:
+                df_model_extended = df_model
+        else:
+            df_model_extended = df_model
+        df = pd.merge(df_result, df_dataset, on=["dataset_name"], how="inner")
         # df = pd.merge(df, df_model, on=["model_name"], how="inner")
         # dataset_num_map = {}
         }).reset_index()
         pivot = grouped_model.pivot(index=["model_name", "embd_dim", "embd_dtype"], columns="group_name",
+                                    values=["ndcg_at_10"]).round(2)
         # Rename columns
         pivot.columns = list(
             map(lambda x: f"{x[1].capitalize()} Average" if x[1] != 'text' else f"Average", pivot.columns))
+        pivot_dataset = df_result.pivot(index=["model_name", "embd_dim", "embd_dtype"], columns="dataset_name", values="ndcg_at_10")
+        df = pd.merge(df_model_extended, pivot, on=["model_name", "embd_dim", "embd_dtype"])
         df = pd.merge(df, pivot_dataset, on=["model_name", "embd_dim", "embd_dtype"])
         if df.empty: