Spaces:

de-Rodrigo
/

Embeddings

Sleeping

App Files Files Community

de-Rodrigo commited on Mar 18, 2025

Commit

1af1b88

1 Parent(s): fa618ec

Upload Two Pretrained Datasets (IDL and PDFA)

Browse files

Files changed (1) hide show

app.py +8 -2

app.py CHANGED Viewed

@@ -68,7 +68,6 @@ def load_embeddings(model, version, embedding_prefix):
         df_rot["source"] = "es-digital-rotation-degradation-seq"
         df_zoom["source"] = "es-digital-zoom-degradation-seq"
         df_render["source"] = "es-render-seq"
-        # Si lo requieres, puedes asignar también una fuente para pretrained
         df_pretratrained["source"] = "pretrained"
         return {"real": df_real,
@@ -83,8 +82,13 @@ def load_embeddings(model, version, embedding_prefix):
         df_rot  = pd.read_csv(f"data/idefics2_{version}_de_Rodrigo_merit_es-digital-rotation-degradation-seq_{embedding_prefix}embeddings.csv")
         df_zoom = pd.read_csv(f"data/idefics2_{version}_de_Rodrigo_merit_es-digital-zoom-degradation-seq_{embedding_prefix}embeddings.csv")
         df_render = pd.read_csv(f"data/idefics2_{version}_de_Rodrigo_merit_es-render-seq_{embedding_prefix}embeddings.csv")
-        df_pretratrained = pd.read_csv(f"data/idefics2_{version}_de_Rodrigo_merit_pretrained_{embedding_prefix}embeddings.csv")
         df_real["version"] = "real"
         df_par["version"] = "synthetic"
         df_line["version"] = "synthetic"
@@ -94,6 +98,7 @@ def load_embeddings(model, version, embedding_prefix):
         df_render["version"] = "synthetic"
         df_pretratrained["version"] = "pretrained"
         df_par["source"] = "es-digital-paragraph-degradation-seq"
         df_line["source"] = "es-digital-line-degradation-seq"
         df_seq["source"] = "es-digital-seq"
@@ -112,6 +117,7 @@ def load_embeddings(model, version, embedding_prefix):
 def split_versions(df_combined, reduced):
     # Asignar las coordenadas si la reducción es 2D
     if reduced.shape[1] == 2:

         df_rot["source"] = "es-digital-rotation-degradation-seq"
         df_zoom["source"] = "es-digital-zoom-degradation-seq"
         df_render["source"] = "es-render-seq"
         df_pretratrained["source"] = "pretrained"
         return {"real": df_real,
         df_rot  = pd.read_csv(f"data/idefics2_{version}_de_Rodrigo_merit_es-digital-rotation-degradation-seq_{embedding_prefix}embeddings.csv")
         df_zoom = pd.read_csv(f"data/idefics2_{version}_de_Rodrigo_merit_es-digital-zoom-degradation-seq_{embedding_prefix}embeddings.csv")
         df_render = pd.read_csv(f"data/idefics2_{version}_de_Rodrigo_merit_es-render-seq_{embedding_prefix}embeddings.csv")
+        # Cargar ambos subconjuntos pretrained y combinarlos
+        df_pretratrained_PDFA = pd.read_csv(f"data/idefics2_{version}_de_Rodrigo_merit_aux_PDFA_{embedding_prefix}embeddings.csv")
+        df_pretratrained_IDL = pd.read_csv(f"data/idefics2_{version}_de_Rodrigo_merit_aux_IDL_{embedding_prefix}embeddings.csv")
+        df_pretratrained = pd.concat([df_pretratrained_PDFA, df_pretratrained_IDL], ignore_index=True)
+        # Asignar etiquetas de versión
         df_real["version"] = "real"
         df_par["version"] = "synthetic"
         df_line["version"] = "synthetic"
         df_render["version"] = "synthetic"
         df_pretratrained["version"] = "pretrained"
+        # Asignar fuente (source)
         df_par["source"] = "es-digital-paragraph-degradation-seq"
         df_line["source"] = "es-digital-line-degradation-seq"
         df_seq["source"] = "es-digital-seq"
 def split_versions(df_combined, reduced):
     # Asignar las coordenadas si la reducción es 2D
     if reduced.shape[1] == 2: