Spaces:

de-Rodrigo
/

Embeddings

Running

App Files Files Community

de-Rodrigo commited on Mar 7

Commit

0598719

1 Parent(s): 8386048

Explained Variace Section for PCA

Browse files

Files changed (1) hide show

app.py +19 -1

app.py CHANGED Viewed

@@ -312,6 +312,12 @@ def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, r
                          learning_rate=tsne_params["learning_rate"])
     reduced = reducer.fit_transform(df_combined[embedding_cols].values)
     dfs_reduced, unique_subsets = split_versions(df_combined, reduced)
     df_distances = compute_wasserstein_distances_synthetic_individual(
@@ -380,9 +386,11 @@ def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, r
         "scatter_fig": scatter_fig,
         "dfs_reduced": dfs_reduced,
         "unique_subsets": unique_subsets,
-        "df_distances": df_distances
     }
 # =============================================================================
 # Función de optimización (grid search) para TSNE, usando la misma pipeline
 # =============================================================================
@@ -476,6 +484,15 @@ def run_model(model_name):
     })
     st.table(reg_metrics)
     data_table, df_table, source_table = create_table(result["df_distances"])
     real_subset_names = list(df_table.columns[1:])
     real_select = Select(title="", value=real_subset_names[0], options=real_subset_names)
@@ -537,6 +554,7 @@ def run_model(model_name):
         key=f"download_button_excel_{model_name}"
     )
 def main():
     config_style()
     tabs = st.tabs(["Donut", "Idefics2"])

                          learning_rate=tsne_params["learning_rate"])
     reduced = reducer.fit_transform(df_combined[embedding_cols].values)
+    # Si se usa PCA, capturamos la varianza explicada
+    explained_variance = None
+    if reduction_method == "PCA":
+        explained_variance = reducer.explained_variance_ratio_
     dfs_reduced, unique_subsets = split_versions(df_combined, reduced)
     df_distances = compute_wasserstein_distances_synthetic_individual(
         "scatter_fig": scatter_fig,
         "dfs_reduced": dfs_reduced,
         "unique_subsets": unique_subsets,
+        "df_distances": df_distances,
+        "explained_variance": explained_variance  # Se incluye la varianza explicada (solo para PCA)
     }
 # =============================================================================
 # Función de optimización (grid search) para TSNE, usando la misma pipeline
 # =============================================================================
     })
     st.table(reg_metrics)
+    # Si se ha utilizado PCA, mostramos la varianza explicada
+    if reduction_method == "PCA" and result["explained_variance"] is not None:
+        st.subheader("Explained Variance Ratio")
+        variance_df = pd.DataFrame({
+            "Component": ["PC1", "PC2"],
+            "Explained Variance": result["explained_variance"]
+        })
+        st.table(variance_df)
     data_table, df_table, source_table = create_table(result["df_distances"])
     real_subset_names = list(df_table.columns[1:])
     real_select = Select(title="", value=real_subset_names[0], options=real_subset_names)
         key=f"download_button_excel_{model_name}"
     )
 def main():
     config_style()
     tabs = st.tabs(["Donut", "Idefics2"])