Spaces:

de-Rodrigo
/

Embeddings

Sleeping

App Files Files Community

de-Rodrigo commited on Mar 20

Commit

3139646

1 Parent(s): 566ef77

Include PCA Components Weights

Browse files

Files changed (1) hide show

app.py +38 -3

app.py CHANGED Viewed

@@ -409,9 +409,9 @@ def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, r
                          learning_rate=tsne_params["learning_rate"])
     reduced = reducer.fit_transform(df_combined[embedding_cols].values)
-    # Guardamos el embedding completo (4 dimensiones para PCA)
     df_combined['embedding'] = list(reduced)
-    # Si el embedding es 2D (por t-SNE o PCA con 2 componentes) asignamos x e y para visualización
     if reduced.shape[1] == 2:
         df_combined['x'] = reduced[:, 0]
         df_combined['y'] = reduced[:, 1]
@@ -489,7 +489,7 @@ def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, r
     y_line = model_global.predict(x_line.reshape(-1, 1))
     scatter_fig.line(x_line, y_line, line_width=2, line_color="black", legend_label="Global Regression")
-    return {
         "R2": r2,
         "slope": slope,
         "intercept": intercept,
@@ -501,6 +501,11 @@ def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, r
         "trustworthiness": trust,
         "continuity": cont
     }
 def optimize_tsne_params(df_combined, embedding_cols, df_f1, distance_metric):
     perplexity_range = np.linspace(30, 50, 10)
@@ -606,6 +611,36 @@ def run_model(model_name):
         st.write(f"Trustworthiness: {result['trustworthiness']:.4f}")
         st.write(f"Continuity: {result['continuity']:.4f}")
     data_table, df_table, source_table = create_table(result["df_distances"])
     real_subset_names = list(df_table.columns[1:])

                          learning_rate=tsne_params["learning_rate"])
     reduced = reducer.fit_transform(df_combined[embedding_cols].values)
+    # Guardamos el embedding completo (por ejemplo, 4 dimensiones en PCA)
     df_combined['embedding'] = list(reduced)
+    # Si el embedding es 2D, asignamos x e y para visualización
     if reduced.shape[1] == 2:
         df_combined['x'] = reduced[:, 0]
         df_combined['y'] = reduced[:, 1]
     y_line = model_global.predict(x_line.reshape(-1, 1))
     scatter_fig.line(x_line, y_line, line_width=2, line_color="black", legend_label="Global Regression")
+    results = {
         "R2": r2,
         "slope": slope,
         "intercept": intercept,
         "trustworthiness": trust,
         "continuity": cont
     }
+    if reduction_method == "PCA":
+        results["pca_model"] = reducer  # Agregamos el objeto PCA para usarlo luego en los plots
+    return results
 def optimize_tsne_params(df_combined, embedding_cols, df_f1, distance_metric):
     perplexity_range = np.linspace(30, 50, 10)
         st.write(f"Trustworthiness: {result['trustworthiness']:.4f}")
         st.write(f"Continuity: {result['continuity']:.4f}")
+    if reduction_method == "PCA" and result.get("pca_model") is not None:
+        pca_model = result["pca_model"]
+        components = pca_model.components_  # Shape: (n_components, n_features)
+        st.subheader("Pesos de las Componentes Principales (Loadings)")
+        # Para cada componente principal, se crea un plot de barras
+        for i, comp in enumerate(components):
+            # Fuente de datos con nombres de dimensiones y pesos
+            source = ColumnDataSource(data=dict(
+                dimensions=embedding_cols,  # Ej: ["dim_0", "dim_1", "dim_2", ...]
+                weight=comp
+            ))
+            # Definir la figura usando el rango en x, pero ocultamos las etiquetas del eje
+            p = figure(x_range=embedding_cols, title=f"Componente Principal {i+1}",
+                    plot_height=400, plot_width=600,
+                    toolbar_location=None, tools="")
+            p.vbar(x='dimensions', top='weight', width=0.8, source=source)
+            # Ocultar las etiquetas del eje x para que el plot quede más limpio
+            p.xaxis.major_label_text_font_size = '0pt'
+            # Agregar HoverTool para que al pasar el mouse se muestren los datos
+            hover = HoverTool(tooltips=[("Dimensión", "@dimensions"), ("Peso", "@weight")])
+            p.add_tools(hover)
+            # Opcionalmente, puedes seguir definiendo las etiquetas de los ejes (aunque en x no se mostrarán)
+            p.xaxis.axis_label = "Dimensiones originales"
+            p.yaxis.axis_label = "Peso"
+            st.bokeh_chart(p)
     data_table, df_table, source_table = create_table(result["df_distances"])
     real_subset_names = list(df_table.columns[1:])