Spaces:

jonanfu
/

recursos_humanos

Sleeping

App Files Files Community

jonanfu commited on May 3

Commit

a2a383d

1 Parent(s): b958ad2

corregir error de visualizar pdfs

Browse files

Files changed (1) hide show

app.py +102 -78

app.py CHANGED Viewed

@@ -4,62 +4,47 @@ import os
 from io import BytesIO
 from pypdf import PdfReader
 from langchain.schema import Document
-from langchain.embeddings import HuggingFaceEmbeddings
 from langchain_pinecone import PineconeVectorStore
 from pinecone import Pinecone as PineconeClient, ServerlessSpec
-# Configuración de las variables de entorno
 hf_token = os.getenv("HUGGINGFACE_TOKEN")
 pinecone_api_key = os.getenv("PINECONE_API_KEY")
 st.set_page_config(page_title="Clasificador de CVs", layout="wide")
 st.title("🎯 Clasificador de CVs por Puesto de Trabajo")
 # Inputs
 titulo_puesto = st.text_input("🧑‍💼 Título del puesto", placeholder="Ej: Desarrollador Backend Senior")
 descripcion_puesto = st.text_area("📝 Descripción del puesto", height=200)
 uploaded_files = st.file_uploader("📎 Subir CVs (PDF)", type="pdf", accept_multiple_files=True)
 if uploaded_files:
-    archivos_en_memoria = {file.name: BytesIO(file.read()) for file in uploaded_files}
-    st.session_state["archivos_en_memoria"] = archivos_en_memoria
-    st.success(f"Se han subido {len(archivos_en_memoria)} Pdf(s).")
-if st.button("📊 Procesar CVs"):
-    st.write(st.session_state.get("archivos_en_memoria"))
-    if not uploaded_files:
-        st.warning("Primero sube al menos un CV.")
-    elif not descripcion_puesto.strip():
-        st.warning("Debes escribir una descripción del puesto.")
-    else:
-        # Inicializar Pinecone
-        pc = PineconeClient(api_key=pinecone_api_key)
-        index_name = "cv-index"
-        if index_name not in pc.list_indexes().names():
-            pc.create_index(
-                name=index_name,
-                dimension=384,
-                metric='cosine',
-                spec=ServerlessSpec(cloud='aws', region='us-east-1')
-            )
-        index = pc.Index(index_name)
-        # Inicializar modelo de embeddings
-        embedding = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-        # Vector store
-        vector_store = PineconeVectorStore(index=index, embedding=embedding)
-        archivos_en_memoria = st.session_state.get("archivos_en_memoria", {})
-        if not archivos_en_memoria:
-            st.warning("No se encontraron archivos en memoria.")
-            st.stop()
-        # Procesar archivos y crear documentos
-        documents = []
-        for filename, buffer in archivos_en_memoria.items():
-            buffer.seek(0)
             reader = PdfReader(buffer)
             text = ""
             for page in reader.pages:
@@ -67,44 +52,83 @@ if st.button("📊 Procesar CVs"):
                 if page_text:
                     text += page_text + "\n"
-            doc = Document(
-                page_content=text.strip(),
-                metadata={"filename": filename, "titulo_puesto": titulo_puesto}
             )
-            documents.append(doc)
-        # Subir documentos a Pinecone
-        vector_store.add_documents(documents)
-        # Búsqueda por similitud
-        results = vector_store.similarity_search_with_score(descripcion_puesto, k=len(documents))
-        st.success(f"{len(results)} CV(s) procesado(s).")
-        # Mostrar resultados
-        for doc, score in results:
-            st.markdown("---")
-            col1, col2 = st.columns([2, 1])
-            filename = doc.metadata.get("filename")
-            file_buffer = archivos_en_memoria.get(filename)
-            with col1:
-                if file_buffer:
-                    file_buffer.seek(0)
-                    base64_pdf = base64.b64encode(file_buffer.read()).decode("utf-8")
-                    pdf_display = f"""
-                    <iframe src="data:application/pdf;base64,{base64_pdf}" width="100%" height="500" type="application/pdf"></iframe>
-                    """
-                    st.markdown("#### 👀 Visualizador del PDF", unsafe_allow_html=True)
-                    st.markdown(pdf_display, unsafe_allow_html=True)
-                else:
-                    st.warning(f"No se encontró el archivo `{filename}` en memoria.")
-            with col2:
-                st.markdown("#### 📄 Información del CV")
-                st.write(f"**Nombre del archivo:** `{filename}`")
-                st.write(f"**Score de similitud:** `{score * 100:.2f}%`")
-        # Eliminar todos los vectores del índice (vaciar)
-        index.delete(delete_all=True)
-        st.success("🧹 Todos los vectores han sido eliminados del índice de Pinecone.")

 from io import BytesIO
 from pypdf import PdfReader
 from langchain.schema import Document
+from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_pinecone import PineconeVectorStore
 from pinecone import Pinecone as PineconeClient, ServerlessSpec
+# Configuración de entorno
 hf_token = os.getenv("HUGGINGFACE_TOKEN")
 pinecone_api_key = os.getenv("PINECONE_API_KEY")
 st.set_page_config(page_title="Clasificador de CVs", layout="wide")
 st.title("🎯 Clasificador de CVs por Puesto de Trabajo")
+# Cargar modelo de embeddings
+@st.cache_resource(show_spinner="⏳ Cargando modelo de embeddings...")
+def load_embeddings():
+    model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    _ = model.embed_query("test")  # Calentamiento
+    return model
+embedding = load_embeddings()
 # Inputs
 titulo_puesto = st.text_input("🧑‍💼 Título del puesto", placeholder="Ej: Desarrollador Backend Senior")
 descripcion_puesto = st.text_area("📝 Descripción del puesto", height=200)
+# Subida de archivos
 uploaded_files = st.file_uploader("📎 Subir CVs (PDF)", type="pdf", accept_multiple_files=True)
 if uploaded_files:
+    if "cv_data" not in st.session_state:
+        st.session_state["cv_data"] = {}
+    cv_data = st.session_state["cv_data"]
+    for file in uploaded_files:
+        if file.name in cv_data:
+            st.info(f"ℹ️ El archivo `{file.name}` ya fue subido. Ignorando duplicado.")
+            continue
+        buffer = BytesIO(file.read())
+        buffer.seek(0)
+        try:
             reader = PdfReader(buffer)
             text = ""
             for page in reader.pages:
                 if page_text:
                     text += page_text + "\n"
+            if text.strip():
+                cv_data[file.name] = {
+                    "text": text.strip(),
+                    "pdf": buffer
+                }
+                st.success(f"✅ Procesado `{file.name}` correctamente.")
+            else:
+                st.warning(f"⚠️ No se pudo extraer texto de `{file.name}`.")
+        except Exception as e:
+            st.error(f"❌ Error procesando `{file.name}`: {e}")
+# Procesamiento de CVs
+if st.button("📊 Procesar CVs"):
+    cv_data = st.session_state.get("cv_data", {})
+    if not cv_data:
+        st.warning("No hay CVs para procesar.")
+        st.stop()
+    if not descripcion_puesto.strip():
+        st.warning("Debes ingresar una descripción del puesto.")
+        st.stop()
+    # Inicializar Pinecone
+    pc = PineconeClient(api_key=pinecone_api_key)
+    index_name = "cv-index"
+    if index_name not in pc.list_indexes().names():
+        pc.create_index(
+            name=index_name,
+            dimension=384,
+            metric='cosine',
+            spec=ServerlessSpec(cloud='aws', region='us-east-1')
+        )
+    index = pc.Index(index_name)
+    index.delete(delete_all=True)
+    vector_store = PineconeVectorStore(index=index, embedding=embedding)
+    # Crear documentos
+    documents = []
+    for filename, data in cv_data.items():
+        doc = Document(
+            page_content=data["text"],
+            metadata={"filename": filename, "titulo_puesto": titulo_puesto}
+        )
+        documents.append(doc)
+    # Subir a Pinecone
+    vector_store.add_documents(documents)
+    # Búsqueda por similitud
+    results = vector_store.similarity_search_with_score(descripcion_puesto, k=len(documents))
+    st.success(f"{len(results)} CV(s) procesado(s).")
+    # Mostrar resultados
+    for doc, score in results:
+        filename = doc.metadata["filename"]
+        data = cv_data[filename]
+        st.markdown("---")
+        col1, col2 = st.columns([2, 1])
+        with col1:
+            data["pdf"].seek(0)
+            pdf_bytes = data["pdf"].read()
+            base64_pdf = base64.b64encode(pdf_bytes).decode("utf-8")
+            st.markdown(f"#### 👀 Visualizador: `{filename}`", unsafe_allow_html=True)
+            st.markdown(
+                f"""<embed src="data:application/pdf;base64,{base64_pdf}" width="100%" height="500" type="application/pdf">""",
+                unsafe_allow_html=True
             )
+        with col2:
+            st.markdown("#### 📄 Detalles")
+            st.write(f"**Nombre del archivo:** `{filename}`")
+            st.write(f"**Similitud con descripción:** `{score * 100:.2f}%`")
+    # Opcional: eliminar vectores del índice (descomenta si deseas limpiar después)