Spaces:

lozanopastor
/

PDFChat

Running

App Files Files Community

lozanopastor commited on Mar 24

Commit

b82a307

verified ·

1 Parent(s): 0cc7907

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -12

app.py CHANGED Viewed

@@ -10,12 +10,12 @@ from langchain.prompts import PromptTemplate
 from dotenv import load_dotenv
 import re
-# Load environment variables
 load_dotenv()
 os.getenv("GROQ_API_KEY")
 def get_pdf_text(pdf_docs):
-    """Extrae texto de los archivos PDF cargados."""
     text = ""
     for pdf in pdf_docs:
         pdf_reader = PdfReader(pdf)
@@ -24,19 +24,19 @@ def get_pdf_text(pdf_docs):
     return text
 def get_text_chunks(text):
-    """Divide el texto extraído en fragmentos manejables."""
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=5000, chunk_overlap=500)
     chunks = text_splitter.split_text(text)
     return chunks
 def get_vector_store(text_chunks):
-    """Crea y guarda un almacén de vectores FAISS a partir de fragmentos de texto."""
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     vector_store = FAISS.from_texts(text_chunks, embedding=embeddings)
     vector_store.save_local("faiss_index")
 def get_conversational_chain():
-    """Configura una cadena conversacional usando el modelo Groq LLM."""
     prompt_template = """
     Responde la pregunta en español de la manera más detallada posible a partir del contexto proporcionado. Si la respuesta no está en
     el contexto proporcionado, simplemente di, "la respuesta no está disponible en el contexto." No proporciones respuestas incorrectas.
@@ -46,7 +46,7 @@ def get_conversational_chain():
     {question}
     Respuesta:
     """
     model = ChatGroq(
         temperature=0.3,
         model_name="deepseek-r1-distill-llama-70b",
@@ -56,6 +56,7 @@ def get_conversational_chain():
     chain = load_qa_chain(model, chain_type="stuff", prompt=prompt)
     return chain
 def eliminar_texto_entre_tags(texto):
     patron = r'<think>.*?</think>'
     texto_limpio = re.sub(patron, '', texto, flags=re.DOTALL)
@@ -89,18 +90,18 @@ def user_input(user_question):
     # Eliminar el proceso de pensamiento de la respuesta principal
     clean_response = eliminar_texto_entre_tags(original_response)
-    # Depuración: Imprimir la respuesta limpia
     print("Cleaned Response:", clean_response)
     # Mostrar el proceso de pensamiento del modelo en el expander
-    with st.expander("Proceso de Pensamiento del Modelo"):
         st.write(thought_process)
     st.markdown(f"### Respuesta:\n{clean_response}")
 def main():
     """Función principal para ejecutar la aplicación Streamlit."""
-    st.set_page_config(page_title="Chat PDF", page_icon=":books:", layout="wide")
     # Configuración de la apariencia de la aplicación
     st.markdown(
@@ -142,15 +143,15 @@ def main():
         unsafe_allow_html=True
     )
-    st.title("PDF Consultor")
     with st.sidebar:
         pdf_docs = st.file_uploader(
-            "Subir archivo PDF",
             accept_multiple_files=True,
             type=["pdf"]
         )
-        if st.button("Procesar"):
             with st.spinner("Procesando el archivo..."):
                 raw_text = get_pdf_text(pdf_docs)
                 text_chunks = get_text_chunks(raw_text)

 from dotenv import load_dotenv
 import re
+# Cargamos las variables de entorno Groq
 load_dotenv()
 os.getenv("GROQ_API_KEY")
 def get_pdf_text(pdf_docs):
+    # Extraemos texto de los archivos cargados
     text = ""
     for pdf in pdf_docs:
         pdf_reader = PdfReader(pdf)
     return text
 def get_text_chunks(text):
+    # División del texto en fragmentos
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=5000, chunk_overlap=500)
     chunks = text_splitter.split_text(text)
     return chunks
 def get_vector_store(text_chunks):
+    # Creación de almacén de vectores FAISS a partir de los fragmentos
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     vector_store = FAISS.from_texts(text_chunks, embedding=embeddings)
     vector_store.save_local("faiss_index")
 def get_conversational_chain():
+    # Especificamos un prompt inicial al modelo
     prompt_template = """
     Responde la pregunta en español de la manera más detallada posible a partir del contexto proporcionado. Si la respuesta no está en
     el contexto proporcionado, simplemente di, "la respuesta no está disponible en el contexto." No proporciones respuestas incorrectas.
     {question}
     Respuesta:
     """
+    # Implementamos el modelo
     model = ChatGroq(
         temperature=0.3,
         model_name="deepseek-r1-distill-llama-70b",
     chain = load_qa_chain(model, chain_type="stuff", prompt=prompt)
     return chain
+# Tratamiento para recoger el pensamiento del modelo
 def eliminar_texto_entre_tags(texto):
     patron = r'<think>.*?</think>'
     texto_limpio = re.sub(patron, '', texto, flags=re.DOTALL)
     # Eliminar el proceso de pensamiento de la respuesta principal
     clean_response = eliminar_texto_entre_tags(original_response)
+    # Imprimir la respuesta limpia, sin las marcas <think> </think>
     print("Cleaned Response:", clean_response)
     # Mostrar el proceso de pensamiento del modelo en el expander
+    with st.expander("💭 Pensamiento del Modelo"):
         st.write(thought_process)
     st.markdown(f"### Respuesta:\n{clean_response}")
 def main():
     """Función principal para ejecutar la aplicación Streamlit."""
+    st.set_page_config(page_title="PDF Consultor 🔍", page_icon="🔍", layout="wide")
     # Configuración de la apariencia de la aplicación
     st.markdown(
         unsafe_allow_html=True
     )
+    st.title("PDF Consultor 🔍")
     with st.sidebar:
         pdf_docs = st.file_uploader(
+            "[1] Subir archivo PDF",
             accept_multiple_files=True,
             type=["pdf"]
         )
+        if st.button("[2] Procesar"):
             with st.spinner("Procesando el archivo..."):
                 raw_text = get_pdf_text(pdf_docs)
                 text_chunks = get_text_chunks(raw_text)