pdf-rag-chatbot

Sleeping

App Files Files Community

farmax commited on Oct 12, 2024

Commit

93d7cc3

verified ·

1 Parent(s): 08f20d9

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -13

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ import requests
 from dotenv import load_dotenv
 import numpy as np
 from langchain_community.vectorstores import Chroma
-from langchain_community.document_loaders import UnstructuredPDFLoader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.chains import RetrievalQAWithSourcesChain
 from langchain.schema import Document
@@ -20,6 +20,10 @@ from tqdm import tqdm
 import torch
 import logging
 # Aggiornamento dell'inizializzazione di HuggingFaceEmbeddings
 embedding_function = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
@@ -27,26 +31,30 @@ embedding_function = HuggingFaceEmbeddings(model_name="sentence-transformers/all
 list_llm_simple = ["Gemma 7B (Italian)", "Mistral 7B"]
 list_llm = ["google/gemma-7b-it", "mistralai/Mistral-7B-Instruct-v0.2"]
-logging.basicConfig(level=logging.INFO)
-logger = logging.getLogger(__name__)
-class PDFDocument(Document):
-    def _extract_metadata(self, **kwargs) -> Dict[str, Any]:
-        metadata = super()._extract_metadata(**kwargs)
-        metadata["filename"] = self.page_content
-        return metadata
 def initialize_database(document, chunk_size, chunk_overlap, progress=gr.Progress()):
     logger.info("Initializing database...")
     documents = []
     for file in document:
-        loader = UnstructuredPDFLoader(file.name)
-        docs = loader.load()
         splitter = CharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
         for doc in docs:
             pages = splitter.split_document(doc)
             for page in pages:
-                documents.append(PDFDocument(page_content=page.page_content, metadata={"filename": file.name}))
     vectorstore = Chroma.from_documents(documents, embedding_function)
     progress.update(0.5)
@@ -121,6 +129,17 @@ def conversation(qa_chain, message, history, language):
 def demo():
     with gr.Blocks(theme="base") as demo:
         vector_db = gr.State()
         qa_chain = gr.State()
         collection_name = gr.State()

 from dotenv import load_dotenv
 import numpy as np
 from langchain_community.vectorstores import Chroma
+from langchain_community.document_loaders import UnstructuredPDFLoader, PyPDFLoader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.chains import RetrievalQAWithSourcesChain
 from langchain.schema import Document
 import torch
 import logging
+# Configurazione del logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
 # Aggiornamento dell'inizializzazione di HuggingFaceEmbeddings
 embedding_function = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
 list_llm_simple = ["Gemma 7B (Italian)", "Mistral 7B"]
 list_llm = ["google/gemma-7b-it", "mistralai/Mistral-7B-Instruct-v0.2"]
 def initialize_database(document, chunk_size, chunk_overlap, progress=gr.Progress()):
     logger.info("Initializing database...")
     documents = []
     for file in document:
+        try:
+            loader = UnstructuredPDFLoader(file.name)
+            docs = loader.load()
+        except ImportError:
+            logger.warning("UnstructuredPDFLoader non disponibile. Tentativo di utilizzo di PyPDFLoader.")
+            try:
+                loader = PyPDFLoader(file.name)
+                docs = loader.load()
+            except ImportError:
+                logger.error("Impossibile caricare il documento PDF. Assicurati di aver installato 'unstructured' o 'pypdf'.")
+                return None, "Errore: Pacchetti necessari non installati. Esegui 'pip install unstructured pypdf' e riprova."
         splitter = CharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
         for doc in docs:
             pages = splitter.split_document(doc)
             for page in pages:
+                documents.append(Document(page_content=page.page_content, metadata={"filename": file.name}))
+    if not documents:
+        return None, "Errore: Nessun documento caricato correttamente."
     vectorstore = Chroma.from_documents(documents, embedding_function)
     progress.update(0.5)
 def demo():
     with gr.Blocks(theme="base") as demo:
+        gr.Markdown(
+        """
+        ## Importante: Installazione dei pacchetti necessari
+        Prima di utilizzare questa applicazione, assicurati di aver installato i seguenti pacchetti:
+        ```
+        pip install unstructured pypdf
+        ```
+        Questi pacchetti sono necessari per il corretto funzionamento del caricamento dei documenti PDF.
+        """
+        )
         vector_db = gr.State()
         qa_chain = gr.State()
         collection_name = gr.State()