SearchGPT

Running

App Files Files Community

Shreyas094 commited on Aug 4, 2024

Commit

b0cb50b

verified ·

1 Parent(s): 28c1fd5

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -40

app.py CHANGED Viewed

@@ -460,52 +460,25 @@ def get_response_from_pdf(query, model, selected_docs, num_calls=3, temperature=
         yield "No documents available. Please upload PDF documents to answer questions."
         return
-    # Log the total number of documents in the database
-    doc_count = len(database.docstore._dict)
-    logging.info(f"Total documents in the database: {doc_count}")
-    # Print out some sample documents
-    sample_docs = list(database.docstore._dict.values())[:5]  # Get first 5 documents
-    for i, doc in enumerate(sample_docs):
-        logging.info(f"Sample document {i}:")
-        logging.info(f"  Type: {type(doc)}")
-        logging.info(f"  Attributes: {dir(doc)}")
-        if hasattr(doc, 'metadata'):
-            logging.info(f"  Metadata: {doc.metadata}")
-        if hasattr(doc, 'page_content'):
-            logging.info(f"  Content preview: {doc.page_content[:100]}...")
-    all_filtered_docs = []
-    k_per_doc = max(20, 50 // len(selected_docs))  # Increased k_per_doc
-    for doc_name in selected_docs:
-        logging.info(f"Retrieving documents for: {doc_name}")
-        try:
-            doc_filter = lambda doc: doc.metadata['source'] == doc_name
-            doc_retriever = database.as_retriever(search_kwargs={"k": k_per_doc, "filter": doc_filter})
-            relevant_docs = doc_retriever.get_relevant_documents(query)
-            all_filtered_docs.extend(relevant_docs)
-            logging.info(f"Retrieved {len(relevant_docs)} documents for {doc_name}")
-        except Exception as e:
-            logging.error(f"Error retrieving documents for {doc_name}: {str(e)}")
-    logging.info(f"Total number of filtered documents: {len(all_filtered_docs)}")
-    if not all_filtered_docs:
         logging.warning(f"No relevant information found in the selected documents: {selected_docs}")
         yield "No relevant information found in the selected documents. Please try selecting different documents or rephrasing your query."
         return
-    for doc in all_filtered_docs:
-        try:
-            source = doc.metadata['source']
-            content = doc.page_content
-            logging.info(f"Document source: {source}")
-            logging.info(f"Document content preview: {content[:100]}...")  # Log first 100 characters of each document
-        except Exception as e:
-            logging.error(f"Error processing document: {str(e)}")
-    context_str = "\n".join([doc.page_content for doc in all_filtered_docs])
     logging.info(f"Total context length: {len(context_str)}")
     if model == "@cf/meta/llama-3.1-8b-instruct":

         yield "No documents available. Please upload PDF documents to answer questions."
         return
+    retriever = database.as_retriever(search_kwargs={"k": 10})
+    logging.info(f"Retrieving relevant documents for query: {query}")
+    relevant_docs = retriever.get_relevant_documents(query)
+    logging.info(f"Number of relevant documents retrieved: {len(relevant_docs)}")
+    # Filter relevant_docs based on selected documents
+    filtered_docs = [doc for doc in relevant_docs if doc.metadata["source"] in selected_docs]
+    logging.info(f"Number of filtered documents: {len(filtered_docs)}")
+    if not filtered_docs:
         logging.warning(f"No relevant information found in the selected documents: {selected_docs}")
         yield "No relevant information found in the selected documents. Please try selecting different documents or rephrasing your query."
         return
+    for doc in filtered_docs:
+        logging.info(f"Document source: {doc.metadata['source']}")
+        logging.info(f"Document content preview: {doc.page_content[:100]}...")  # Log first 100 characters of each document
+    context_str = "\n".join([doc.page_content for doc in filtered_docs])
     logging.info(f"Total context length: {len(context_str)}")
     if model == "@cf/meta/llama-3.1-8b-instruct":