Spaces:

masadonline
/

Quasa

Sleeping

App Files Files Community

masadonline commited on May 17

Commit

0ee59bd

verified ·

1 Parent(s): e2a3960

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -9

app.py CHANGED Viewed

@@ -14,30 +14,28 @@ import requests
 from streamlit_autorefresh import st_autorefresh
 # Extract text from PDF with fallback
 def extract_text_from_pdf(pdf_path):
     try:
         text = ""
         with open(pdf_path, 'rb') as file:
             pdf_reader = PyPDF2.PdfReader(file)
-            for page in pdf_reader.pages:
                 page_text = page.extract_text()
                 if page_text:
                     text += page_text
         return text
-    except Exception as e:
-        st.write(f"Fallback pdfminer extraction: {e}")
         return extract_text(pdf_path)
-# Extract text from DOCX
 def extract_text_from_docx(docx_path):
     try:
         doc = docx.Document(docx_path)
         return '\n'.join(para.text for para in doc.paragraphs)
-    except Exception as e:
-        st.write(f"Docx extraction error: {e}")
         return ""
-# Chunk text based on tokens
 def chunk_text(text, tokenizer, chunk_size=150, chunk_overlap=30):
     tokens = tokenizer.tokenize(text)
     chunks, start = [], 0
@@ -48,10 +46,9 @@ def chunk_text(text, tokenizer, chunk_size=150, chunk_overlap=30):
         start += chunk_size - chunk_overlap
     return chunks
-# Retrieve relevant chunks from index
 def retrieve_chunks(question, index, embed_model, text_chunks, k=3):
     question_embedding = embed_model.encode([question])[0]
-    D, I = index.search(np.array([question_embedding]).astype('float32'), k)
     return [text_chunks[i] for i in I[0]]
 # Generate answer using Groq API with retries and timeout

 from streamlit_autorefresh import st_autorefresh
 # Extract text from PDF with fallback
+# --- Document Loaders ---
 def extract_text_from_pdf(pdf_path):
     try:
         text = ""
         with open(pdf_path, 'rb') as file:
             pdf_reader = PyPDF2.PdfReader(file)
+            for page_num in range(len(pdf_reader.pages)):
+                page = pdf_reader.pages[page_num]
                 page_text = page.extract_text()
                 if page_text:
                     text += page_text
         return text
+    except:
         return extract_text(pdf_path)
 def extract_text_from_docx(docx_path):
     try:
         doc = docx.Document(docx_path)
         return '\n'.join(para.text for para in doc.paragraphs)
+    except:
         return ""
 def chunk_text(text, tokenizer, chunk_size=150, chunk_overlap=30):
     tokens = tokenizer.tokenize(text)
     chunks, start = [], 0
         start += chunk_size - chunk_overlap
     return chunks
 def retrieve_chunks(question, index, embed_model, text_chunks, k=3):
     question_embedding = embed_model.encode([question])[0]
+    D, I = index.search(np.array([question_embedding]), k)
     return [text_chunks[i] for i in I[0]]
 # Generate answer using Groq API with retries and timeout