Spaces:

mfraz
/

PDF-Extractor

Sleeping

App Files Files Community

mfraz commited on Feb 22

Commit

da4f565

verified ·

1 Parent(s): fde9d41

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -49

app.py CHANGED Viewed

@@ -1,61 +1,57 @@
 import os
 import streamlit as st
-import PyPDF2
-import docx
-from sentence_transformers import SentenceTransformer
 from groq import Groq
-from transformers import pipeline
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-# Set up Groq API
-client = Groq(api_key=os.environ.get("Groq_Api"))
-# Load embedding model
-embedder = SentenceTransformer("all-MiniLM-L6-v2")
-# Title and UI
-st.set_page_config(page_title="A&Q From a File", page_icon="📖")
 st.title("📖 A&Q From a File")
 # File Upload
 uploaded_file = st.file_uploader("Upload a PDF or DOCX file", type=["pdf", "docx"])
 if uploaded_file:
-    text = ""
-    # Extract text from PDF
-    if uploaded_file.type == "application/pdf":
-        pdf_reader = PyPDF2.PdfReader(uploaded_file)
-        for page in pdf_reader.pages:
-            text += page.extract_text() + "\n"
-    # Extract text from DOCX
-    elif uploaded_file.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
-        doc = docx.Document(uploaded_file)
-        for para in doc.paragraphs:
-            text += para.text + "\n"
-    # Chunking the text
-    text_splitter = RecursiveCharacterTextSplitter(
-        chunk_size=500, chunk_overlap=50
-    )
-    chunks = text_splitter.split_text(text)
-    # Embed chunks
-    embeddings = embedder.encode(chunks, convert_to_tensor=True)
-    # Query Input
-    user_query = st.text_input("Ask a question about the file:")
-    if user_query:
-        # Query Groq API
-        chat_completion = client.chat.completions.create(
-            messages=[
-                {"role": "user", "content": f"Answer this question based on the uploaded document: {user_query}"}
-            ],
-            model="llama-3.3-70b-versatile",
-        )
-        # Display answer
-        st.subheader("Answer:")
-        st.write(chat_completion.choices[0].message.content)

 import os
 import streamlit as st
 from groq import Groq
+from PyPDF2 import PdfReader
+from docx import Document
+from sentence_transformers import SentenceTransformer
+# Initialize Groq API Client
+client = Groq(api_key=os.environ.get("Groq-Api"))
+# Title with Book Icon
 st.title("📖 A&Q From a File")
 # File Upload
 uploaded_file = st.file_uploader("Upload a PDF or DOCX file", type=["pdf", "docx"])
 if uploaded_file:
+    st.write(f"**File Name:** {uploaded_file.name}")  # Display file name
+    # Read PDF or DOCX content
+    def extract_text(file):
+        if file.name.endswith(".pdf"):
+            reader = PdfReader(file)
+            return "\n".join([page.extract_text() for page in reader.pages if page.extract_text()])
+        elif file.name.endswith(".docx"):
+            doc = Document(file)
+            return "\n".join([para.text for para in doc.paragraphs])
+        return ""
+    file_text = extract_text(uploaded_file)
+    if file_text:
+        st.success("File uploaded and text extracted successfully!")
+        st.write("Ask a question about the file:")
+        query = st.text_input("Enter your question")
+        if query:
+            # Chunk & Tokenize
+            model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+            chunks = [file_text[i:i + 512] for i in range(0, len(file_text), 512)]
+            embeddings = model.encode(chunks)
+            # Query with Groq API
+            chat_completion = client.chat.completions.create(
+                messages=[
+                    {"role": "user", "content": f"Answer based on this document: {query}\n\n{file_text}"},
+                ],
+                model="llama-3.3-70b-versatile",
+            )
+            # Display Answer
+            answer = chat_completion.choices[0].message.content
+            st.subheader("Answer:")
+            st.write(answer)
+    else:
+        st.error("Failed to extract text from the file. Please check the format.")