Spaces:

masadonline
/

RAG-PDF

Sleeping

App Files Files Community

masadonline commited on May 18

Commit

85e6257

verified ·

1 Parent(s): e90223f

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -35

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
-# app.py
 import streamlit as st
 import pdfplumber
 import os
@@ -6,68 +5,82 @@ import tempfile
 import faiss
 import numpy as np
 from sentence_transformers import SentenceTransformer
-import openai
 from dotenv import load_dotenv
 load_dotenv()
-openai.api_key = os.getenv("GROQ_API_KEY")  # assumes GROQ is OpenAI-compatible
-MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"
-LLM_MODEL = "llama3-8b-8192"  # Change if needed
-model = SentenceTransformer(MODEL_NAME)
-# Function to extract table rows
-def extract_rows_from_pdf(pdf_file):
-    with pdfplumber.open(pdf_file) as pdf:
-        rows = []
         for page in pdf.pages:
             tables = page.extract_tables()
             for table in tables:
-                for row in table[1:]:  # skip header
-                    cleaned = " | ".join([str(cell).strip() for cell in row])
                     rows.append(cleaned)
-        return rows
-# Function to build FAISS index
 def build_index(chunks):
-    vectors = model.encode(chunks)
     index = faiss.IndexFlatL2(vectors.shape[1])
     index.add(np.array(vectors))
     return index, vectors
-# Function to query LLM
 def ask_llm(context, query):
-    prompt = f"Context:\n{context}\n\nAnswer the question: {query}"
-    response = openai.ChatCompletion.create(
         model=LLM_MODEL,
         messages=[{"role": "user", "content": prompt}]
     )
-    return response['choices'][0]['message']['content']
 # Streamlit UI
-st.title("📦 Order Status Helper")
-uploaded_file = st.file_uploader("Upload Customer Order PDF", type="pdf")
 if uploaded_file:
-    with tempfile.NamedTemporaryFile(delete=False) as tmp:
         tmp.write(uploaded_file.read())
-        tmp_path = tmp.name
-    st.success("File uploaded and processed!")
-    st.session_state.rows = extract_rows_from_pdf(tmp_path)
-    st.session_state.index, st.session_state.vectors = build_index(st.session_state.rows)
-    query = st.text_input("Ask a question (e.g., What is the status of ORD12345?)")
-    if query:
-        query_vec = model.encode([query])
-        D, I = st.session_state.index.search(query_vec, k=3)
-        context = "\n".join([st.session_state.rows[i] for i in I[0]])
-        answer = ask_llm(context, query)
-        st.markdown("### 🧠 Answer")
-        st.write(answer)

 import streamlit as st
 import pdfplumber
 import os
 import faiss
 import numpy as np
 from sentence_transformers import SentenceTransformer
+from openai import OpenAI
 from dotenv import load_dotenv
+# Load environment variables
 load_dotenv()
+GROQ_API_KEY = os.getenv("GROQ_API_KEY")
+# Setup GROQ client
+client = OpenAI(api_key=GROQ_API_KEY, base_url="https://api.groq.com/openai/v1")
+# Constants
+EMBEDDING_MODEL = "sentence-transformers/all-MiniLM-L6-v2"
+LLM_MODEL = "llama3-8b-8192"
+embedder = SentenceTransformer(EMBEDDING_MODEL)
+# Extract table rows from PDF
+def extract_rows_from_pdf(pdf_file_path):
+    rows = []
+    with pdfplumber.open(pdf_file_path) as pdf:
         for page in pdf.pages:
             tables = page.extract_tables()
             for table in tables:
+                for row in table[1:]:
+                    cleaned = " | ".join([str(cell).strip() for cell in row if cell is not None])
                     rows.append(cleaned)
+    return rows
+# Build FAISS index
 def build_index(chunks):
+    vectors = embedder.encode(chunks)
     index = faiss.IndexFlatL2(vectors.shape[1])
     index.add(np.array(vectors))
     return index, vectors
+# Ask LLM
 def ask_llm(context, query):
+    prompt = f"You are a helpful assistant for an online toy shop.\n\nHere is the order data:\n{context}\n\nQuestion: {query}"
+    response = client.chat.completions.create(
         model=LLM_MODEL,
         messages=[{"role": "user", "content": prompt}]
     )
+    return response.choices[0].message.content
 # Streamlit UI
+st.set_page_config(page_title="🧸 ToyShop Order Status Assistant", layout="wide")
+st.title("📦 ToyShop Order Status Assistant")
+uploaded_file = st.file_uploader("Upload a Customer Order PDF", type="pdf")
 if uploaded_file:
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp:
         tmp.write(uploaded_file.read())
+        pdf_path = tmp.name
+    st.success("✅ File uploaded successfully")
+    # Process file
+    rows = extract_rows_from_pdf(pdf_path)
+    if not rows:
+        st.error("❌ No tabular data found in the PDF.")
+    else:
+        st.info(f"📄 Extracted {len(rows)} rows of order data.")
+        index, _ = build_index(rows)
+        query = st.text_input("Ask a question (e.g., 'What is the status of order 27?')")
+        if query:
+            query_vec = embedder.encode([query])
+            D, I = index.search(query_vec, k=3)
+            context = "\n".join([rows[i] for i in I[0]])
+            with st.spinner("Generating answer..."):
+                try:
+                    answer = ask_llm(context, query)
+                    st.markdown("### 🧠 Answer")
+                    st.write(answer)
+                except Exception as e:
+                    st.error(f"LLM Error: {str(e)}")