Spaces:

masadonline
/

RAG-PDF

Sleeping

App Files Files Community

masadonline commited on May 18

Commit

92d0c75

verified ·

1 Parent(s): 013dd9f

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -8

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import pdfplumber
 import faiss
 import numpy as np
 import pandas as pd
 from sentence_transformers import SentenceTransformer
 from openai import OpenAI
 from dotenv import load_dotenv
@@ -25,6 +26,8 @@ embedder = SentenceTransformer(EMBEDDING_MODEL)
 st.set_page_config(page_title="🧸 ToyShop Assistant", layout="wide")
 st.title("🧸 ToyShop RAG-Based Assistant")
 def extract_pdf_text(file):
     text = ""
     with pdfplumber.open(file) as pdf:
@@ -42,6 +45,9 @@ def flatten_order(order):
                 flat.append(f"{k}: {json.dumps(v, ensure_ascii=False)}")
             else:
                 flat.append(f"{k}: {v}")
     return "\n".join(flat)
 def load_json_orders(json_file):
@@ -79,7 +85,19 @@ Question: {query}
     )
     return response.choices[0].message.content.strip()
-# Uploads
 st.subheader("📁 Upload Customer Orders (JSON)")
 orders_file = st.file_uploader("Upload JSON file", type="json")
@@ -87,14 +105,14 @@ st.subheader("📚 Upload FAQs / Product Info / Return Policy (PDFs)")
 pdf_files = st.file_uploader("Upload one or more PDFs", type="pdf", accept_multiple_files=True)
 order_chunks, pdf_chunks = [], []
-# Handle JSON orders
 if orders_file:
     orders = load_json_orders(orders_file)
     if orders:
         order_chunks = [flatten_order(o) for o in orders]
         st.success(f"✅ Loaded {len(order_chunks)} valid orders.")
         try:
             df = pd.json_normalize(orders)
             st.dataframe(df, use_container_width=True)
@@ -102,7 +120,7 @@ if orders_file:
             st.warning("⚠️ Unable to normalize JSON. Showing raw preview.")
             st.json(orders)
-# Handle PDFs
 if pdf_files:
     for file in pdf_files:
         try:
@@ -112,7 +130,7 @@ if pdf_files:
         except Exception as e:
             st.error(f"❌ Error in {file.name}: {e}")
-# Combine & build index
 combined_chunks = order_chunks + pdf_chunks
 if combined_chunks:
@@ -122,9 +140,15 @@ if combined_chunks:
     user_query = st.text_input("What would you like to know?", placeholder="e.g., What is the status of order 105?")
     if user_query:
-        query_vector = embedder.encode([user_query])
-        D, I = index.search(query_vector, k=5)
-        context = "\n---\n".join([sources[i] for i in I[0]])
         with st.spinner("🤔 Thinking..."):
             try:

 import faiss
 import numpy as np
 import pandas as pd
+import re
 from sentence_transformers import SentenceTransformer
 from openai import OpenAI
 from dotenv import load_dotenv
 st.set_page_config(page_title="🧸 ToyShop Assistant", layout="wide")
 st.title("🧸 ToyShop RAG-Based Assistant")
+# --- Helper Functions ---
 def extract_pdf_text(file):
     text = ""
     with pdfplumber.open(file) as pdf:
                 flat.append(f"{k}: {json.dumps(v, ensure_ascii=False)}")
             else:
                 flat.append(f"{k}: {v}")
+        # Add a natural language summary
+        if "order_id" in order and "status" in order:
+            flat.append(f"The status of order {order['order_id']} is {order['status']}.")
     return "\n".join(flat)
 def load_json_orders(json_file):
     )
     return response.choices[0].message.content.strip()
+def preprocess_query(q):
+    return q.replace("order_id", "order").replace("_", " ")
+def get_order_by_id(orders, query):
+    match = re.search(r"order(?:_id)?\s*[:#]?\s*(\d+)", query)
+    if match:
+        oid = match.group(1)
+        for order in orders:
+            if str(order.get("order_id")) == oid:
+                return flatten_order(order)
+    return None
+# --- Uploads ---
 st.subheader("📁 Upload Customer Orders (JSON)")
 orders_file = st.file_uploader("Upload JSON file", type="json")
 pdf_files = st.file_uploader("Upload one or more PDFs", type="pdf", accept_multiple_files=True)
 order_chunks, pdf_chunks = [], []
+orders = []
+# --- Handle JSON Orders ---
 if orders_file:
     orders = load_json_orders(orders_file)
     if orders:
         order_chunks = [flatten_order(o) for o in orders]
         st.success(f"✅ Loaded {len(order_chunks)} valid orders.")
         try:
             df = pd.json_normalize(orders)
             st.dataframe(df, use_container_width=True)
             st.warning("⚠️ Unable to normalize JSON. Showing raw preview.")
             st.json(orders)
+# --- Handle PDFs ---
 if pdf_files:
     for file in pdf_files:
         try:
         except Exception as e:
             st.error(f"❌ Error in {file.name}: {e}")
+# --- Build Index & Q&A ---
 combined_chunks = order_chunks + pdf_chunks
 if combined_chunks:
     user_query = st.text_input("What would you like to know?", placeholder="e.g., What is the status of order 105?")
     if user_query:
+        pre_q = preprocess_query(user_query)
+        direct_match = get_order_by_id(orders, user_query)
+        if direct_match:
+            context = direct_match
+        else:
+            query_vector = embedder.encode([pre_q])
+            D, I = index.search(query_vector, k=5)
+            context = "\n---\n".join([sources[i] for i in I[0]])
         with st.spinner("🤔 Thinking..."):
             try: