Spaces:

masadonline
/

RAG-PDF

Sleeping

App Files Files Community

masadonline commited on May 18

Commit

36c0c0f

verified ·

1 Parent(s): 6c38165

Update app.py

Browse files

Files changed (1) hide show

app.py +72 -96

app.py CHANGED Viewed

@@ -1,100 +1,76 @@
-import streamlit as st
-import PyPDF2
 import os
-from dotenv import load_dotenv
-from gql import gql, Client
-from gql.transport.requests import RequestsHTTPTransport
 import pandas as pd
-# Load environment variables (GROQ API Key)
 load_dotenv()
-groq_api_key = os.environ.get("GROQ_API_KEY")
-# Function to extract order data from PDF
-def extract_order_data(pdf_file):
-    """Extracts order data from the uploaded PDF file."""
-    order_data = []
-    reader = PyPDF2.PdfReader(pdf_file)
-    for page in reader.pages:
-        text = page.extract_text()
-        if text:
-            lines = text.strip().split('\n')
-            start_index = next((i for i, line in enumerate(lines) if "Order ID" in line), None)
-            if start_index is not None:
-                headers = [header.strip() for header in lines[start_index].split(",")]
-                # Clean headers from extra spaces
-                headers = [h.replace(" ", "") for h in headers] # Remove spaces in header names
-                for line in lines[start_index + 1:]:
-                    values = [v.strip() for v in line.split(",")]
-                    if len(headers) == len(values):
-                        order_data.append(dict(zip(headers, values)))
-                    elif len(values) > len(headers):
-                         # Handle cases where there are more values than headers (e.g., extra commas)
-                         order_data.append(dict(zip(headers, values[:len(headers)])))
-                    else:
-                        print(f"Skipping line due to header/value mismatch: {line}") # print the problematic line.
-    return order_data
-# Function to fetch order status using GROQ API
-def fetch_order_status_from_groq(order_id, groq_api_key):
-    """Fetches order status and customer details from GROQ API."""
-    transport = RequestsHTTPTransport(
-        url="[https://api.groq.cloud/v1/graphql](https://api.groq.cloud/v1/graphql)",  # Replace with your GROQ endpoint
-        headers={"Authorization": f"Bearer {groq_api_key}"},
-        verify=True,
-        retries=3,
-    )
-    client = Client(transport=transport, fetch_schema_from_transport=True)
-    query = gql("""
-        query GetOrder($orderId: String!) {
-          getOrder(id: $orderId) {
-            id
-            status
-            customer {
-              name
-              email
-            }
-          }
-        }
-    """)  # Replace with your GROQ query
-    variables = {"orderId": order_id}
-    try:
-        result = client.execute(query, variable_values=variables)
-        return result["getOrder"]
-    except Exception as e:
-        return f"Error fetching data from GROQ: {e}"
-# Streamlit app
-def main():
-    st.title("Order Status App")
-    uploaded_file = st.file_uploader("Upload Customer Orders PDF", type="pdf")
-    if uploaded_file is not None:
-        order_data = extract_order_data(uploaded_file)
-        if order_data:
-            st.success("Order data extracted successfully!")
-            df = pd.DataFrame(order_data)
-            st.dataframe(df)  # Display the extracted data as a DataFrame
-            order_id_to_check = st.text_input("Enter Order ID to check status:")
-            if order_id_to_check:
-                order_status = fetch_order_status_from_groq(order_id_to_check, groq_api_key)
-                if order_status:
-                    st.json(order_status)
-                else:
-                    st.error("Could not retrieve order status.")
-        else:
-            st.error("Failed to extract order data from PDF. Please check the PDF format and try again.")
-if __name__ == "__main__":
-    main()

 import os
+import streamlit as st
+from PyPDF2 import PdfReader
+import docx
 import pandas as pd
+from bs4 import BeautifulSoup
+import openai
+from dotenv import load_dotenv
 load_dotenv()
+GROQ_API_KEY = os.getenv("GROQ_API_KEY")
+openai.api_key = GROQ_API_KEY
+openai.api_base = "https://api.groq.com/openai/v1"
+st.set_page_config(page_title="ToyShop Order Assistant", layout="wide")
+st.title("🧸 Online Toy Shop - Order Status Assistant")
+st.sidebar.header("Upload Customer Order Files")
+uploaded_files = st.sidebar.file_uploader(
+    "Upload your customer order files",
+    type=["pdf", "docx", "txt", "xlsx", "html"],
+    accept_multiple_files=True
+)
+def extract_text(file):
+    if file.name.endswith(".pdf"):
+        reader = PdfReader(file)
+        return "\n".join(page.extract_text() or "" for page in reader.pages)
+    elif file.name.endswith(".docx"):
+        doc = docx.Document(file)
+        return "\n".join(p.text for p in doc.paragraphs)
+    elif file.name.endswith(".txt"):
+        return file.read().decode("utf-8")
+    elif file.name.endswith(".xlsx"):
+        df = pd.read_excel(file)
+        return df.to_string()
+    elif file.name.endswith(".html"):
+        soup = BeautifulSoup(file.read(), "html.parser")
+        return soup.get_text()
+    else:
+        return ""
+combined_text = ""
+if uploaded_files:
+    st.sidebar.success(f"{len(uploaded_files)} file(s) uploaded.")
+    for f in uploaded_files:
+        try:
+            combined_text += f"\n\n--- {f.name} ---\n\n"
+            combined_text += extract_text(f)
+        except Exception as e:
+            st.sidebar.error(f"Error reading {f.name}: {str(e)}")
+query = st.text_input("Ask about your order (e.g., 'What is the status of order #123?')")
+if query and combined_text:
+    with st.spinner("Thinking..."):
+        try:
+            system_prompt = (
+                "You are a helpful assistant for an online toy shop. "
+                "Answer customer queries based on the following order information:\n\n"
+                + combined_text
+            )
+            response = openai.ChatCompletion.create(
+                model="llama3-8b-8192",
+                messages=[
+                    {"role": "system", "content": system_prompt},
+                    {"role": "user", "content": query}
+                ]
+            )
+            answer = response['choices'][0]['message']['content']
+            st.success("Answer:")
+            st.write(answer)
+        except Exception as e:
+            st.error(f"Error: {str(e)}")
+elif query:
+    st.warning("Please upload order files to enable RAG-based answers.")