Spaces:

masadonline
/

Quasa

Sleeping

App Files Files Community

masadonline commited on May 17

Commit

e1e01d8

verified ·

1 Parent(s): 2d6e369

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -34

app.py CHANGED Viewed

@@ -2,7 +2,6 @@ import os
 import time
 import streamlit as st
 from twilio.rest import Client
-from twilio.base.exceptions import TwilioRestException
 from pdfminer.high_level import extract_text
 from sentence_transformers import SentenceTransformer
 from transformers import AutoTokenizer
@@ -12,31 +11,33 @@ import docx
 from groq import Groq
 import PyPDF2
 import requests
-from streamlit_extras.st_autorefresh import st_autorefresh  # <- fixed import
-# --- Document Loaders ---
 def extract_text_from_pdf(pdf_path):
     try:
         text = ""
         with open(pdf_path, 'rb') as file:
             pdf_reader = PyPDF2.PdfReader(file)
-            for page_num in range(len(pdf_reader.pages)):
-                page = pdf_reader.pages[page_num]
                 page_text = page.extract_text()
                 if page_text:
                     text += page_text
         return text
-    except:
         return extract_text(pdf_path)
 def extract_text_from_docx(docx_path):
     try:
         doc = docx.Document(docx_path)
         return '\n'.join(para.text for para in doc.paragraphs)
-    except:
         return ""
 def chunk_text(text, tokenizer, chunk_size=150, chunk_overlap=30):
     tokens = tokenizer.tokenize(text)
     chunks, start = [], 0
@@ -47,15 +48,19 @@ def chunk_text(text, tokenizer, chunk_size=150, chunk_overlap=30):
         start += chunk_size - chunk_overlap
     return chunks
 def retrieve_chunks(question, index, embed_model, text_chunks, k=3):
     question_embedding = embed_model.encode([question])[0]
-    D, I = index.search(np.array([question_embedding]), k)
     return [text_chunks[i] for i in I[0]]
-# --- GROQ Answer Generation ---
 def generate_answer_with_groq(question, context, retries=3, delay=2):
     url = "https://api.groq.com/openai/v1/chat/completions"
-    api_key = os.environ["GROQ_API_KEY"]
     headers = {
         "Authorization": f"Bearer {api_key}",
         "Content-Type": "application/json",
@@ -85,17 +90,20 @@ def generate_answer_with_groq(question, context, retries=3, delay=2):
     for attempt in range(retries):
         try:
-            response = requests.post(url, headers=headers, json=payload)
             result = response.json()
             return result['choices'][0]['message']['content'].strip()
-        except Exception as e:
-            if "503" in str(e) and attempt < retries - 1:
                 time.sleep(delay)
                 continue
             else:
-                return f"⚠️ Groq API Error: {str(e)}"
-# --- Twilio Chat Handlers ---
 def fetch_latest_incoming_message(account_sid, auth_token, conversation_sid):
     client = Client(account_sid, auth_token)
     messages = client.conversations.v1.conversations(conversation_sid).messages.list(limit=10)
@@ -112,15 +120,13 @@ def send_twilio_message(account_sid, auth_token, conversation_sid, body):
     except Exception as e:
         return str(e)
-# --- Streamlit UI ---
 st.set_page_config(page_title="Quasa – A Smart WhatsApp Chatbot", layout="wide")
 st.title("📱 Quasa – A Smart WhatsApp Chatbot")
-# Initialize session state for last index
 if "last_index" not in st.session_state:
     st.session_state.last_index = -1
-# Load secrets or allow manual input
 account_sid = st.secrets.get("TWILIO_SID")
 auth_token = st.secrets.get("TWILIO_TOKEN")
 GROQ_API_KEY = st.secrets.get("GROQ_API_KEY")
@@ -133,7 +139,6 @@ if not all([account_sid, auth_token, GROQ_API_KEY]):
 conversation_sid = st.text_input("Enter Conversation SID", value="")
-# Auto-refresh toggle and interval selector
 enable_autorefresh = st.checkbox("🔄 Enable Auto-Refresh", value=True)
 interval_seconds = st.selectbox("Refresh Interval (seconds)", options=[5, 10, 15, 30, 60], index=1)
@@ -143,25 +148,31 @@ if enable_autorefresh:
 if all([account_sid, auth_token, GROQ_API_KEY, conversation_sid]):
     os.environ["GROQ_API_KEY"] = GROQ_API_KEY
-    @st.cache_resource
     def setup_knowledge_base():
         folder_path = "docs"
         all_text = ""
-        for file in os.listdir(folder_path):
-            if file.endswith(".pdf"):
-                all_text += extract_text_from_pdf(os.path.join(folder_path, file)) + "\n"
-            elif file.endswith((".docx", ".doc")):
-                all_text += extract_text_from_docx(os.path.join(folder_path, file)) + "\n"
-        tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
-        chunks = chunk_text(all_text, tokenizer)
-        model = SentenceTransformer('all-mpnet-base-v2')
-        embeddings = model.encode(chunks)
-        dim = embeddings[0].shape[0]
-        index = faiss.IndexFlatL2(dim)
-        index.add(np.array(embeddings))
-        return index, model, chunks
     index, embedding_model, text_chunks = setup_knowledge_base()
     st.success("✅ Knowledge base ready. Monitoring WhatsApp...")

 import time
 import streamlit as st
 from twilio.rest import Client
 from pdfminer.high_level import extract_text
 from sentence_transformers import SentenceTransformer
 from transformers import AutoTokenizer
 from groq import Groq
 import PyPDF2
 import requests
+from streamlit_extras.st_autorefresh import st_autorefresh
+# Extract text from PDF with fallback
 def extract_text_from_pdf(pdf_path):
     try:
         text = ""
         with open(pdf_path, 'rb') as file:
             pdf_reader = PyPDF2.PdfReader(file)
+            for page in pdf_reader.pages:
                 page_text = page.extract_text()
                 if page_text:
                     text += page_text
         return text
+    except Exception as e:
+        st.write(f"Fallback pdfminer extraction: {e}")
         return extract_text(pdf_path)
+# Extract text from DOCX
 def extract_text_from_docx(docx_path):
     try:
         doc = docx.Document(docx_path)
         return '\n'.join(para.text for para in doc.paragraphs)
+    except Exception as e:
+        st.write(f"Docx extraction error: {e}")
         return ""
+# Chunk text based on tokens
 def chunk_text(text, tokenizer, chunk_size=150, chunk_overlap=30):
     tokens = tokenizer.tokenize(text)
     chunks, start = [], 0
         start += chunk_size - chunk_overlap
     return chunks
+# Retrieve relevant chunks from index
 def retrieve_chunks(question, index, embed_model, text_chunks, k=3):
     question_embedding = embed_model.encode([question])[0]
+    D, I = index.search(np.array([question_embedding]).astype('float32'), k)
     return [text_chunks[i] for i in I[0]]
+# Generate answer using Groq API with retries and timeout
 def generate_answer_with_groq(question, context, retries=3, delay=2):
     url = "https://api.groq.com/openai/v1/chat/completions"
+    api_key = os.environ.get("GROQ_API_KEY")
+    if not api_key:
+        return "⚠️ GROQ_API_KEY not set."
     headers = {
         "Authorization": f"Bearer {api_key}",
         "Content-Type": "application/json",
     for attempt in range(retries):
         try:
+            response = requests.post(url, headers=headers, json=payload, timeout=10)
+            response.raise_for_status()
             result = response.json()
             return result['choices'][0]['message']['content'].strip()
+        except requests.exceptions.HTTPError as e:
+            if response.status_code == 503 and attempt < retries - 1:
                 time.sleep(delay)
                 continue
             else:
+                return f"⚠️ Groq API HTTPError: {e}"
+        except Exception as e:
+            return f"⚠️ Groq API Error: {e}"
+# Twilio message fetch and send
 def fetch_latest_incoming_message(account_sid, auth_token, conversation_sid):
     client = Client(account_sid, auth_token)
     messages = client.conversations.v1.conversations(conversation_sid).messages.list(limit=10)
     except Exception as e:
         return str(e)
+# Streamlit UI
 st.set_page_config(page_title="Quasa – A Smart WhatsApp Chatbot", layout="wide")
 st.title("📱 Quasa – A Smart WhatsApp Chatbot")
 if "last_index" not in st.session_state:
     st.session_state.last_index = -1
 account_sid = st.secrets.get("TWILIO_SID")
 auth_token = st.secrets.get("TWILIO_TOKEN")
 GROQ_API_KEY = st.secrets.get("GROQ_API_KEY")
 conversation_sid = st.text_input("Enter Conversation SID", value="")
 enable_autorefresh = st.checkbox("🔄 Enable Auto-Refresh", value=True)
 interval_seconds = st.selectbox("Refresh Interval (seconds)", options=[5, 10, 15, 30, 60], index=1)
 if all([account_sid, auth_token, GROQ_API_KEY, conversation_sid]):
     os.environ["GROQ_API_KEY"] = GROQ_API_KEY
+    @st.cache_data(show_spinner=False)
     def setup_knowledge_base():
         folder_path = "docs"
         all_text = ""
+        try:
+            for file in os.listdir(folder_path):
+                if file.endswith(".pdf"):
+                    all_text += extract_text_from_pdf(os.path.join(folder_path, file)) + "\n"
+                elif file.endswith((".docx", ".doc")):
+                    all_text += extract_text_from_docx(os.path.join(folder_path, file)) + "\n"
+            tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
+            chunks = chunk_text(all_text, tokenizer)
+            model = SentenceTransformer('all-mpnet-base-v2')
+            embeddings = model.encode(chunks)
+            dim = embeddings[0].shape[0]
+            index = faiss.IndexFlatL2(dim)
+            index.add(np.array(embeddings).astype('float32'))
+            return index, model, chunks
+        except Exception as e:
+            st.error(f"Error setting up knowledge base: {e}")
+            return None, None, None
     index, embedding_model, text_chunks = setup_knowledge_base()
+    if index is None:
+        st.stop()
     st.success("✅ Knowledge base ready. Monitoring WhatsApp...")