Spaces:

DebabrataHalder
/

chatWithMultiplePDF1

Sleeping

App Files Files Community

DebabrataHalder commited on Jan 22

Commit

ff5ca1d

verified ·

1 Parent(s): d49426a

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -14

app.py CHANGED Viewed

@@ -1,17 +1,15 @@
 import os
 import logging
 from dotenv import load_dotenv
 import streamlit as st
 from PyPDF2 import PdfReader
 from langchain.text_splitter import CharacterTextSplitter
-# from langchain.embeddings import HuggingFaceInstructEmbeddings
 from langchain_cohere import CohereEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
-# from langchain.llms import Ollama
-from langchain_groq import ChatGroq
 # Load environment variables
 load_dotenv()
@@ -42,22 +40,30 @@ def get_text_chunks(text):
     chunks = text_splitter.split_text(text)
     return chunks
-# Function to create a FAISS vectorstore
-# def get_vectorstore(text_chunks):
-#     embeddings = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-xl")
-#     vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
-#     return vectorstore
 def get_vectorstore(text_chunks):
     cohere_api_key = os.getenv("COHERE_API_KEY")
     embeddings = CohereEmbeddings(model="embed-english-v3.0", cohere_api_key=cohere_api_key)
-    vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
-    return vectorstore
 # Function to set up the conversational retrieval chain
 def get_conversation_chain(vectorstore):
     try:
-        # llm = Ollama(model="llama3.2:1b")
         llm = ChatGroq(model="llama-3.1-70b-versatile", temperature=0.5)
         memory = ConversationBufferMemory(memory_key='chat_history', return_messages=True)
@@ -112,7 +118,9 @@ def main():
                 raw_text = get_pdf_text(pdf_docs)
                 text_chunks = get_text_chunks(raw_text)
                 vectorstore = get_vectorstore(text_chunks)
-                st.session_state.conversation = get_conversation_chain(vectorstore)
 if __name__ == '__main__':
     main()

 import os
 import logging
+import time
 from dotenv import load_dotenv
 import streamlit as st
 from PyPDF2 import PdfReader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain_cohere import CohereEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
+from cohere.errors import TooManyRequestsError
 # Load environment variables
 load_dotenv()
     chunks = text_splitter.split_text(text)
     return chunks
+# Function to create a FAISS vectorstore with error handling for rate limits
 def get_vectorstore(text_chunks):
     cohere_api_key = os.getenv("COHERE_API_KEY")
     embeddings = CohereEmbeddings(model="embed-english-v3.0", cohere_api_key=cohere_api_key)
+    retries = 5  # Number of retries before giving up
+    for attempt in range(retries):
+        try:
+            vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
+            return vectorstore
+        except TooManyRequestsError as e:
+            logging.warning(f"Rate limit exceeded: {e}. Retrying in {attempt + 1} seconds...")
+            time.sleep(attempt + 1)  # Exponential backoff
+        except Exception as e:
+            logging.error(f"Error creating vectorstore: {e}")
+            st.error("An error occurred while creating the vectorstore.")
+            break
+    st.error("Failed to create vectorstore after multiple attempts due to rate limits.")
+    return None
 # Function to set up the conversational retrieval chain
 def get_conversation_chain(vectorstore):
     try:
         llm = ChatGroq(model="llama-3.1-70b-versatile", temperature=0.5)
         memory = ConversationBufferMemory(memory_key='chat_history', return_messages=True)
                 raw_text = get_pdf_text(pdf_docs)
                 text_chunks = get_text_chunks(raw_text)
                 vectorstore = get_vectorstore(text_chunks)
+                if vectorstore is not None:  # Only proceed if vectorstore creation was successful
+                    st.session_state.conversation = get_conversation_chain(vectorstore)
 if __name__ == '__main__':
     main()