Spaces:

DebabrataHalder
/

chatWithMultiplePDF1

Sleeping

DebabrataHalder commited on Jan 22

Commit

4b2c780

verified ·

1 Parent(s): b86dd1f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,15 +1,18 @@
 import os
-import time
 import logging
 from dotenv import load_dotenv
 import streamlit as st
 from PyPDF2 import PdfReader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain_cohere import CohereEmbeddings
-from langchain.vectorstores import FAISS
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
 from langchain_groq import ChatGroq
 # Load environment variables
 load_dotenv()
@@ -40,23 +43,26 @@ def get_text_chunks(text):
     chunks = text_splitter.split_text(text)
     return chunks
-# Function to create a FAISS vectorstore with throttling
 def get_vectorstore(text_chunks):
     cohere_api_key = os.getenv("COHERE_API_KEY")
     embeddings = CohereEmbeddings(model="embed-english-v3.0", cohere_api_key=cohere_api_key)
-    vectorstore = FAISS()
-    batch_size = 10  # Number of chunks to process per batch
-    for i in range(0, len(text_chunks), batch_size):
-        batch = text_chunks[i:i + batch_size]
-        try:
-            vectors = embeddings.embed_documents(batch)
-            vectorstore.add_texts(texts=batch, embeddings=vectors)
-            logging.info(f"Processed batch {i // batch_size + 1}")
-        except Exception as e:
-            logging.error(f"Error processing batch {i // batch_size + 1}: {e}")
-        time.sleep(1.5)  # Sleep to avoid exceeding rate limit
     return vectorstore
 # Function to set up the conversational retrieval chain

 import os
 import logging
 from dotenv import load_dotenv
 import streamlit as st
 from PyPDF2 import PdfReader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain_cohere import CohereEmbeddings
+from langchain_community.vectorstores import FAISS
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
 from langchain_groq import ChatGroq
+from langchain_core.docstore import InMemoryDocstore
+import faiss
+from uuid import uuid4
+from langchain_core.documents import Document
 # Load environment variables
 load_dotenv()
     chunks = text_splitter.split_text(text)
     return chunks
+# Function to create a FAISS vectorstore
 def get_vectorstore(text_chunks):
     cohere_api_key = os.getenv("COHERE_API_KEY")
     embeddings = CohereEmbeddings(model="embed-english-v3.0", cohere_api_key=cohere_api_key)
+    # Initialize FAISS index
+    embedding_size = len(embeddings.embed_query("sample text"))
+    index = faiss.IndexFlatL2(embedding_size)
+    vectorstore = FAISS(
+        embedding_function=embeddings,
+        index=index,
+        docstore=InMemoryDocstore(),
+        index_to_docstore_id={}
+    )
+    # Add documents to the vectorstore
+    documents = [Document(page_content=chunk) for chunk in text_chunks]
+    ids = [str(uuid4()) for _ in documents]
+    vectorstore.add_documents(documents=documents, ids=ids)
     return vectorstore
 # Function to set up the conversational retrieval chain