Spaces:

DebabrataHalder
/

chatWithMultiplePDF1

Sleeping

App Files Files Community

DebabrataHalder commited on Jan 23

Commit

b3f85f1

verified ·

1 Parent(s): 4b2c780

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -22

app.py CHANGED Viewed

@@ -4,15 +4,13 @@ from dotenv import load_dotenv
 import streamlit as st
 from PyPDF2 import PdfReader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain_cohere import CohereEmbeddings
-from langchain_community.vectorstores import FAISS
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
 from langchain_groq import ChatGroq
-from langchain_core.docstore import InMemoryDocstore
-import faiss
-from uuid import uuid4
-from langchain_core.documents import Document
 # Load environment variables
 load_dotenv()
@@ -44,30 +42,21 @@ def get_text_chunks(text):
     return chunks
 # Function to create a FAISS vectorstore
 def get_vectorstore(text_chunks):
     cohere_api_key = os.getenv("COHERE_API_KEY")
     embeddings = CohereEmbeddings(model="embed-english-v3.0", cohere_api_key=cohere_api_key)
-    # Initialize FAISS index
-    embedding_size = len(embeddings.embed_query("sample text"))
-    index = faiss.IndexFlatL2(embedding_size)
-    vectorstore = FAISS(
-        embedding_function=embeddings,
-        index=index,
-        docstore=InMemoryDocstore(),
-        index_to_docstore_id={}
-    )
-    # Add documents to the vectorstore
-    documents = [Document(page_content=chunk) for chunk in text_chunks]
-    ids = [str(uuid4()) for _ in documents]
-    vectorstore.add_documents(documents=documents, ids=ids)
     return vectorstore
 # Function to set up the conversational retrieval chain
 def get_conversation_chain(vectorstore):
     try:
         llm = ChatGroq(model="llama-3.1-70b-versatile", temperature=0.5)
         memory = ConversationBufferMemory(memory_key='chat_history', return_messages=True)
@@ -125,4 +114,4 @@ def main():
                 st.session_state.conversation = get_conversation_chain(vectorstore)
 if __name__ == '__main__':
-    main()

 import streamlit as st
 from PyPDF2 import PdfReader
 from langchain.text_splitter import CharacterTextSplitter
+# from langchain.embeddings import HuggingFaceInstructEmbeddings
 from langchain_cohere import CohereEmbeddings
+from langchain.vectorstores import FAISS
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
+# from langchain.llms import Ollama
 from langchain_groq import ChatGroq
 # Load environment variables
 load_dotenv()
     return chunks
 # Function to create a FAISS vectorstore
+# def get_vectorstore(text_chunks):
+#     embeddings = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-xl")
+#     vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
+#     return vectorstore
 def get_vectorstore(text_chunks):
     cohere_api_key = os.getenv("COHERE_API_KEY")
     embeddings = CohereEmbeddings(model="embed-english-v3.0", cohere_api_key=cohere_api_key)
+    vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
     return vectorstore
 # Function to set up the conversational retrieval chain
 def get_conversation_chain(vectorstore):
     try:
+        # llm = Ollama(model="llama3.2:1b")
         llm = ChatGroq(model="llama-3.1-70b-versatile", temperature=0.5)
         memory = ConversationBufferMemory(memory_key='chat_history', return_messages=True)
                 st.session_state.conversation = get_conversation_chain(vectorstore)
 if __name__ == '__main__':
+    main()