Spaces:

Anirudh1993
/

Pdf_mugger

Sleeping

App Files Files Community

Anirudh1993 commited on Mar 15

Commit

4f0811d

verified ·

1 Parent(s): ac6d4b3

Update document_chat.py

Browse files

Files changed (1) hide show

document_chat.py +48 -48

document_chat.py CHANGED Viewed

@@ -1,48 +1,48 @@
-import os
-from langchain.vectorstores import Chroma
-from langchain.embeddings import HuggingFaceEmbeddings
-from langchain.document_loaders import PyMUPDFLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.chains import ConversationalRetrievalChain
-from langchain.memory import ConversationalBufferMemory
-from langchain.llms import HuggingFaceHub
-#Constants
-CHROMA_DB_PATH = "chroma_db"
-SENTENCE_TRANSFORMER_MODEL = "sentence-ransformers/all-MiniLM-L6=v2"
-LLM_Model = "HuggingFaceH4/zephyr-7b-beta"
-#Initialize vector store
-def initialize_vector_store():
-    embeddings = HuggingFaceEmbeddings(model_name = SENTENCE_TRANSFORMER_MODEL)
-    vector_store = Chroma(persist_directory = CHROMA_DB_PATH, embedding_fnction = embeddings)
-    return vector_store
-vector_store = initialize_vector_store()
-def ingest_pdf(pdf_path):
-    loader = PyMUPDFLoader(pdf_path)
-    documents = loader.load()
-    #split text into smaller chunks
-    text_splitter = RecursiveCharacterTextSplitter(chunk_size = 1000, chunk_overlap = 100)
-    splitdocs = text_splitter.split_documents(documents)
-    #store in vector db
-    vector_store.add_documents(splitdocs)
-    vector_store.persist()
-def process_query_with_memory(query, chat_history=[]):
-    retriever = vector_store.as_retriever()
-    #Initialize chat memory
-    memory = ConversationalBufferMemory(memory_key = "chat_history", return_messages = True)
-    #Load a free hugging face model
-    llm = HuggingFaceHub(repo_id = LLM_Model, model_kwargs = {"max_new_tokens": 500})
-    #Create a conversational retrieval chain
-    qa_chain = ConversationalRetrievalChain(
-        llm = llm,
-        retriever = retriever,
-        memory = memory)
-    return qa_chain.run({"question":query, "chat_history": chat_history})

+import os
+from langchain.vectorstores import Chroma
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.document_loaders import PyMuPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.chains import ConversationalRetrievalChain
+from langchain.memory import ConversationalBufferMemory
+from langchain.llms import HuggingFaceHub
+#Constants
+CHROMA_DB_PATH = "chroma_db"
+SENTENCE_TRANSFORMER_MODEL = "sentence-ransformers/all-MiniLM-L6=v2"
+LLM_Model = "HuggingFaceH4/zephyr-7b-beta"
+#Initialize vector store
+def initialize_vector_store():
+    embeddings = HuggingFaceEmbeddings(model_name = SENTENCE_TRANSFORMER_MODEL)
+    vector_store = Chroma(persist_directory = CHROMA_DB_PATH, embedding_fnction = embeddings)
+    return vector_store
+vector_store = initialize_vector_store()
+def ingest_pdf(pdf_path):
+    loader = PyMUPDFLoader(pdf_path)
+    documents = loader.load()
+    #split text into smaller chunks
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size = 1000, chunk_overlap = 100)
+    splitdocs = text_splitter.split_documents(documents)
+    #store in vector db
+    vector_store.add_documents(splitdocs)
+    vector_store.persist()
+def process_query_with_memory(query, chat_history=[]):
+    retriever = vector_store.as_retriever()
+    #Initialize chat memory
+    memory = ConversationalBufferMemory(memory_key = "chat_history", return_messages = True)
+    #Load a free hugging face model
+    llm = HuggingFaceHub(repo_id = LLM_Model, model_kwargs = {"max_new_tokens": 500})
+    #Create a conversational retrieval chain
+    qa_chain = ConversationalRetrievalChain(
+        llm = llm,
+        retriever = retriever,
+        memory = memory)
+    return qa_chain.run({"question":query, "chat_history": chat_history})