Spaces:

Anirudh1993
/

Pdf_mugger

Sleeping

App Files Files Community

Anirudh1993 commited on Mar 15

Commit

a6d6e36

verified ·

1 Parent(s): 1539dfd

Upload 3 files

Browse files

Files changed (3) hide show

app.py +34 -0
document_chat.py +48 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,34 @@

+import streamlit as st
+from document_chat import ingest_pdf, process_query_with_memory
+#configure streamlit app
+st.set_page_config(page_title="AI Document Q&A Chatbot", layout="wide")
+st.title("📄 AI-Powered Document Chatbot")
+st.write("Upload a document and ask questions!")
+#upload document
+uploaded_file = st.file_uploader("Upload a PDF", type=["pdf"])
+if uploaded_file:
+    file_path = "uploaded_doc.pdf"
+    with open(file_path, "wb") as f:
+        f.write(uploaded_file.getbuffer())
+    st.success("File uploaded! Processing...")
+    ingest_pdf(file_path)
+if "chat_history" not in st.session_state:
+    st.session_state["chat_history"] = []
+query = st.text_input("Ask a question:")
+if query:
+    with st.spinner("Thinking..."):
+        response = process_query_with_memory(query, st.session_state["chat_history"])
+        st.session_state["chat_history"].append((query, response))
+        st.write(response)
+# Show chat history
+if st.session_state["chat_history"]:
+    st.subheader("Chat History")
+    for q, a in st.session_state["chat_history"]:
+        st.write(f"**User:** {q}")
+        st.write(f"**Bot:** {a}")

document_chat.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import os
+from langchain.vectorstores import Chroma
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.document_loaders import PyMUPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.chains import ConversationalRetrievalChain
+from langchain.memory import ConversationalBufferMemory
+from langchain.llms import HuggingFaceHub
+#Constants
+CHROMA_DB_PATH = "chroma_db"
+SENTENCE_TRANSFORMER_MODEL = "sentence-ransformers/all-MiniLM-L6=v2"
+LLM_Model = "HuggingFaceH4/zephyr-7b-beta"
+#Initialize vector store
+def initialize_vector_store():
+    embeddings = HuggingFaceEmbeddings(model_name = SENTENCE_TRANSFORMER_MODEL)
+    vector_store = Chroma(persist_directory = CHROMA_DB_PATH, embedding_fnction = embeddings)
+    return vector_store
+vector_store = initialize_vector_store()
+def ingest_pdf(pdf_path):
+    loader = PyMUPDFLoader(pdf_path)
+    documents = loader.load()
+    #split text into smaller chunks
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size = 1000, chunk_overlap = 100)
+    splitdocs = text_splitter.split_documents(documents)
+    #store in vector db
+    vector_store.add_documents(splitdocs)
+    vector_store.persist()
+def process_query_with_memory(query, chat_history=[]):
+    retriever = vector_store.as_retriever()
+    #Initialize chat memory
+    memory = ConversationalBufferMemory(memory_key = "chat_history", return_messages = True)
+    #Load a free hugging face model
+    llm = HuggingFaceHub(repo_id = LLM_Model, model_kwargs = {"max_new_tokens": 500})
+    #Create a conversational retrieval chain
+    qa_chain = ConversationalRetrievalChain(
+        llm = llm,
+        retriever = retriever,
+        memory = memory)
+    return qa_chain.run({"question":query, "chat_history": chat_history})

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+langchain
+chromadb
+pdfminer.six
+sentence-transformers
+transformers
+torch
+streamlit
+huggingface_hub