Spaces:

piyushmadhukar
/

multi-agent-chatbot

Sleeping

App Files Files Community

piyushmadhukar commited on Mar 5

Commit

7c22b31

verified ·

1 Parent(s): 580f51d

Upload 7 files

Browse files

Files changed (8) hide show

.gitattributes +3 -0
Guide_to_Litigation_India.pdf +3 -0
Legal_Compliance_Corporate_Laws_ICAI.pdf +3 -0
app.py +134 -0
create_faiss_index.py +50 -0
doc_texts.npy +3 -0
faiss_index.idx +3 -0
requirements.txt +14 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+faiss_index.idx filter=lfs diff=lfs merge=lfs -text
+Guide_to_Litigation_India.pdf filter=lfs diff=lfs merge=lfs -text
+Legal_Compliance_Corporate_Laws_ICAI.pdf filter=lfs diff=lfs merge=lfs -text

Guide_to_Litigation_India.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea9f97e58c194f220d8a41e91b9d8fc429cff11a397e61e192d3be3443830d67
+size 2083921

Legal_Compliance_Corporate_Laws_ICAI.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e4622640ff9442adbb70fcffc5ac56756c7dfc7bffba2219fde8d646498efd1
+size 913275

app.py ADDED Viewed

	@@ -0,0 +1,134 @@

+from sentence_transformers import SentenceTransformer
+from transformers import pipeline
+from pydantic import BaseModel
+import faiss
+import numpy as np
+import streamlit as st
+from typing import List
+import os
+from dotenv import load_dotenv
+import google.generativeai as genai
+import torch
+import asyncio
+try:
+    asyncio.get_running_loop()
+except RuntimeError:
+    asyncio.set_event_loop(asyncio.new_event_loop())
+device = torch.device("cpu")
+print("Device set to use CPU")
+embedding_model = SentenceTransformer("all-MiniLM-L6-v2", device="cpu")
+summarizer = pipeline("summarization", model="facebook/bart-large-cnn", device=-1)  # -1 forces CPU usage
+load_dotenv()
+api_key = os.getenv("API_KEY")
+genai.configure(api_key=api_key)
+gemini_model = genai.GenerativeModel(model_name="gemini-2.0-flash")
+class UserQuery(BaseModel):
+    query: str
+class RetrievedSection(BaseModel):
+    text: str
+class SummarizedResponse(BaseModel):
+    summary: str
+class FinalLLMResponse(BaseModel):
+    response: str
+# Query Agent
+def query_legal_documents(query: UserQuery, top_k=3) -> List[RetrievedSection]:
+    if not os.path.exists("faiss_index.idx") or not os.path.exists("doc_texts.npy"):
+        st.error("FAISS index or document data not found.")
+        return []
+    index = faiss.read_index("faiss_index.idx")
+    doc_texts = np.load("doc_texts.npy", allow_pickle=True)
+    query_embedding = embedding_model.encode([query.query], convert_to_numpy=True)
+    distances, indices = index.search(query_embedding, top_k)
+    retrieved_sections = [
+        RetrievedSection(text=doc_texts[i]) for i in indices[0] if i < len(doc_texts)
+    ]
+    return retrieved_sections
+# Summarization Agent
+def summarize_text(text_sections: List[RetrievedSection]) -> List[SummarizedResponse]:
+    summarized_results = [
+        SummarizedResponse(
+            summary=summarizer(section.text, max_length=100, min_length=30, do_sample=False)[0]["summary_text"]
+        )
+        for section in text_sections
+    ]
+    return summarized_results
+# LLM Agent to refine response
+def generate_llm_response(summary_text: str) -> FinalLLMResponse:
+    response = gemini_model.generate_content(f"Provide a **brief** response. Do not use any special formatting like **. Here is the input:\n\n{summary_text}")
+    return FinalLLMResponse(response=response.text)
+def main():
+    st.set_page_config(page_title="Legal Chatbot", layout="wide")
+    st.sidebar.title("Legal Chatbot Settings")
+    st.sidebar.write("This chatbot helps with legal queries by retrieving relevant legal documents, summarizing them, and generating AI-enhanced responses.")
+    st.title("🧑‍⚖️ Legal Chatbot")
+    st.markdown("### Ask your legal question below:")
+    user_query = st.text_input("Enter your legal query:")
+    if st.button("Submit", use_container_width=True):
+        if user_query:
+            st.info("Processing your request...")
+            query_obj = UserQuery(query=user_query)
+            retrieved_sections = query_legal_documents(query_obj)
+            if not retrieved_sections:
+                st.warning("No relevant legal documents found. Try refining your query.")
+                return
+            summarized_sections = summarize_text(retrieved_sections)
+            # Combine summaries for LLM
+            combined_summary = "\n".join([res.summary for res in summarized_sections])
+            llm_response = generate_llm_response(combined_summary)
+            # Display results
+            st.markdown("### 📖 Retrieved Data from Knowledge Base")
+            for section in retrieved_sections:
+                st.markdown(f"🔹 {section.text}")
+            st.markdown("### ✨ Summarized Response")
+            for res in summarized_sections:
+                st.markdown(f"✅ {res.summary}")
+            st.markdown("### 🤖 AI-Enhanced Response")
+            st.text_area("Final Answer:", llm_response.response, height=150)
+if __name__ == "__main__":
+    main()

create_faiss_index.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import os
+import PyPDF2
+import faiss
+import numpy as np
+import streamlit as st
+from sentence_transformers import SentenceTransformer
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from pydantic import BaseModel
+from typing import List, Tuple
+embedding_model = SentenceTransformer("all-MiniLM-L6-v2")
+def extract_text_from_pdf(pdf_path):
+    text = ""
+    with open(pdf_path, "rb") as file:
+        reader = PyPDF2.PdfReader(file)
+        for page in reader.pages:
+            text += page.extract_text() + "\n"
+    return text
+def chunk_text(text, chunk_size=500, chunk_overlap=50):
+    splitter = RecursiveCharacterTextSplitter(
+        chunk_size=chunk_size, chunk_overlap=chunk_overlap)
+    return splitter.split_text(text)
+legal_docs = ["Guide_to_Litigation_India.pdf", "Legal_Compliance_Corporate_Laws_ICAI.pdf"]
+doc_texts = []
+for doc in legal_docs:
+    text = extract_text_from_pdf(doc)
+    doc_texts.extend(chunk_text(text))
+embeddings = embedding_model.encode(doc_texts, convert_to_numpy=True)
+d = embeddings.shape[1]
+index = faiss.IndexFlatL2(d)
+index.add(embeddings)
+faiss.write_index(index, "faiss_index.idx")
+np.save("doc_texts.npy", np.array(doc_texts, dtype=object))
+print("Document processing completed. FAISS index saved.")

doc_texts.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67dcdd129e320bf371100377ef7c8916ebe407901c4dbca0d1e7d7629b4cc2e4
+size 461168

faiss_index.idx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9a568597e10ddd927c36258b2afff49192dea86829e252eb07aa2d1321762a9
+size 1665069

requirements.txt ADDED Viewed

	@@ -0,0 +1,14 @@

+faiss-cpu
+numpy
+pypdf2
+streamlit
+sentence-transformers
+langchain
+transformers
+pydantic
+google-generativeai
+python-dotenv
+requests
+langchain_google_genai
+langchain-community
+torch