Spaces:

ramysaidagieb
/

RAG74

Sleeping

File size: 1,836 Bytes

77f3883
 
 
 
aacac9b
77f3883
 
 
75ebc6b
aacac9b
 
 
 
 
 
 
77f3883
75ebc6b
77f3883
aacac9b
 
 
 
 
 
77f3883
75ebc6b
77f3883
 
 
 
 
75ebc6b
77f3883
 
 
 
75ebc6b
77f3883
75ebc6b
 
 
77f3883
 
75ebc6b
77f3883
 
 
75ebc6b
77f3883
aacac9b

from pathlib import Path
from langchain.chains import RetrievalQA
from transformers import pipeline, AutoTokenizer
from langchain_community.vectorstores import Chroma
from langchain_community.document_loaders import PyMuPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings, HuggingFacePipeline

# Load all PDFs from the data folder
def load_documents(pdf_dir):
    docs = []
    for pdf_file in Path(pdf_dir).glob("*.pdf"):
        loader = PyMuPDFLoader(str(pdf_file))
        docs.extend(loader.load())
    return docs

def load_rag_chain():
    # Make sure the data directory exists
    pdf_dir = Path("data")
    pdf_dir.mkdir(parents=True, exist_ok=True)

    # Load and split PDFs
    raw_docs = load_documents(pdf_dir)
    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
    pages = splitter.split_documents(raw_docs)

    # Load sentence transformer for embeddings
    embeddings = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-MiniLM-L6-v2",
        model_kwargs={"device": "cpu"},
    )

    # Vector store
    vectordb_dir = "chroma_db"
    vectordb = Chroma.from_documents(pages, embeddings, persist_directory=vectordb_dir)
    retriever = vectordb.as_retriever(search_type="mmr", search_kwargs={"k": 5})

    # Load a completely free and CPU-compatible model
    hf_pipeline = pipeline(
        "text2text-generation",
        model="google/flan-t5-base",
        tokenizer=AutoTokenizer.from_pretrained("google/flan-t5-base"),
        max_new_tokens=512,
        temperature=0.3,
        device=-1  # -1 means CPU
    )
    llm = HuggingFacePipeline(pipeline=hf_pipeline)

    # Build RetrievalQA chain
    qa_chain = RetrievalQA.from_llm(llm=llm, retriever=retriever)
    return qa_chain