Spaces:

ramysaidagieb
/

RAG47V3

Sleeping

App Files Files Community

ramysaidagieb commited on Jul 4

Commit

3dc1a7f

verified ·

1 Parent(s): e910126

Upload 3 files

Browse files

Files changed (3) hide show

app.py +16 -0
rag_pipeline.py +39 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,16 @@

+import gradio as gr
+from rag_pipeline import answer_question
+def qa_interface(question):
+    return answer_question(question)
+iface = gr.Interface(
+    fn=qa_interface,
+    inputs=gr.Textbox(lines=3, placeholder="اكتب سؤالك هنا...", label="سؤالك", rtl=True),
+    outputs=gr.Textbox(label="الإجابة", rtl=True),
+    title="🤖 روبوت سؤال وجواب عربي باستخدام PDF",
+    description="ارفع ملفات PDF باللغة العربية، واسأل عنها مباشرة (يدعم اللهجة المصرية ويعمل على CPU)."
+)
+if __name__ == "__main__":
+    iface.launch()

rag_pipeline.py ADDED Viewed

	@@ -0,0 +1,39 @@

+from pathlib import Path
+from langchain_community.document_loaders import PyMuPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import Chroma
+from langchain_huggingface import HuggingFaceEmbeddings
+from transformers import pipeline, AutoModelForQuestionAnswering, AutoTokenizer
+# Load and index Arabic documents
+def load_and_index():
+    pdf_dir = Path("data")
+    pdf_dir.mkdir(exist_ok=True)
+    docs = []
+    for pdf_file in pdf_dir.glob("*.pdf"):
+        loader = PyMuPDFLoader(str(pdf_file))
+        docs.extend(loader.load())
+    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+    split_docs = splitter.split_documents(docs)
+    embedding = HuggingFaceEmbeddings(model_name="sentence-transformers/LaBSE", model_kwargs={"device": "cpu"})
+    db = Chroma.from_documents(split_docs, embedding, persist_directory="chroma_db")
+    return db.as_retriever(search_kwargs={"k": 5})
+# Load Arabic QA model
+qa_pipeline = pipeline(
+    "question-answering",
+    model=AutoModelForQuestionAnswering.from_pretrained("alyaa82/aravec-bert-base-qa"),
+    tokenizer=AutoTokenizer.from_pretrained("alyaa82/aravec-bert-base-qa"),
+    device=-1
+)
+# Get retriever once
+retriever = load_and_index()
+# Perform retrieval + QA
+def answer_question(question: str) -> str:
+    docs = retriever.get_relevant_documents(question)
+    context = "\n\n".join(doc.page_content for doc in docs)
+    result = qa_pipeline(question=question, context=context)
+    return result['answer']

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+gradio
+transformers
+sentence-transformers
+langchain
+langchain-community
+langchain-huggingface
+chromadb
+pymupdf