Spaces:

ramysaidagieb
/

chat22GV2

Sleeping

App Files Files Community

ramysaidagieb commited on May 22

Commit

4254fda

verified ·

1 Parent(s): 026659a

Upload 5 files

Browse files

Files changed (5) hide show

README.md +7 -8
app.py +32 -0
rag_pipeline.py +31 -0
requirements.txt +7 -0
utils.py +17 -0

README.md CHANGED Viewed

@@ -1,14 +1,13 @@
 ---
-title: Chat22GV2
-emoji: 🐨
-colorFrom: green
-colorTo: pink
 sdk: gradio
-sdk_version: 5.31.0
 app_file: app.py
 pinned: false
-license: mit
-short_description: ask questions
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Arabic RAG Assistant
+emoji: 📚
+colorFrom: blue
+colorTo: purple
 sdk: gradio
+sdk_version: 4.25.0
 app_file: app.py
 pinned: false
 ---
+# Arabic RAG Assistant
+مساعد بحث عربي يعتمد على الذكاء الاصطناعي المفتوح المصدر للإجابة على الأسئلة بناءً على مستندات PDF / DOCX / TXT المرفوعة.

app.py ADDED Viewed

	@@ -0,0 +1,32 @@

+import gradio as gr
+from rag_pipeline import RAGPipeline
+import time
+rag = RAGPipeline()
+def submit_question(user_question):
+    start_time = time.time()
+    response, passages = rag.answer_question(user_question)
+    end_time = time.time()
+    log = f"[⏱️] زمن الإجابة: {end_time - start_time:.2f} ثانية\n"
+    for i, passage in enumerate(passages):
+        log += f"[📘] المرجع {i+1}: {passage}\n"
+    return response, log
+with gr.Blocks() as demo:
+    with gr.Row():
+        with gr.Column():
+            file_uploader = gr.File(file_types=[".pdf", ".docx", ".txt"], label="📂 رفع المستندات", file_count="multiple")
+            upload_btn = gr.Button("⬆️ رفع ومعالجة")
+            upload_log = gr.Textbox(label="🔍 سجل المعالجة", lines=10)
+        with gr.Column():
+            question = gr.Textbox(label="❓ اطرح سؤالك هنا")
+            submit_btn = gr.Button("🔎 إرسال السؤال")
+            answer = gr.Textbox(label="📜 الإجابة", lines=5)
+            sources = gr.Textbox(label="🧭 المراجع", lines=10)
+    upload_btn.click(fn=rag.load_and_index, inputs=[file_uploader], outputs=[upload_log])
+    submit_btn.click(fn=submit_question, inputs=[question], outputs=[answer, sources])
+demo.launch()

rag_pipeline.py ADDED Viewed

	@@ -0,0 +1,31 @@

+from sentence_transformers import SentenceTransformer
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+from langchain.vectorstores import Chroma
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from utils import extract_text_from_files
+class RAGPipeline:
+    def __init__(self):
+        print("[RAG] جاري تحميل النموذج والمحول...")
+        self.embedding_model = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-base")
+        self.generator = pipeline("text-generation", model="tiiuae/falcon-7b-instruct", trust_remote_code=True, device_map="auto")
+        self.db = None
+        print("[RAG] تم التحميل بنجاح.")
+    def load_and_index(self, files):
+        text = extract_text_from_files(files)
+        splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+        chunks = splitter.split_text(text)
+        self.db = Chroma.from_texts(chunks, embedding=self.embedding_model)
+        return f"[RAG] تم بناء الفهرس لـ {len(chunks)} مقاطع."
+    def answer_question(self, question):
+        if self.db is None:
+            return "⚠️ لم يتم تحميل مستندات.", []
+        docs = self.db.similarity_search(question, k=3)
+        context = "\n".join([doc.page_content for doc in docs])
+        prompt = f"أجب عن السؤال التالي بناءً على المراجع التالية فقط:\n{context}\n\nالسؤال: {question}\nالإجابة:"
+        result = self.generator(prompt, max_new_tokens=200)[0]["generated_text"]
+        answer = result.split("الإجابة:")[-1].strip()
+        return answer, [doc.page_content for doc in docs]

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+gradio==4.25.0
+transformers==4.40.1
+sentence-transformers
+langchain==0.1.20
+chromadb==0.4.24
+PyPDF2
+python-docx

utils.py ADDED Viewed

	@@ -0,0 +1,17 @@

+from PyPDF2 import PdfReader
+import docx
+def extract_text_from_files(files):
+    all_text = ""
+    for file in files:
+        if file.name.endswith(".pdf"):
+            reader = PdfReader(file)
+            for page in reader.pages:
+                all_text += page.extract_text() + "\n"
+        elif file.name.endswith(".docx"):
+            doc = docx.Document(file)
+            for para in doc.paragraphs:
+                all_text += para.text + "\n"
+        elif file.name.endswith(".txt"):
+            all_text += file.read().decode("utf-8") + "\n"
+    return all_text