Spaces:

ramysaidagieb
/

ask1

Build error

App Files Files Community

ramysaidagieb commited on Jun 9

Commit

f206e7d

verified ·

1 Parent(s): 7562d5e

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -14

app.py CHANGED Viewed

@@ -5,19 +5,19 @@ from sentence_transformers import SentenceTransformer
 import json
 from dspy import Example, MIPROv2, Evaluate, evaluate
-# إعداد نموذج مفتوح المصدر
 dspy.settings.configure(lm=dspy.LM("mistralai/Mistral-7B-Instruct-v0.2"))
-# إعداد Chroma بطريقة حديثة
 client = chromadb.PersistentClient(path="./chroma_db")
 col = client.get_or_create_collection(name="arabic_docs")
-# نموذج توليد embeddings يدعم العربية
 embedder = SentenceTransformer("sentence-transformers/LaBSE")
-# تقطيع النصوص من PDF
 def process_pdf(pdf_file):
-    doc = fitz.open(pdf_file.name)
     texts = []
     for page in doc:
         text = page.get_text()
@@ -26,40 +26,45 @@ def process_pdf(pdf_file):
                 texts.append(chunk.strip())
     return texts
-# إدخال النصوص في قاعدة Chroma
 def ingest(pdf_file):
     texts = process_pdf(pdf_file)
     embeddings = embedder.encode(texts, show_progress_bar=True)
     for i, (chunk, emb) in enumerate(zip(texts, embeddings)):
-        col.add(ids=[f"chunk_{i}"], embeddings=[emb.tolist()], metadatas=[{"text": chunk}])
     return f"✅ تمت إضافة {len(texts)} مقطعاً."
-# تعريف التوقيع باستخدام InputField و OutputField
 class RagSig(dspy.Signature):
     question: str = dspy.InputField()
     context: str = dspy.InputField()
     answer: str = dspy.OutputField()
-# وحدة DSPy مع استرجاع السياق من Chroma داخل forward
 class RagMod(dspy.Module):
     def __init__(self):
         super().__init__()
         self.predictor = dspy.Predict(RagSig)
     def forward(self, question):
-        results = col.query(question, n_results=1)
         context_list = [m["text"] for m in results["metadatas"]]
         context = context_list[0] if context_list else ""
         return self.predictor(question=question, context=context)
 model = RagMod()
-# توليد إجابة
 def answer(question):
     out = model(question)
     return out.answer
-# تحميل بيانات تدريب/تقييم
 def load_dataset(path):
     with open(path, "r", encoding="utf-8") as f:
         return [Example(**json.loads(l)).with_inputs("question") for l in f]
@@ -79,9 +84,10 @@ with gr.Blocks() as demo:
     gr.Markdown("## 🧠 نظام RAG عربي باستخدام DSPy + نموذج مفتوح المصدر")
     with gr.Tab("📥 تحميل وتخزين"):
-        pdf_input = gr.File(label="ارفع ملف PDF")
         ingest_btn = gr.Button("إضافة إلى قاعدة البيانات")
-        ingest_btn.click(ingest, inputs=pdf_input, outputs=gr.Textbox())
     with gr.Tab("❓ سؤال"):
         q = gr.Textbox(label="اكتب سؤالك بالعربية")

 import json
 from dspy import Example, MIPROv2, Evaluate, evaluate
+# إعداد نموذج DSPy بلغة عربية باستخدام Mistral
 dspy.settings.configure(lm=dspy.LM("mistralai/Mistral-7B-Instruct-v0.2"))
+# إعداد قاعدة بيانات Chroma
 client = chromadb.PersistentClient(path="./chroma_db")
 col = client.get_or_create_collection(name="arabic_docs")
+# نموذج توليد embeddings عربي
 embedder = SentenceTransformer("sentence-transformers/LaBSE")
+# تقطيع النصوص من ملف PDF
 def process_pdf(pdf_file):
+    doc = fitz.open(pdf_file.name)  # استخدام .name بدلاً من .read()
     texts = []
     for page in doc:
         text = page.get_text()
                 texts.append(chunk.strip())
     return texts
+# إدخال النصوص إلى قاعدة البيانات
 def ingest(pdf_file):
     texts = process_pdf(pdf_file)
     embeddings = embedder.encode(texts, show_progress_bar=True)
     for i, (chunk, emb) in enumerate(zip(texts, embeddings)):
+        col.add(
+            ids=[f"chunk_{i}"],
+            embeddings=[emb.tolist()],
+            metadatas=[{"text": chunk}]
+        )
     return f"✅ تمت إضافة {len(texts)} مقطعاً."
+# توقيع النموذج
 class RagSig(dspy.Signature):
     question: str = dspy.InputField()
     context: str = dspy.InputField()
     answer: str = dspy.OutputField()
+# وحدة Rag
 class RagMod(dspy.Module):
     def __init__(self):
         super().__init__()
         self.predictor = dspy.Predict(RagSig)
     def forward(self, question):
+        query_embedding = embedder.encode([question])[0]
+        results = col.query(query_embeddings=[query_embedding], n_results=1)
         context_list = [m["text"] for m in results["metadatas"]]
         context = context_list[0] if context_list else ""
         return self.predictor(question=question, context=context)
 model = RagMod()
+# دالة للإجابة على سؤال
 def answer(question):
     out = model(question)
     return out.answer
+# تحميل بيانات التقييم
 def load_dataset(path):
     with open(path, "r", encoding="utf-8") as f:
         return [Example(**json.loads(l)).with_inputs("question") for l in f]
     gr.Markdown("## 🧠 نظام RAG عربي باستخدام DSPy + نموذج مفتوح المصدر")
     with gr.Tab("📥 تحميل وتخزين"):
+        pdf_input = gr.File(label="ارفع ملف PDF", file_types=[".pdf"])
         ingest_btn = gr.Button("إضافة إلى قاعدة البيانات")
+        ingest_out = gr.Textbox(label="النتيجة")
+        ingest_btn.click(ingest, inputs=pdf_input, outputs=ingest_out)
     with gr.Tab("❓ سؤال"):
         q = gr.Textbox(label="اكتب سؤالك بالعربية")