Spaces:

ramysaidagieb
/

ask1

Build error

App Files Files Community

ramysaidagieb commited on Jun 9

Commit

053a53d

verified ·

1 Parent(s): 6ec351d

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -24

app.py CHANGED Viewed

@@ -1,22 +1,21 @@
-import dspy
-import gradio as gr
 import chromadb
 import fitz  # PyMuPDF
-import json
 from sentence_transformers import SentenceTransformer
-from dspy import Example, MIPROv2, evaluate
-# إعداد النموذج المفتوح المصدر
 dspy.settings.configure(lm=dspy.LM("mistralai/Mistral-7B-Instruct-v0.2"))
-# إعداد Chroma
 client = chromadb.PersistentClient(path="./chroma_db")
 col = client.get_or_create_collection(name="arabic_docs")
-# إعداد نموذج التضمين (Embeddings)
 embedder = SentenceTransformer("sentence-transformers/LaBSE")
-# تقطيع نصوص PDF
 def process_pdf(pdf_bytes):
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     texts = []
@@ -27,12 +26,13 @@ def process_pdf(pdf_bytes):
                 texts.append(chunk.strip())
     return texts
-# إدخال البيانات إلى Chroma مع دعم NamedString
 def ingest(pdf_file):
     if hasattr(pdf_file, "read"):
         pdf_bytes = pdf_file.read()
     else:
-        pdf_bytes = pdf_file  # قد يكون bytes أو NamedString
     texts = process_pdf(pdf_bytes)
     embeddings = embedder.encode(texts, show_progress_bar=True)
     for i, (chunk, emb) in enumerate(zip(texts, embeddings)):
@@ -40,13 +40,13 @@ def ingest(pdf_file):
     return f"✅ تمت إضافة {len(texts)} مقطعاً."
 # استرجاع السياق من Chroma
-def retrieve_context(query):
-    query_emb = embedder.encode([query])[0]
-    results = col.query(query_embeddings=[query_emb.tolist()], n_results=1)
-    context_list = [m["text"] for group in results["metadatas"] for m in group]
-    return context_list[0] if context_list else ""
-# تعريف توقيع DSPy
 class RagSig(dspy.Signature):
     question: str = dspy.InputField()
     context: str = dspy.InputField()
@@ -69,12 +69,12 @@ def answer(question):
     out = model(question)
     return out.answer
-# تحميل بيانات التدريب/التقييم
 def load_dataset(path):
     with open(path, "r", encoding="utf-8") as f:
         return [Example(**json.loads(l)).with_inputs("question") for l in f]
-# تحسين النموذج
 def optimize(train_file, val_file):
     global model
     trainset = load_dataset(train_file.name)
@@ -89,20 +89,20 @@ with gr.Blocks() as demo:
     gr.Markdown("## 🧠 نظام RAG عربي باستخدام DSPy + نموذج مفتوح المصدر")
     with gr.Tab("📥 تحميل وتخزين"):
-        pdf_input = gr.File(label="ارفع ملف PDF", file_types=[".pdf"])
         ingest_btn = gr.Button("إضافة إلى قاعدة البيانات")
-        ingest_output = gr.Textbox()
-        ingest_btn.click(fn=ingest, inputs=pdf_input, outputs=ingest_output)
     with gr.Tab("❓ سؤال"):
         q = gr.Textbox(label="اكتب سؤالك بالعربية")
         answer_btn = gr.Button("احصل على الإجابة")
         out = gr.Textbox(label="الإجابة")
-        answer_btn.click(fn=answer, inputs=q, outputs=out)
     with gr.Tab("⚙️ تحسين النموذج"):
-        train_file = gr.File(label="trainset.jsonl", file_types=[".jsonl"])
-        val_file = gr.File(label="valset.jsonl", file_types=[".jsonl"])
         opt_btn = gr.Button("ابدأ التحسين")
         result = gr.Textbox(label="نتيجة التحسين")
         opt_btn.click(optimize, inputs=[train_file, val_file], outputs=result)

+import dspy, gradio as gr
 import chromadb
 import fitz  # PyMuPDF
 from sentence_transformers import SentenceTransformer
+import json
+from dspy import Example, MIPROv2, Evaluate, evaluate
+# إعداد نموذج مفتوح المصدر
 dspy.settings.configure(lm=dspy.LM("mistralai/Mistral-7B-Instruct-v0.2"))
+# إعداد Chroma بطريقة حديثة
 client = chromadb.PersistentClient(path="./chroma_db")
 col = client.get_or_create_collection(name="arabic_docs")
+# نموذج توليد embeddings يدعم العربية
 embedder = SentenceTransformer("sentence-transformers/LaBSE")
+# تقطيع النصوص من PDF
 def process_pdf(pdf_bytes):
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     texts = []
                 texts.append(chunk.strip())
     return texts
+# إدخال النصوص في قاعدة Chroma
 def ingest(pdf_file):
     if hasattr(pdf_file, "read"):
         pdf_bytes = pdf_file.read()
     else:
+        with open(pdf_file.name, "rb") as f:
+            pdf_bytes = f.read()
     texts = process_pdf(pdf_bytes)
     embeddings = embedder.encode(texts, show_progress_bar=True)
     for i, (chunk, emb) in enumerate(zip(texts, embeddings)):
     return f"✅ تمت إضافة {len(texts)} مقطعاً."
 # استرجاع السياق من Chroma
+def retrieve_context(question):
+    query_embedding = embedder.encode([question])[0]  # تحويل السؤال إلى embedding
+    results = col.query(query_embeddings=[query_embedding], n_results=3)
+    context_list = [m["text"] for m in results["metadatas"][0]]  # استخراج السياق من النتائج
+    return "\n\n".join(context_list)
+# توقيع RAG
 class RagSig(dspy.Signature):
     question: str = dspy.InputField()
     context: str = dspy.InputField()
     out = model(question)
     return out.answer
+# تحميل بيانات تدريب/تقييم
 def load_dataset(path):
     with open(path, "r", encoding="utf-8") as f:
         return [Example(**json.loads(l)).with_inputs("question") for l in f]
+# تحسين النموذج باستخدام MIPROv2
 def optimize(train_file, val_file):
     global model
     trainset = load_dataset(train_file.name)
     gr.Markdown("## 🧠 نظام RAG عربي باستخدام DSPy + نموذج مفتوح المصدر")
     with gr.Tab("📥 تحميل وتخزين"):
+        pdf_input = gr.File(label="ارفع ملف PDF", type="file")
         ingest_btn = gr.Button("إضافة إلى قاعدة البيانات")
+        ingest_out = gr.Textbox(label="نتيجة الإضافة")
+        ingest_btn.click(ingest, inputs=pdf_input, outputs=ingest_out)
     with gr.Tab("❓ سؤال"):
         q = gr.Textbox(label="اكتب سؤالك بالعربية")
         answer_btn = gr.Button("احصل على الإجابة")
         out = gr.Textbox(label="الإجابة")
+        answer_btn.click(answer, inputs=q, outputs=out)
     with gr.Tab("⚙️ تحسين النموذج"):
+        train_file = gr.File(label="trainset.jsonl")
+        val_file = gr.File(label="valset.jsonl")
         opt_btn = gr.Button("ابدأ التحسين")
         result = gr.Textbox(label="نتيجة التحسين")
         opt_btn.click(optimize, inputs=[train_file, val_file], outputs=result)