Spaces:

ramysaidagieb
/

ask1

Build error

App Files Files Community

ramysaidagieb commited on Jun 9

Commit

e3b4042

verified ·

1 Parent(s): da06f67

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -20

app.py CHANGED Viewed

@@ -1,22 +1,21 @@
 import dspy, gradio as gr
 import chromadb
-from chromadb.config import Settings
 import fitz  # PyMuPDF
 from sentence_transformers import SentenceTransformer
 import json
 from dspy import Example, MIPROv2, Evaluate, evaluate
-# ✅ إعداد نموذج مفتوح المصدر متوافق مع Hugging Face Spaces
 dspy.settings.configure(lm=dspy.LM("mistralai/Mistral-7B-Instruct-v0.2"))
-# إعداد قاعدة البيانات Chroma
-client = chromadb.Client(Settings(chroma_db_impl="duckdb+parquet", persist_directory="./chroma_db"))
-col = client.get_or_create_collection(name="arabic_docs", metadata={"hnsw:space": "cosine"})
-# إعداد أداة توليد embeddings تدعم العربية
 embedder = SentenceTransformer("sentence-transformers/LaBSE")
-# تقطيع النصوص من ملفات PDF
 def process_pdf(pdf_bytes):
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     texts = []
@@ -27,7 +26,7 @@ def process_pdf(pdf_bytes):
                 texts.append(chunk.strip())
     return texts
-# إدخال النصوص إلى قاعدة البيانات
 def ingest(pdf_bytes):
     texts = process_pdf(pdf_bytes)
     embeddings = embedder.encode(texts, show_progress_bar=True)
@@ -35,16 +34,16 @@ def ingest(pdf_bytes):
         col.add(ids=[f"chunk_{i}"], embeddings=[emb.tolist()], metadatas=[{"text": chunk}])
     return f"✅ تمت إضافة {len(texts)} مقطعاً."
-# محدد الاسترجاع
 retriever = dspy.Retrieve(lambda q: [m["text"] for m in col.query(q, n_results=3)["metadatas"]], k=1)
-# توقيع DSPy للإجابة باستخدام السياق
 class RagSig(dspy.Signature):
     question: str
     context: str
     answer: str
-# وحدة التنبؤ DSPy
 class RagMod(dspy.Module):
     def __init__(self):
         super().__init__()
@@ -54,20 +53,19 @@ class RagMod(dspy.Module):
         context = retriever(question)[0]
         return self.predictor(question=question, context=context)
-# النموذج الأساسي
 model = RagMod()
-# التفاعل الأساسي
 def answer(question):
     out = model(question)
     return out.answer
-# تحميل بيانات التدريب
 def load_dataset(path):
     with open(path, "r", encoding="utf-8") as f:
         return [Example(**json.loads(l)).with_inputs("question") for l in f]
-# تحسين النموذج باستخدام MIPROv2
 def optimize(train_file, val_file):
     global model
     trainset = load_dataset(train_file.name)
@@ -77,21 +75,21 @@ def optimize(train_file, val_file):
     model = optimized
     return "✅ تم تحسين النموذج!"
-# واجهة Gradio
 with gr.Blocks() as demo:
-    gr.Markdown("## 🧠 نظام RAG عربي باستخدام DSPy + نموذج مفتوح المصدر من Hugging Face")
     with gr.Tab("📥 تحميل وتخزين"):
         pdf_input = gr.File(label="ارفع ملف PDF")
         ingest_btn = gr.Button("إضافة إلى قاعدة البيانات")
         ingest_btn.click(ingest, inputs=pdf_input, outputs=gr.Textbox())
     with gr.Tab("❓ سؤال"):
         q = gr.Textbox(label="اكتب سؤالك بالعربية")
         answer_btn = gr.Button("احصل على الإجابة")
         out = gr.Textbox(label="الإجابة")
         answer_btn.click(answer, inputs=q, outputs=out)
     with gr.Tab("⚙️ تحسين النموذج"):
         train_file = gr.File(label="trainset.jsonl")
         val_file = gr.File(label="valset.jsonl")

 import dspy, gradio as gr
 import chromadb
 import fitz  # PyMuPDF
 from sentence_transformers import SentenceTransformer
 import json
 from dspy import Example, MIPROv2, Evaluate, evaluate
+# ✅ إعداد نموذج مفتوح المصدر متاح على Hugging Face
 dspy.settings.configure(lm=dspy.LM("mistralai/Mistral-7B-Instruct-v0.2"))
+# ✅ إعداد Chroma باستخدام الطريقة الحديثة
+client = chromadb.PersistentClient(path="./chroma_db")
+col = client.get_or_create_collection(name="arabic_docs")
+# ✅ نموذج embeddings يدعم العربية
 embedder = SentenceTransformer("sentence-transformers/LaBSE")
+# ⬇️ تقطيع محتوى PDF
 def process_pdf(pdf_bytes):
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     texts = []
                 texts.append(chunk.strip())
     return texts
+# ⬇️ إضافة المحتوى إلى قاعدة البيانات
 def ingest(pdf_bytes):
     texts = process_pdf(pdf_bytes)
     embeddings = embedder.encode(texts, show_progress_bar=True)
         col.add(ids=[f"chunk_{i}"], embeddings=[emb.tolist()], metadatas=[{"text": chunk}])
     return f"✅ تمت إضافة {len(texts)} مقطعاً."
+# ⬇️ محدد سياق من Chroma
 retriever = dspy.Retrieve(lambda q: [m["text"] for m in col.query(q, n_results=3)["metadatas"]], k=1)
+# 🧠 تعريف توقيع الاستجابة
 class RagSig(dspy.Signature):
     question: str
     context: str
     answer: str
+# وحدة توليد الإجابة من DSPy
 class RagMod(dspy.Module):
     def __init__(self):
         super().__init__()
         context = retriever(question)[0]
         return self.predictor(question=question, context=context)
 model = RagMod()
+# ⬇️ التفاعل الأساسي
 def answer(question):
     out = model(question)
     return out.answer
+# ⬇️ تحميل بيانات التدريب والتقييم
 def load_dataset(path):
     with open(path, "r", encoding="utf-8") as f:
         return [Example(**json.loads(l)).with_inputs("question") for l in f]
+# ⬇️ تحسين النموذج باستخدام MIPROv2
 def optimize(train_file, val_file):
     global model
     trainset = load_dataset(train_file.name)
     model = optimized
     return "✅ تم تحسين النموذج!"
+# 🖼️ واجهة Gradio
 with gr.Blocks() as demo:
+    gr.Markdown("## 🧠 نظام RAG عربي باستخدام DSPy + نموذج مفتوح المصدر")
     with gr.Tab("📥 تحميل وتخزين"):
         pdf_input = gr.File(label="ارفع ملف PDF")
         ingest_btn = gr.Button("إضافة إلى قاعدة البيانات")
         ingest_btn.click(ingest, inputs=pdf_input, outputs=gr.Textbox())
     with gr.Tab("❓ سؤال"):
         q = gr.Textbox(label="اكتب سؤالك بالعربية")
         answer_btn = gr.Button("احصل على الإجابة")
         out = gr.Textbox(label="الإجابة")
         answer_btn.click(answer, inputs=q, outputs=out)
     with gr.Tab("⚙️ تحسين النموذج"):
         train_file = gr.File(label="trainset.jsonl")
         val_file = gr.File(label="valset.jsonl")