Spaces:

ramysaidagieb
/

ask1

Build error

App Files Files Community

ramysaidagieb commited on Jun 9

Commit

da06f67

verified ·

1 Parent(s): 309ee8b

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -7

app.py CHANGED Viewed

@@ -6,39 +6,45 @@ from sentence_transformers import SentenceTransformer
 import json
 from dspy import Example, MIPROv2, Evaluate, evaluate
-# ✅ إعداد LLM مفتوح المصدر من Hugging Face
-dspy.settings.configure(lm=dspy.HFModel("NousResearch/Hermes-2-Pro-Mistral-7B", max_tokens=1024))
-# إعداد قاعدة البيانات
 client = chromadb.Client(Settings(chroma_db_impl="duckdb+parquet", persist_directory="./chroma_db"))
 col = client.get_or_create_collection(name="arabic_docs", metadata={"hnsw:space": "cosine"})
 embedder = SentenceTransformer("sentence-transformers/LaBSE")
 def process_pdf(pdf_bytes):
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     texts = []
     for p in doc:
         text = p.get_text()
         for chunk in text.split("\n\n"):
-            if len(chunk) > 50:
                 texts.append(chunk.strip())
     return texts
 def ingest(pdf_bytes):
     texts = process_pdf(pdf_bytes)
     embeddings = embedder.encode(texts, show_progress_bar=True)
     for i, (chunk, emb) in enumerate(zip(texts, embeddings)):
         col.add(ids=[f"chunk_{i}"], embeddings=[emb.tolist()], metadatas=[{"text": chunk}])
-    return f"تمت إضافة {len(texts)} مقطعاً"
 retriever = dspy.Retrieve(lambda q: [m["text"] for m in col.query(q, n_results=3)["metadatas"]], k=1)
 class RagSig(dspy.Signature):
     question: str
     context: str
     answer: str
 class RagMod(dspy.Module):
     def __init__(self):
         super().__init__()
@@ -48,16 +54,20 @@ class RagMod(dspy.Module):
         context = retriever(question)[0]
         return self.predictor(question=question, context=context)
 model = RagMod()
 def answer(question):
     out = model(question)
     return out.answer
 def load_dataset(path):
     with open(path, "r", encoding="utf-8") as f:
         return [Example(**json.loads(l)).with_inputs("question") for l in f]
 def optimize(train_file, val_file):
     global model
     trainset = load_dataset(train_file.name)
@@ -67,21 +77,26 @@ def optimize(train_file, val_file):
     model = optimized
     return "✅ تم تحسين النموذج!"
 with gr.Blocks() as demo:
-    gr.Markdown("## 🧠 نظام RAG عربي باستخدام DSPy + نموذج مفتوح المصدر")
     with gr.Tab("📥 تحميل وتخزين"):
         pdf_input = gr.File(label="ارفع ملف PDF")
         ingest_btn = gr.Button("إضافة إلى قاعدة البيانات")
         ingest_btn.click(ingest, inputs=pdf_input, outputs=gr.Textbox())
     with gr.Tab("❓ سؤال"):
-        q = gr.Textbox(label="اكتب سؤالك")
         answer_btn = gr.Button("احصل على الإجابة")
         out = gr.Textbox(label="الإجابة")
         answer_btn.click(answer, inputs=q, outputs=out)
     with gr.Tab("⚙️ تحسين النموذج"):
         train_file = gr.File(label="trainset.jsonl")
         val_file = gr.File(label="valset.jsonl")
         opt_btn = gr.Button("ابدأ التحسين")
         result = gr.Textbox(label="نتيجة التحسين")
         opt_btn.click(optimize, inputs=[train_file, val_file], outputs=result)
     demo.launch()

 import json
 from dspy import Example, MIPROv2, Evaluate, evaluate
+# ✅ إعداد نموذج مفتوح المصدر متوافق مع Hugging Face Spaces
+dspy.settings.configure(lm=dspy.LM("mistralai/Mistral-7B-Instruct-v0.2"))
+# إعداد قاعدة البيانات Chroma
 client = chromadb.Client(Settings(chroma_db_impl="duckdb+parquet", persist_directory="./chroma_db"))
 col = client.get_or_create_collection(name="arabic_docs", metadata={"hnsw:space": "cosine"})
+# إعداد أداة توليد embeddings تدعم العربية
 embedder = SentenceTransformer("sentence-transformers/LaBSE")
+# تقطيع النصوص من ملفات PDF
 def process_pdf(pdf_bytes):
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     texts = []
     for p in doc:
         text = p.get_text()
         for chunk in text.split("\n\n"):
+            if len(chunk.strip()) > 50:
                 texts.append(chunk.strip())
     return texts
+# إدخال النصوص إلى قاعدة البيانات
 def ingest(pdf_bytes):
     texts = process_pdf(pdf_bytes)
     embeddings = embedder.encode(texts, show_progress_bar=True)
     for i, (chunk, emb) in enumerate(zip(texts, embeddings)):
         col.add(ids=[f"chunk_{i}"], embeddings=[emb.tolist()], metadatas=[{"text": chunk}])
+    return f"✅ تمت إضافة {len(texts)} مقطعاً."
+# محدد الاسترجاع
 retriever = dspy.Retrieve(lambda q: [m["text"] for m in col.query(q, n_results=3)["metadatas"]], k=1)
+# توقيع DSPy للإجابة باستخدام السياق
 class RagSig(dspy.Signature):
     question: str
     context: str
     answer: str
+# وحدة التنبؤ DSPy
 class RagMod(dspy.Module):
     def __init__(self):
         super().__init__()
         context = retriever(question)[0]
         return self.predictor(question=question, context=context)
+# النموذج الأساسي
 model = RagMod()
+# التفاعل الأساسي
 def answer(question):
     out = model(question)
     return out.answer
+# تحميل بيانات التدريب
 def load_dataset(path):
     with open(path, "r", encoding="utf-8") as f:
         return [Example(**json.loads(l)).with_inputs("question") for l in f]
+# تحسين النموذج باستخدام MIPROv2
 def optimize(train_file, val_file):
     global model
     trainset = load_dataset(train_file.name)
     model = optimized
     return "✅ تم تحسين النموذج!"
+# واجهة Gradio
 with gr.Blocks() as demo:
+    gr.Markdown("## 🧠 نظام RAG عربي باستخدام DSPy + نموذج مفتوح المصدر من Hugging Face")
     with gr.Tab("📥 تحميل وتخزين"):
         pdf_input = gr.File(label="ارفع ملف PDF")
         ingest_btn = gr.Button("إضافة إلى قاعدة البيانات")
         ingest_btn.click(ingest, inputs=pdf_input, outputs=gr.Textbox())
     with gr.Tab("❓ سؤال"):
+        q = gr.Textbox(label="اكتب سؤالك بالعربية")
         answer_btn = gr.Button("احصل على الإجابة")
         out = gr.Textbox(label="الإجابة")
         answer_btn.click(answer, inputs=q, outputs=out)
     with gr.Tab("⚙️ تحسين النموذج"):
         train_file = gr.File(label="trainset.jsonl")
         val_file = gr.File(label="valset.jsonl")
         opt_btn = gr.Button("ابدأ التحسين")
         result = gr.Textbox(label="نتيجة التحسين")
         opt_btn.click(optimize, inputs=[train_file, val_file], outputs=result)
     demo.launch()