Spaces:

ramysaidagieb
/

ask1

Build error

File size: 3,799 Bytes

c0b2a4d
 
 
 
 
 
 
183e91e
da06f67
c0b2a4d
183e91e
e3b4042
 
c0b2a4d
183e91e
c0b2a4d
 
183e91e
6a78ac0
183e91e
c0b2a4d
183e91e
 
c0b2a4d
da06f67
c0b2a4d
 
 
183e91e
6a78ac0
 
c0b2a4d
 
183e91e
da06f67
c0b2a4d
183e91e
c0b2a4d
1c9be4e
 
 
c0b2a4d
183e91e
c0b2a4d
 
 
 
 
 
f206e7d
 
183e91e
7562d5e
c0b2a4d
 
 
 
183e91e
c0b2a4d
 
 
 
183e91e
c0b2a4d
 
 
 
f30a153
c0b2a4d
309ee8b
c0b2a4d
 
 
 
 
 
 
f30a153
c0b2a4d
e3b4042
 
c0b2a4d
183e91e
c0b2a4d
183e91e
 
e3b4042
c0b2a4d
da06f67
c0b2a4d
 
 
e3b4042
c0b2a4d
 
 
 
 
 
da06f67
c0b2a4d

import dspy, gradio as gr
import chromadb
import fitz  # PyMuPDF
from sentence_transformers import SentenceTransformer
import json
from dspy import Example, MIPROv2, Evaluate, evaluate

# إعداد نموذج مفتوح المصدر
dspy.settings.configure(lm=dspy.LM("mistralai/Mistral-7B-Instruct-v0.2"))

# إعداد Chroma
client = chromadb.PersistentClient(path="./chroma_db")
col = client.get_or_create_collection(name="arabic_docs")

# نموذج توليد embeddings
embedder = SentenceTransformer("sentence-transformers/LaBSE")

# تقطيع النصوص من PDF
def process_pdf(pdf_file):
    doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
    texts = []
    for p in doc:
        text = p.get_text()
        for chunk in text.split("\n\n"):
            if len(chunk.strip()) > 50:
                texts.append(chunk.strip())
    return texts

# إدخال النصوص في قاعدة Chroma
def ingest(pdf_file):
    texts = process_pdf(pdf_file)
    embeddings = embedder.encode(texts, show_progress_bar=True)
    for i, (chunk, emb) in enumerate(zip(texts, embeddings)):
        col.add(ids=[f"chunk_{i}"], embeddings=[emb.tolist()], metadatas=[{"text": chunk}])
    return f"✅ تمت إضافة {len(texts)} مقطعاً."

# تعريف التوقيع
class RagSig(dspy.Signature):
    question: str = dspy.InputField()
    context: str = dspy.InputField()
    answer: str = dspy.OutputField()

# وحدة DSPy
class RagMod(dspy.Module):
    def __init__(self):
        super().__init__()
        self.predictor = dspy.Predict(RagSig)

    def forward(self, question):
        query_embedding = embedder.encode([question])[0]
        results = col.query(query_embeddings=[query_embedding], n_results=1)
        context_list = [m["text"] for m in results["metadatas"][0]]  # ✅ تصحيح هنا
        context = context_list[0] if context_list else ""
        return self.predictor(question=question, context=context)

model = RagMod()

# توليد إجابة
def answer(question):
    out = model(question)
    return out.answer

# تحميل بيانات التدريب والتقييم
def load_dataset(path):
    with open(path, "r", encoding="utf-8") as f:
        return [Example(**json.loads(l)).with_inputs("question") for l in f]

# تحسين النموذج باستخدام MIPROv2
def optimize(train_file, val_file):
    global model
    trainset = load_dataset(train_file.name)
    valset = load_dataset(val_file.name)
    tp = MIPROv2(metric=evaluate.answer_exact_match, auto="light", num_threads=4)
    optimized = tp.compile(model, trainset=trainset, valset=valset)
    model = optimized
    return "✅ تم تحسين النموذج!"

# واجهة Gradio
with gr.Blocks() as demo:
    gr.Markdown("## 🧠 نظام RAG عربي باستخدام DSPy + نموذج مفتوح المصدر")

    with gr.Tab("📥 تحميل وتخزين"):
        pdf_input = gr.File(label="ارفع ملف PDF", type="binary")
        ingest_btn = gr.Button("إضافة إلى قاعدة البيانات")
        ingest_output = gr.Textbox()
        ingest_btn.click(ingest, inputs=pdf_input, outputs=ingest_output)

    with gr.Tab("❓ سؤال"):
        q = gr.Textbox(label="اكتب سؤالك بالعربية")
        answer_btn = gr.Button("احصل على الإجابة")
        out = gr.Textbox(label="الإجابة")
        answer_btn.click(answer, inputs=q, outputs=out)

    with gr.Tab("⚙️ تحسين النموذج"):
        train_file = gr.File(label="trainset.jsonl")
        val_file = gr.File(label="valset.jsonl")
        opt_btn = gr.Button("ابدأ التحسين")
        result = gr.Textbox(label="نتيجة التحسين")
        opt_btn.click(optimize, inputs=[train_file, val_file], outputs=result)

    demo.launch()