Spaces:

ramysaidagieb
/

brain247v1

Sleeping

App Files Files Community

ramysaidagieb commited on 29 days ago

Commit

3b6dd97

verified ·

1 Parent(s): b22c352

Update app.py

Browse files

Files changed (1) hide show

app.py +75 -50

app.py CHANGED Viewed

@@ -1,64 +1,89 @@
 import os
 import gradio as gr
 from langchain_community.vectorstores import Chroma
 from langchain_community.embeddings import HuggingFaceEmbeddings
-from langchain_community.llms import CTransformers
-from langchain_community.document_loaders import PyPDFLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.chains import RetrievalQA
-# مسار النموذج المحلي (يمكن تحميله مسبقًا ووضعه في هذا المسار)
-MODEL_PATH = "TheBloke/Mistral-7B-Instruct-v0.2-GGUF"  # استخدم gguf فقط
-MODEL_FILE = "mistral-7b-instruct-v0.2.Q4_K_M.gguf"
-def process_pdf_and_answer(pdf_path, question):
-    # تحميل ملف PDF
-    loader = PyPDFLoader(pdf_path)
-    pages = loader.load()
-    # تقسيم النصوص
-    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
-    texts = text_splitter.split_documents(pages)
-    # التضمين باستخدام نموذج مجاني
-    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
-    vectorstore = Chroma.from_documents(texts, embedding=embeddings)
-    # إعداد LLM محلي عبر ctransformers
-    llm = CTransformers(
-        model=MODEL_FILE,
-        model_path=MODEL_PATH,
-        model_type="mistral",
-        config={
-            "max_new_tokens": 512,
-            "temperature": 0.1
-        }
-    )
-    # بناء سلسلة RAG
-    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=vectorstore.as_retriever(), return_source_documents=True)
-    # الإجابة على السؤال
     result = qa_chain({"query": question})
-    return result["result"]
-# واجهة Gradio
-with gr.Blocks() as demo:
-    gr.Markdown("## 📄🤖 مساعد PDF الذكي - بدون API")
-    with gr.Row():
-        file_input = gr.File(label="📥 ملف PDF", type="filepath", file_types=[".pdf"])
-    question_input = gr.Textbox(label="❓ سؤالك", placeholder="ما هو موضوع الصفحة الأولى؟")
-    output = gr.Textbox(label="📝 الإجابة", lines=10)
-    submit_btn = gr.Button("�� استخرج الإجابة")
-    def handle_submit(file, question):
-        if file is None or question.strip() == "":
-            return "يرجى رفع ملف PDF وكتابة سؤال."
-        return process_pdf_and_answer(file, question)
-    submit_btn.click(handle_submit, inputs=[file_input, question_input], outputs=output)
-# تشغيل التطبيق
 if __name__ == "__main__":
     demo.launch()

 import os
+import shutil
 import gradio as gr
+from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.vectorstores import Chroma
 from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.llms import HuggingFaceHub
 from langchain.chains import RetrievalQA
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+# إعداد مجلد التخزين للملفات والبيانات
+CHROMA_PATH = "chroma_db"
+os.makedirs("docs", exist_ok=True)
+# متغير عالمي للسلسلة
+qa_chain = None
+# الدالة لنسخ الملف إلى مجلد docs
+def save_pdf_to_docs(uploaded_file):
+    filename = os.path.basename(uploaded_file.name)
+    destination_path = os.path.join("docs", filename)
+    if os.path.abspath(uploaded_file.name) != os.path.abspath(destination_path):
+        shutil.copy(uploaded_file.name, destination_path)
+    return destination_path
+# الدالة لمعالجة الملف وبناء قاعدة البيانات
+def process_file(file):
+    global qa_chain
+    try:
+        path = save_pdf_to_docs(file)
+        loader = PyPDFLoader(path)
+        docs = loader.load()
+        # تقسيم النصوص إلى أجزاء صغيرة
+        splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
+        split_docs = splitter.split_documents(docs)
+        # إعداد التضمينات
+        embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+        # إنشاء قاعدة بيانات شعاعية
+        vectordb = Chroma.from_documents(split_docs, embedding=embeddings, persist_directory=CHROMA_PATH)
+        retriever = vectordb.as_retriever(search_kwargs={"k": 3})
+        # استخدام نموذج مجاني من Hugging Face لا يتطلب مفتاح API
+        llm = HuggingFaceHub(
+            repo_id="mistralai/Mistral-7B-Instruct-v0.2",
+            huggingfacehub_api_token="",  # تركها فارغة على Hugging Face Spaces
+            model_kwargs={"temperature": 0.2, "max_new_tokens": 512}
+        )
+        qa_chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever, return_source_documents=True)
+        return "✅ تم تحميل الملف بنجاح، يمكنك الآن طرح الأسئلة."
+    except Exception as e:
+        return f"❌ حدث خطأ أثناء المعالجة: {e}"
+# الدالة للإجابة على السؤال
+def answer_question(question):
+    if qa_chain is None:
+        return "⚠️ الرجاء رفع ومعالجة ملف PDF أولاً."
     result = qa_chain({"query": question})
+    answer = result["result"]
+    # عرض النتيجة من اليمين إلى اليسار
+    return f"<div dir='rtl'><b>🔍 الإجابة:</b><br>{answer}</div>"
+# بناء واجهة Gradio
+with gr.Blocks(title="مساعد عربي ذكي للملفات") as demo:
+    gr.Markdown("## 🤖 مساعد الملفات العربية باستخدام RAG", elem_id="title")
+    file_input = gr.File(label="📄 ارفع ملف PDF بالعربية", type="filepath")
+    upload_button = gr.Button("🚀 تحميل ومعالجة الملف")
+    status_box = gr.Textbox(label="📝 الحالة", interactive=False)
+    question_input = gr.Textbox(label="❓ اطرح سؤالك هنا", elem_id="question", rtl=True)
+    answer_output = gr.HTML(label="📘 الإجابة", elem_id="answer")
+    upload_button.click(fn=process_file, inputs=[file_input], outputs=[status_box])
+    question_input.submit(fn=answer_question, inputs=[question_input], outputs=[answer_output])
+# إطلاق التطبيق
 if __name__ == "__main__":
     demo.launch()