Spaces:

ramysaidagieb
/

brain247v1

Sleeping

App Files Files Community

ramysaidagieb commited on 28 days ago

Commit

0ffbfee

verified ·

1 Parent(s): a62dca0

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -57

app.py CHANGED Viewed

@@ -1,79 +1,91 @@
 import os
 import gradio as gr
-from langchain_community.llms import CTransformers
-from langchain_community.document_loaders import PyPDFLoader
-from langchain_community.vectorstores import Chroma
-from langchain_community.embeddings import HuggingFaceEmbeddings
-from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.chains import RetrievalQA
-# إعداد النموذج المحلي (تأكد من وجود ملف GGUF داخل مجلد models)
-llm = CTransformers(
-    model="models/mistral-7b-instruct-v0.2.Q4_K_M.gguf",
     model_type="mistral",
-    config={"max_new_tokens": 512, "temperature": 0.5}
 )
-# إعداد نموذج التضمين
-embedding_model = HuggingFaceEmbeddings(
-    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
-)
-# تحميل ومعالجة الملفات
-def process_pdf(pdf_file):
-    loader = PyPDFLoader(pdf_file.name)
-    documents = loader.load()
-    text_splitter = RecursiveCharacterTextSplitter(
-        chunk_size=500,
-        chunk_overlap=50
-    )
-    docs = text_splitter.split_documents(documents)
-    vectordb = Chroma.from_documents(docs, embedding_model, persist_directory="chroma_db")
-    vectordb.persist()
-    return vectordb
-# تهيئة النظام عند تحميل PDF
-vectordb = None
-def upload_file(file):
-    global vectordb
-    vectordb = process_pdf(file)
-    return "📚 تم تحميل الملف بنجاح ويمكنك الآن طرح الأسئلة."
-# الإجابة عن الأسئلة
-def answer_question(question):
-    global vectordb
-    if not vectordb:
-        return "❗ يرجى رفع ملف PDF أولًا."
-    qa_chain = RetrievalQA.from_chain_type(
-        llm=llm,
-        retriever=vectordb.as_retriever(search_kwargs={"k": 3}),
-        return_source_documents=True
-    )
-    result = qa_chain(question)
-    answer = result['result']
-    return f"💬 الإجابة:\n\n{answer}"
-# واجهة Gradio
-with gr.Blocks(title="Smart PDF Assistant", theme=gr.themes.Soft()) as demo:
-    gr.Markdown("## 🤖 مساعد PDF الذكي - نظام عربي للإجابة من الملفات بدون API")
     with gr.Row():
-        pdf_input = gr.File(label="📄 حمّل ملف PDF", file_types=[".pdf"])
-        upload_btn = gr.Button("��� تحميل ومعالجة الملف")
-        upload_output = gr.Textbox(label="الحالة", interactive=False)
     with gr.Row():
-        question_input = gr.Textbox(label="❓ اكتب سؤالك هنا", placeholder="ما هو موضوع الفصل الأول؟", lines=2)
-        answer_output = gr.Textbox(label="💡 الإجابة", lines=6)
-    upload_btn.click(fn=upload_file, inputs=pdf_input, outputs=upload_output)
-    question_input.submit(fn=answer_question, inputs=question_input, outputs=answer_output)
-# تشغيل Gradio
 if __name__ == "__main__":
     demo.launch()

+# app.py
 import os
+import shutil
+import chromadb
 import gradio as gr
+from ctransformers import AutoModelForCausalLM
+from langchain.embeddings import SentenceTransformerEmbeddings
+from langchain.vectorstores import Chroma
 from langchain.chains import RetrievalQA
+from langchain_community.document_loaders import PyPDFLoader, TextLoader, Docx2txtLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.llms import CTransformers
+# 1. إعداد نموذج LLM بدون API باستخدام ctransformers
+llm = AutoModelForCausalLM.from_pretrained(
+    model_path_or_repo_id="TheBloke/Mistral-7B-Instruct-v0.2-GGUF",
+    model_file="mistral-7b-instruct-v0.2.Q4_K_M.gguf",
     model_type="mistral",
+    config={"max_new_tokens": 512, "temperature": 0.7}
 )
+# 2. إعداد مجلد التخزين
+CHROMA_DIR = "chroma_store"
+if os.path.exists(CHROMA_DIR):
+    shutil.rmtree(CHROMA_DIR)
+# 3. تحميل الملفات وتقسيمها
+SUPPORTED_TYPES = {"pdf": PyPDFLoader, "docx": Docx2txtLoader, "txt": TextLoader}
+def load_documents(file_paths):
+    documents = []
+    for path in file_paths:
+        ext = path.split(".")[-1].lower()
+        loader_class = SUPPORTED_TYPES.get(ext)
+        if loader_class:
+            loader = loader_class(path)
+            docs = loader.load()
+            documents.extend(docs)
+    return documents
+# 4. تقسيم النصوص وإنشاء المتجهات
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
+embedding = SentenceTransformerEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+def create_vectorstore(docs):
+    texts = text_splitter.split_documents(docs)
+    return Chroma.from_documents(texts, embedding, persist_directory=CHROMA_DIR)
+# 5. واجهة Gradio
+uploaded_files = []
+db = None
+qa_chain = None
+def upload_files(files):
+    global uploaded_files, db, qa_chain
+    uploaded_paths = [f.name for f in files]
+    uploaded_files.extend(uploaded_paths)
+    docs = load_documents(uploaded_paths)
+    db = create_vectorstore(docs)
+    retriever = db.as_retriever(search_kwargs={"k": 5})
+    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)
+    return "تم تحميل الملفات وبناء قاعدة المعرفة بنجاح ✅"
+def answer_question_arabic(question):
+    if not qa_chain:
+        return "من فضلك قم أولاً بتحميل ملفاتك وبناء قاعدة المعرفة."
+    result = qa_chain.run(question)
+    return result
+with gr.Blocks(theme=gr.themes.Soft(), rtl=True, title="Smart PDF Assistant") as demo:
+    gr.Markdown("""
+    # 🤖 مساعد الوثائق الذكي باللغة العربية
+    أرفق ملفاتك (PDF، DOCX، TXT) ثم اسأل أي سؤال.
+    """)
     with gr.Row():
+        file_input = gr.File(file_types=[".pdf", ".docx", ".txt"], file_count="multiple", label="📁 ارفع ملفاتك")
+        upload_button = gr.Button("تحميل الملفات")
+    status_output = gr.Textbox(label="الحالة")
     with gr.Row():
+        question_input = gr.Textbox(lines=2, placeholder="✍️ اكتب سؤالك هنا", label="السؤال")
+        answer_button = gr.Button("أرسل")
+    answer_output = gr.Textbox(label="الإجابة", lines=5)
+    upload_button.click(upload_files, inputs=[file_input], outputs=[status_output])
+    answer_button.click(answer_question_arabic, inputs=[question_input], outputs=[answer_output])
 if __name__ == "__main__":
     demo.launch()