Spaces:

ramysaidagieb
/

brain247v1

Sleeping

App Files Files Community

ramysaidagieb commited on 28 days ago

Commit

6d2438e

verified ·

1 Parent(s): 0ffbfee

Update app.py

Browse files

Files changed (1) hide show

app.py +84 -65

app.py CHANGED Viewed

@@ -1,91 +1,110 @@
-# app.py
 import os
 import shutil
-import chromadb
-import gradio as gr
-from ctransformers import AutoModelForCausalLM
-from langchain.embeddings import SentenceTransformerEmbeddings
-from langchain.vectorstores import Chroma
 from langchain.chains import RetrievalQA
-from langchain_community.document_loaders import PyPDFLoader, TextLoader, Docx2txtLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.llms import CTransformers
-# 1. إعداد نموذج LLM بدون API باستخدام ctransformers
-llm = AutoModelForCausalLM.from_pretrained(
-    model_path_or_repo_id="TheBloke/Mistral-7B-Instruct-v0.2-GGUF",
     model_file="mistral-7b-instruct-v0.2.Q4_K_M.gguf",
     model_type="mistral",
-    config={"max_new_tokens": 512, "temperature": 0.7}
 )
-# 2. إعداد مجلد التخزين
-CHROMA_DIR = "chroma_store"
-if os.path.exists(CHROMA_DIR):
-    shutil.rmtree(CHROMA_DIR)
-# 3. تحميل الملفات وتقسيمها
-SUPPORTED_TYPES = {"pdf": PyPDFLoader, "docx": Docx2txtLoader, "txt": TextLoader}
-def load_documents(file_paths):
     documents = []
-    for path in file_paths:
-        ext = path.split(".")[-1].lower()
-        loader_class = SUPPORTED_TYPES.get(ext)
-        if loader_class:
-            loader = loader_class(path)
-            docs = loader.load()
-            documents.extend(docs)
     return documents
-# 4. تقسيم النصوص وإنشاء المتجهات
-text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
-embedding = SentenceTransformerEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
 def create_vectorstore(docs):
-    texts = text_splitter.split_documents(docs)
-    return Chroma.from_documents(texts, embedding, persist_directory=CHROMA_DIR)
-# 5. واجهة Gradio
-uploaded_files = []
-db = None
-qa_chain = None
-def upload_files(files):
-    global uploaded_files, db, qa_chain
-    uploaded_paths = [f.name for f in files]
-    uploaded_files.extend(uploaded_paths)
-    docs = load_documents(uploaded_paths)
-    db = create_vectorstore(docs)
-    retriever = db.as_retriever(search_kwargs={"k": 5})
-    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)
-    return "تم تحميل الملفات وبناء قاعدة المعرفة بنجاح ✅"
-def answer_question_arabic(question):
-    if not qa_chain:
-        return "من فضلك قم أولاً بتحميل ملفاتك وبناء قاعدة المعرفة."
-    result = qa_chain.run(question)
-    return result
-with gr.Blocks(theme=gr.themes.Soft(), rtl=True, title="Smart PDF Assistant") as demo:
-    gr.Markdown("""
-    # 🤖 مساعد الوثائق الذكي باللغة العربية
-    أرفق ملفاتك (PDF، DOCX، TXT) ثم اسأل أي سؤال.
-    """)
-    with gr.Row():
-        file_input = gr.File(file_types=[".pdf", ".docx", ".txt"], file_count="multiple", label="📁 ارفع ملفاتك")
-        upload_button = gr.Button("تحميل الملفات")
-    status_output = gr.Textbox(label="الحالة")
     with gr.Row():
-        question_input = gr.Textbox(lines=2, placeholder="✍️ اكتب سؤالك هنا", label="السؤال")
-        answer_button = gr.Button("أرسل")
-    answer_output = gr.Textbox(label="الإجابة", lines=5)
-    upload_button.click(upload_files, inputs=[file_input], outputs=[status_output])
-    answer_button.click(answer_question_arabic, inputs=[question_input], outputs=[answer_output])
 if __name__ == "__main__":
     demo.launch()

 import os
 import shutil
+import tempfile
+from langchain_community.llms import CTransformers
 from langchain.chains import RetrievalQA
+from langchain.prompts import PromptTemplate
+from langchain.vectorstores import Chroma
+from langchain.embeddings import SentenceTransformerEmbeddings
+from langchain.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from fastapi import FastAPI, UploadFile, File
+from fastapi.responses import JSONResponse
+import uvicorn
+import gradio as gr
+# إعداد نموذج اللغة
+llm = CTransformers(
+    model="TheBloke/Mistral-7B-Instruct-v0.2-GGUF",
     model_file="mistral-7b-instruct-v0.2.Q4_K_M.gguf",
     model_type="mistral",
+    config={
+        "max_new_tokens": 512,
+        "temperature": 0.7,
+        "context_length": 4096,
+        "gpu_layers": 20,
+    }
 )
+# إعداد المطابقة الدلالية
+embedding_function = SentenceTransformerEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+# تحميل المستندات وإنشاء قاعدة معرفية
+def load_documents_from_folder(folder_path):
     documents = []
+    for filename in os.listdir(folder_path):
+        full_path = os.path.join(folder_path, filename)
+        if filename.endswith(".pdf"):
+            loader = PyPDFLoader(full_path)
+        elif filename.endswith(".docx"):
+            loader = Docx2txtLoader(full_path)
+        elif filename.endswith(".txt"):
+            loader = TextLoader(full_path)
+        else:
+            continue
+        docs = loader.load()
+        documents.extend(docs)
     return documents
 def create_vectorstore(docs):
+    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+    chunks = splitter.split_documents(docs)
+    return Chroma.from_documents(chunks, embedding_function)
+# إعداد واجهة الإجابة
+retriever = None
+qa = None
+def setup_qa(folder_path):
+    global retriever, qa
+    docs = load_documents_from_folder(folder_path)
+    vectordb = create_vectorstore(docs)
+    retriever = vectordb.as_retriever()
+    prompt_template = """
+    أنت مساعد ذكي تجيب باللغة العربية، تستند فقط إلى محتوى الوثائق المقدمة.
+    لا تقم بإضافة أي معلومات من عندك.
+    السؤال: {question}
+    =========
+    الوثائق:
+    {context}
+    =========
+    الإجاب�� المفصلة باللغة العربية:
+    """
+    prompt = PromptTemplate(template=prompt_template, input_variables=["question", "context"])
+    qa = RetrievalQA.from_chain_type(llm=llm, retriever=retriever, chain_type_kwargs={"prompt": prompt})
+# تحميل الملفات من Gradio
+def process_uploaded_files(files):
+    temp_dir = tempfile.mkdtemp()
+    for file in files:
+        dest_path = os.path.join(temp_dir, file.name)
+        with open(dest_path, "wb") as f:
+            f.write(file.read())
+    setup_qa(temp_dir)
+    shutil.rmtree(temp_dir)
+# الإجابة على الأسئلة
+def answer_question(question):
+    if qa is None:
+        return "الرجاء رفع ملفاتك أولًا."
+    response = qa.run(question)
+    return response
+# واجهة Gradio
+with gr.Blocks(css=".gradio-container { direction: rtl; text-align: right; font-family: 'Cairo', sans-serif; }") as demo:
+    gr.Markdown("## مساعد الوثائق الذكي")
     with gr.Row():
+        file_input = gr.File(file_types=[".pdf", ".docx", ".txt"], file_count="multiple", label="ارفع ملفاتك")
+        load_button = gr.Button("ابدأ التحليل")
+    question_input = gr.Textbox(label="اكتب سؤالك هنا")
+    answer_output = gr.Textbox(label="الإجابة")
+    load_button.click(fn=process_uploaded_files, inputs=[file_input], outputs=[])
+    question_input.submit(fn=answer_question, inputs=[question_input], outputs=[answer_output])
+# تشغيل Gradio
 if __name__ == "__main__":
     demo.launch()