Spaces:

ramysaidagieb
/

brain247v1

Sleeping

App Files Files Community

ramysaidagieb commited on 28 days ago

Commit

4e3a79b

verified ·

1 Parent(s): 6d2438e

Update app.py

Browse files

Files changed (1) hide show

app.py +61 -90

app.py CHANGED Viewed

@@ -1,110 +1,81 @@
-import os
-import shutil
-import tempfile
-from langchain_community.llms import CTransformers
-from langchain.chains import RetrievalQA
-from langchain.prompts import PromptTemplate
-from langchain.vectorstores import Chroma
-from langchain.embeddings import SentenceTransformerEmbeddings
-from langchain.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from fastapi import FastAPI, UploadFile, File
-from fastapi.responses import JSONResponse
-import uvicorn
 import gradio as gr
-# إعداد نموذج اللغة
-llm = CTransformers(
-    model="TheBloke/Mistral-7B-Instruct-v0.2-GGUF",
     model_file="mistral-7b-instruct-v0.2.Q4_K_M.gguf",
     model_type="mistral",
     config={
-        "max_new_tokens": 512,
-        "temperature": 0.7,
-        "context_length": 4096,
-        "gpu_layers": 20,
     }
 )
-# إعداد المطابقة الدلالية
-embedding_function = SentenceTransformerEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
-# تحميل المستندات وإنشاء قاعدة معرفية
-def load_documents_from_folder(folder_path):
-    documents = []
-    for filename in os.listdir(folder_path):
-        full_path = os.path.join(folder_path, filename)
-        if filename.endswith(".pdf"):
-            loader = PyPDFLoader(full_path)
-        elif filename.endswith(".docx"):
-            loader = Docx2txtLoader(full_path)
-        elif filename.endswith(".txt"):
-            loader = TextLoader(full_path)
-        else:
-            continue
-        docs = loader.load()
-        documents.extend(docs)
-    return documents
-def create_vectorstore(docs):
-    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
-    chunks = splitter.split_documents(docs)
-    return Chroma.from_documents(chunks, embedding_function)
-# إعداد واجهة الإجابة
-retriever = None
-qa = None
-def setup_qa(folder_path):
-    global retriever, qa
-    docs = load_documents_from_folder(folder_path)
-    vectordb = create_vectorstore(docs)
-    retriever = vectordb.as_retriever()
-    prompt_template = """
-    أنت مساعد ذكي تجيب باللغة العربية، تستند فقط إلى محتوى الوثائق المقدمة.
-    لا تقم بإضافة أي معلومات من عندك.
-    السؤال: {question}
-    =========
-    الوثائق:
-    {context}
-    =========
-    الإجابة المفصلة باللغة العربية:
-    """
-    prompt = PromptTemplate(template=prompt_template, input_variables=["question", "context"])
-    qa = RetrievalQA.from_chain_type(llm=llm, retriever=retriever, chain_type_kwargs={"prompt": prompt})
-# تحميل الملفات من Gradio
-def process_uploaded_files(files):
-    temp_dir = tempfile.mkdtemp()
-    for file in files:
-        dest_path = os.path.join(temp_dir, file.name)
-        with open(dest_path, "wb") as f:
-            f.write(file.read())
-    setup_qa(temp_dir)
-    shutil.rmtree(temp_dir)
-# الإجابة على الأسئلة
 def answer_question(question):
-    if qa is None:
-        return "الرجاء رفع ملفاتك أولًا."
-    response = qa.run(question)
-    return response
-# واجهة Gradio
-with gr.Blocks(css=".gradio-container { direction: rtl; text-align: right; font-family: 'Cairo', sans-serif; }") as demo:
-    gr.Markdown("## مساعد الوثائق الذكي")
     with gr.Row():
-        file_input = gr.File(file_types=[".pdf", ".docx", ".txt"], file_count="multiple", label="ارفع ملفاتك")
-        load_button = gr.Button("ابدأ التحليل")
-    question_input = gr.Textbox(label="اكتب سؤالك هنا")
-    answer_output = gr.Textbox(label="الإجابة")
-    load_button.click(fn=process_uploaded_files, inputs=[file_input], outputs=[])
-    question_input.submit(fn=answer_question, inputs=[question_input], outputs=[answer_output])
-# تشغيل Gradio
-if __name__ == "__main__":
-    demo.launch()

+from langchain_community.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import SentenceTransformerEmbeddings
+from langchain.vectorstores import Chroma
+from langchain.chains import RetrievalQA
+from ctransformers import AutoModelForCausalLM
 import gradio as gr
+import os
+import tempfile
+# Load the model (CPU-only)
+llm = AutoModelForCausalLM.from_pretrained(
+    model_path_or_repo_id="TheBloke/Mistral-7B-Instruct-v0.2-GGUF",
     model_file="mistral-7b-instruct-v0.2.Q4_K_M.gguf",
     model_type="mistral",
     config={
+        'max_new_tokens': 512,
+        'temperature': 0.5,
+        'gpu_layers': 0  # Disable GPU
     }
 )
+# Embedding model
+embedding_function = SentenceTransformerEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+# Temp folder for uploading documents
+persist_directory = tempfile.mkdtemp()
+def load_file(file):
+    ext = os.path.splitext(file.name)[1].lower()
+    if ext == ".pdf":
+        loader = PyPDFLoader(file.name)
+    elif ext == ".docx":
+        loader = Docx2txtLoader(file.name)
+    elif ext == ".txt":
+        loader = TextLoader(file.name)
+    else:
+        return None
+    return loader.load()
+def process_document(file):
+    docs = load_file(file)
+    if docs is None:
+        return "صيغة غير مدعومة."
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    texts = text_splitter.split_documents(docs)
+    vectordb = Chroma.from_documents(texts, embedding_function, persist_directory=persist_directory)
+    retriever = vectordb.as_retriever(search_kwargs={"k": 3})
+    qa_chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever, return_source_documents=True)
+    return qa_chain
+qa_chain = None
+def upload_file(file):
+    global qa_chain
+    qa_chain = process_document(file)
+    return "تم رفع الملف ومعالجته بنجاح. يمكنك الآن طرح سؤالك."
 def answer_question(question):
+    if qa_chain is None:
+        return "يرجى رفع ملف أولاً."
+    result = qa_chain({"query": question})
+    answer = result["result"]
+    sources = "\n\n".join([doc.page_content[:200] for doc in result["source_documents"]])
+    return f"🧠 الإجابة:\n{answer}\n\n📚 المراجع:\n{sources}"
+with gr.Blocks() as demo:
+    gr.Markdown("# 📄 Smart PDF Assistant\nنظام سؤال وجواب من ملفات PDF وورد ونصوص")
+    with gr.Row():
+        file_upload = gr.File(label="📂 ارفع مستند", type="file")
+        upload_button = gr.Button("معالجة الملف")
+    output = gr.Textbox(label="✅ الحالة")
     with gr.Row():
+        question = gr.Textbox(label="✍️ اكتب سؤالك هنا")
+        answer = gr.Button("📤 إرسال")
+    response = gr.Textbox(label="🤖 الإجابة", lines=10)
+    upload_button.click(fn=upload_file, inputs=file_upload, outputs=output)
+    answer.click(fn=answer_question, inputs=question, outputs=response)
+demo.launch()