Spaces:

ramysaidagieb
/

brain247v1

Sleeping

App Files Files Community

ramysaidagieb commited on 27 days ago

Commit

b13872f

verified ·

1 Parent(s): 4e3a79b

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -61

app.py CHANGED Viewed

@@ -1,81 +1,64 @@
-from langchain_community.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.embeddings import SentenceTransformerEmbeddings
 from langchain.vectorstores import Chroma
 from langchain.chains import RetrievalQA
-from ctransformers import AutoModelForCausalLM
-import gradio as gr
-import os
-import tempfile
-# Load the model (CPU-only)
-llm = AutoModelForCausalLM.from_pretrained(
-    model_path_or_repo_id="TheBloke/Mistral-7B-Instruct-v0.2-GGUF",
     model_file="mistral-7b-instruct-v0.2.Q4_K_M.gguf",
     model_type="mistral",
-    config={
-        'max_new_tokens': 512,
-        'temperature': 0.5,
-        'gpu_layers': 0  # Disable GPU
-    }
 )
-# Embedding model
-embedding_function = SentenceTransformerEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-# Temp folder for uploading documents
-persist_directory = tempfile.mkdtemp()
-def load_file(file):
-    ext = os.path.splitext(file.name)[1].lower()
-    if ext == ".pdf":
-        loader = PyPDFLoader(file.name)
-    elif ext == ".docx":
-        loader = Docx2txtLoader(file.name)
-    elif ext == ".txt":
-        loader = TextLoader(file.name)
     else:
-        return None
     return loader.load()
-def process_document(file):
-    docs = load_file(file)
-    if docs is None:
-        return "صيغة غير مدعومة."
-    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
-    texts = text_splitter.split_documents(docs)
-    vectordb = Chroma.from_documents(texts, embedding_function, persist_directory=persist_directory)
-    retriever = vectordb.as_retriever(search_kwargs={"k": 3})
-    qa_chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever, return_source_documents=True)
     return qa_chain
 qa_chain = None
-def upload_file(file):
     global qa_chain
-    qa_chain = process_document(file)
-    return "تم رفع الملف ومعالجته بنجاح. يمكنك الآن طرح سؤالك."
-def answer_question(question):
     if qa_chain is None:
-        return "يرجى رفع ملف أولاً."
-    result = qa_chain({"query": question})
-    answer = result["result"]
-    sources = "\n\n".join([doc.page_content[:200] for doc in result["source_documents"]])
-    return f"🧠 الإجابة:\n{answer}\n\n📚 المراجع:\n{sources}"
-with gr.Blocks() as demo:
-    gr.Markdown("# 📄 Smart PDF Assistant\nنظام سؤال وجواب من ملفات PDF وورد ونصوص")
-    with gr.Row():
-        file_upload = gr.File(label="📂 ارفع مستند", type="file")
-        upload_button = gr.Button("معالجة الملف")
-    output = gr.Textbox(label="✅ الحالة")
-    with gr.Row():
-        question = gr.Textbox(label="✍️ اكتب سؤالك هنا")
-        answer = gr.Button("📤 إرسال")
-    response = gr.Textbox(label="🤖 الإجابة", lines=10)
-    upload_button.click(fn=upload_file, inputs=file_upload, outputs=output)
-    answer.click(fn=answer_question, inputs=question, outputs=response)
 demo.launch()

+import os
+import gradio as gr
+from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import Chroma
+from langchain.document_loaders import PyPDFLoader, TextLoader, Docx2txtLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.chains import RetrievalQA
+from langchain.llms import CTransformers
+# احصل على التوكن من Secrets
+HF_TOKEN = os.getenv("HF_TOKEN")
+# تحميل النموذج محليًا
+llm = CTransformers(
+    model="TheBloke/Mistral-7B-Instruct-v0.2-GGUF",
     model_file="mistral-7b-instruct-v0.2.Q4_K_M.gguf",
     model_type="mistral",
+    hf_token=HF_TOKEN,
+    config={"max_new_tokens": 512, "temperature": 0.7}
 )
+# التحميل الدلالي للنصوص
+def load_documents(file_path):
+    if file_path.endswith(".pdf"):
+        loader = PyPDFLoader(file_path)
+    elif file_path.endswith(".txt"):
+        loader = TextLoader(file_path, encoding='utf-8')
+    elif file_path.endswith(".docx"):
+        loader = Docx2txtLoader(file_path)
     else:
+        raise ValueError("Unsupported file type.")
     return loader.load()
+# تجهيز المستند
+def process_file(file):
+    docs = load_documents(file.name)
+    splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    chunks = splitter.split_documents(docs)
+    embedding = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+    vectordb = Chroma.from_documents(chunks, embedding)
+    retriever = vectordb.as_retriever()
+    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)
     return qa_chain
 qa_chain = None
+# واجهة Gradio
+def ask_question(file, question):
     global qa_chain
     if qa_chain is None:
+        qa_chain = process_file(file)
+    answer = qa_chain.run(question)
+    return f"<div dir='rtl' style='text-align: right;'>{answer}</div>"
+with gr.Blocks(css="body {direction: rtl; text-align: right;}") as demo:
+    gr.Markdown("## مساعد الوثائق الذكي - استعلام باللغة العربية من ملفاتك")
+    file_input = gr.File(label="📄 حمّل ملفًا (PDF / DOCX / TXT)", file_types=[".pdf", ".txt", ".docx"])
+    question_input = gr.Textbox(label="❓ أدخل سؤالك بالعربية", placeholder="ما هو موضوع هذا الملف؟")
+    output = gr.HTML()
+    submit_btn = gr.Button("🔍 استعلم")
+    submit_btn.click(fn=ask_question, inputs=[file_input, question_input], outputs=output)
 demo.launch()