Spaces:

M17idd
/

army

Sleeping

App Files Files Community

M17idd commited on Apr 27

Commit

33aae2c

1 Parent(s): 405c348

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -26

app.py CHANGED Viewed

@@ -1,29 +1,14 @@
 import os
 import time
 from langchain_together import TogetherEmbeddings
 import streamlit as st
 from langchain.chat_models import ChatOpenAI
 from langchain.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.schema import Document
 from langchain.chains import RetrievalQA
-from langchain_core.retrievers import BaseRetriever
-from langchain_core.prompts import PromptTemplate
-from typing import List
-from pydantic import Field
-import numpy as np
-from sentence_transformers import SentenceTransformer
-import faiss
-from langchain.indexes import VectorstoreIndexCreator
 from langchain.vectorstores import FAISS
-from langchain.embeddings import SentenceTransformerEmbeddings
-from langchain.embeddings import OpenAIEmbeddings, HuggingFaceInstructEmbeddings
-from transformers import AutoTokenizer
 # ----------------- تنظیمات صفحه -----------------
 st.set_page_config(page_title="چت‌ بات توانا", page_icon="🪖", layout="wide")
@@ -107,20 +92,22 @@ st.markdown("""
 """, unsafe_allow_html=True)
 # ----------------- لود PDF و ساخت ایندکس -----------------
-# tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/gpt2-fa")
-# tokenizer.pad_token = tokenizer.eos_token  # یا می‌توانید این خط را برای توکن جدید فعال کنید: tokenizer.add_special_tokens({'pad_token': '[PAD]'})
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
         pdf_loader = PyPDFLoader('test1.pdf')
-        # embeddings = SentenceTransformer("Thomslionel/embedings")
-        # embeddings = HuggingFaceInstructEmbeddings(model_name="aidal/Persian-Mistral-7B")
         embeddings = TogetherEmbeddings(
             api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
-        index = VectorstoreIndexCreator(embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=128)).from_loaders([pdf_loader])
         return index
 # ----------------- بارگذاری دیتا -----------------
@@ -145,10 +132,12 @@ if 'messages' not in st.session_state:
 if 'pending_prompt' not in st.session_state:
     st.session_state.pending_prompt = None
 for msg in st.session_state.messages:
     with st.chat_message(msg['role']):
         st.markdown(f"🗨️ {msg['content']}", unsafe_allow_html=True)
 prompt = st.chat_input("چطور می‌تونم کمک کنم؟")
 if prompt:
@@ -161,6 +150,7 @@ if st.session_state.pending_prompt:
         thinking = st.empty()
         thinking.markdown("🤖 در حال فکر کردن...")
         response = chain.run(f'پاسخ را فقط به زبان فارسی جواب بده. سوال: {st.session_state.pending_prompt}')
         answer = response.split("Helpful Answer:")[-1].strip()
         if not answer:
@@ -169,6 +159,8 @@ if st.session_state.pending_prompt:
         thinking.empty()
         full_response = ""
         placeholder = st.empty()
         for word in answer.split():
             full_response += word + " "
             placeholder.markdown(full_response + "▌")
@@ -177,7 +169,3 @@ if st.session_state.pending_prompt:
         placeholder.markdown(full_response)
         st.session_state.messages.append({'role': 'ai', 'content': full_response})
         st.session_state.pending_prompt = None

 import os
 import time
 from langchain_together import TogetherEmbeddings
 import streamlit as st
 from langchain.chat_models import ChatOpenAI
 from langchain.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.schema import Document
 from langchain.chains import RetrievalQA
 from langchain.vectorstores import FAISS
+from langchain.indexes import VectorstoreIndexCreator
 # ----------------- تنظیمات صفحه -----------------
 st.set_page_config(page_title="چت‌ بات توانا", page_icon="🪖", layout="wide")
 """, unsafe_allow_html=True)
 # ----------------- لود PDF و ساخت ایندکس -----------------
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
+        # بارگذاری PDF
         pdf_loader = PyPDFLoader('test1.pdf')
+        # تنظیم embedding ها برای زبان فارسی
         embeddings = TogetherEmbeddings(
             api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
+        # ساخت ایندکس با استفاده از PDF و embeddings
+        index = VectorstoreIndexCreator(embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)).from_loaders([pdf_loader])
+        # چاپ تعداد بخش‌ها برای بررسی
+        st.write(f"تعداد بخش‌های پردازش‌شده: {len(index.vectorstore)}")
         return index
 # ----------------- بارگذاری دیتا -----------------
 if 'pending_prompt' not in st.session_state:
     st.session_state.pending_prompt = None
+# نمایش پیام‌ها در چت
 for msg in st.session_state.messages:
     with st.chat_message(msg['role']):
         st.markdown(f"🗨️ {msg['content']}", unsafe_allow_html=True)
+# دریافت ورودی از کاربر
 prompt = st.chat_input("چطور می‌تونم کمک کنم؟")
 if prompt:
         thinking = st.empty()
         thinking.markdown("🤖 در حال فکر کردن...")
+        # اجرای جستجو در ایندکس برای دریافت پاسخ
         response = chain.run(f'پاسخ را فقط به زبان فارسی جواب بده. سوال: {st.session_state.pending_prompt}')
         answer = response.split("Helpful Answer:")[-1].strip()
         if not answer:
         thinking.empty()
         full_response = ""
         placeholder = st.empty()
+        # نمایش پاسخ به صورت تدریجی
         for word in answer.split():
             full_response += word + " "
             placeholder.markdown(full_response + "▌")
         placeholder.markdown(full_response)
         st.session_state.messages.append({'role': 'ai', 'content': full_response})
         st.session_state.pending_prompt = None