Spaces:

M17idd
/

army

Sleeping

M17idd commited on Apr 27

Commit

053d440

1 Parent(s): 76f6398

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,6 +16,8 @@ import faiss
 from langchain.indexes import VectorstoreIndexCreator
 from langchain.vectorstores import FAISS
 from langchain.embeddings import SentenceTransformerEmbeddings
 # ----------------- تنظیمات صفحه -----------------
@@ -99,24 +101,15 @@ st.markdown("""
     </div>
 """, unsafe_allow_html=True)
-# ----------------- لود PDF و ساخت ایندکس -----------------
 # ----------------- لود PDF و ساخت ایندکس -----------------
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
-        loader = PyPDFLoader('test1.pdf')
-        splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=128)
-        embedding_function = SentenceTransformer("togethercomputer/m2-bert-80M-8k-retrieval", trust_remote_code=True)
-        embedding = SentenceTransformerEmbeddings(model=embedding_function)
-        return VectorstoreIndexCreator(
-            embedding=embedding,
-            text_splitter=splitter
-        ).from_loaders(loader)
 # ----------------- بارگذاری دیتا -----------------
 index = get_pdf_index()

 from langchain.indexes import VectorstoreIndexCreator
 from langchain.vectorstores import FAISS
 from langchain.embeddings import SentenceTransformerEmbeddings
+from langchain.embeddings import OpenAIEmbeddings, HuggingFaceInstructEmbeddings
 # ----------------- تنظیمات صفحه -----------------
     </div>
 """, unsafe_allow_html=True)
 # ----------------- لود PDF و ساخت ایندکس -----------------
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
+        pdf_reader = PyPDFLoader('test1.pdf')
+        embeddings = HuggingFaceInstructEmbeddings(model_name="togethercomputer/m2-bert-80M-8k-retrieval", trust_remote_code=True)
+        index  = VectorstoreIndexCreator( embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=128)).from_loaders(pdf_reader)
+        return index
 # ----------------- بارگذاری دیتا -----------------
 index = get_pdf_index()