Spaces:

M17idd
/

army

Sleeping

App Files Files Community

M17idd commited on Apr 27

Commit

e8a1dae

1 Parent(s): 615b3ed

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -11

app.py CHANGED Viewed

@@ -105,20 +105,16 @@ st.markdown("""
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
-        # بارگذاری فایل PDF
         loader = [PyPDFLoader('test1.pdf')]
-        # بارگذاری مدل از Hugging Face
-        model_name = "togethercomputer/m2-bert-80M-8k-retrieval"  # مدل مورد نظر از Hugging Face
-        model = SentenceTransformer(model_name)
-        # تقسیم متن‌ها به بخش‌های کوچک
         splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
         texts = []
         for doc in loader:
             texts.extend(splitter.split_text(doc.page_content))
-        # مقداردهی اولیه پروسه بار
         progress_bar = st.progress(0)
         total_docs = len(texts)
@@ -129,19 +125,15 @@ def get_pdf_index():
             batch_embeddings = model.encode(batch_texts, convert_to_numpy=True)
             embeddings.extend(batch_embeddings)
-            # به‌روزرسانی پروسه بار
             progress_bar.progress(min((i + batch_size) / total_docs, 1.0))
-        # اضافه کردن تاخیر برای تکمیل پروسه بار
         time.sleep(1)
         progress_bar.empty()
-        # ساخت ایندکس با استفاده از FAISS
         embeddings = np.array(embeddings)
-        index = faiss.IndexFlatL2(embeddings.shape[1])  # ایندکس FAISS
         index.add(embeddings)
-        # بازگشت ایندکس
         return VectorstoreIndexCreator(
             embedding=model.encode,
             text_splitter=splitter

 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
         loader = [PyPDFLoader('test1.pdf')]
+        model_name = "togethercomputer/m2-bert-80M-8k-retrieval"
+        model = SentenceTransformer(model_name, trust_remote_code=True)
         splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
         texts = []
         for doc in loader:
             texts.extend(splitter.split_text(doc.page_content))
         progress_bar = st.progress(0)
         total_docs = len(texts)
             batch_embeddings = model.encode(batch_texts, convert_to_numpy=True)
             embeddings.extend(batch_embeddings)
             progress_bar.progress(min((i + batch_size) / total_docs, 1.0))
         time.sleep(1)
         progress_bar.empty()
         embeddings = np.array(embeddings)
+        index = faiss.IndexFlatL2(embeddings.shape[1])
         index.add(embeddings)
         return VectorstoreIndexCreator(
             embedding=model.encode,
             text_splitter=splitter