Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on Apr 28

Commit

b3e983d

1 Parent(s): eadb87b

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -9

app.py CHANGED Viewed

@@ -219,8 +219,14 @@ class TogetherEmbeddings(Embeddings):
         self.client = Together(api_key=api_key)
     def embed_documents(self, texts: List[str]) -> List[List[float]]:
-        response = self.client.embeddings.create(model=self.model_name, input=texts)
-        return [item.embedding for item in response.data]
     def embed_query(self, text: str) -> List[float]:
         return self.embed_documents([text])[0]
@@ -232,10 +238,23 @@ def get_csv_index(csv_file):
         df = pd.read_csv(csv_file)
         # تبدیل DataFrame به لیست از متون
-        # فرض می‌کنیم همه ستون‌ها را می‌خواهیم یا یک ستون خاص
-        # اگر فقط یک ستون دارید، نام آن را جایگزین کنید
         texts = df.iloc[:, 0].astype(str).tolist()  # ستون اول را می‌گیرد
         # ایجاد embeddings
         embeddings = TogetherEmbeddings(
             model_name="togethercomputer/m2-bert-80M-8k-retrieval",
@@ -245,22 +264,27 @@ def get_csv_index(csv_file):
         # استفاده از VectorstoreIndexCreator برای ساخت ایندکس
         index_creator = VectorstoreIndexCreator(
             embedding=embeddings,
-            text_splitter=RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
         )
         # تبدیل متون به اسناد (documents)
         from langchain.docstore.document import Document
-        documents = [Document(page_content=text) for text in texts]
         return index_creator.from_documents(documents)
 # مسیر فایل CSV
 csv_file_path = 'output (1).csv'
-# ساخت ایندکس
-csv_index = get_csv_index(csv_file_path)
-st.success("ایندکس فایل CSV با موفقیت ساخته شد!")
 #------------------------------------------
 llm = ChatOpenAI(
     base_url="https://api.together.xyz/v1",

         self.client = Together(api_key=api_key)
     def embed_documents(self, texts: List[str]) -> List[List[float]]:
+        # تقسیم متن‌ها به دسته‌های کوچک‌تر برای جلوگیری از خطای 413
+        batch_size = 100  # این مقدار را می‌توانید تنظیم کنید
+        embeddings = []
+        for i in range(0, len(texts), batch_size):
+            batch = texts[i:i + batch_size]
+            response = self.client.embeddings.create(model=self.model_name, input=batch)
+            embeddings.extend([item.embedding for item in response.data])
+        return embeddings
     def embed_query(self, text: str) -> List[float]:
         return self.embed_documents([text])[0]
         df = pd.read_csv(csv_file)
         # تبدیل DataFrame به لیست از متون
         texts = df.iloc[:, 0].astype(str).tolist()  # ستون اول را می‌گیرد
+        # فیلتر کردن متن‌های خالی
+        texts = [text for text in texts if text.strip()]
+        # تقسیم متن‌های طولانی به بخش‌های کوچکتر
+        text_splitter = RecursiveCharacterTextSplitter(
+            chunk_size=300,
+            chunk_overlap=50,
+            length_function=len,
+            separators=["\n\n", "\n", " ", ""]
+        )
+        split_texts = []
+        for text in texts:
+            split_texts.extend(text_splitter.split_text(text))
         # ایجاد embeddings
         embeddings = TogetherEmbeddings(
             model_name="togethercomputer/m2-bert-80M-8k-retrieval",
         # استفاده از VectorstoreIndexCreator برای ساخت ایندکس
         index_creator = VectorstoreIndexCreator(
             embedding=embeddings,
+            text_splitter=text_splitter
         )
         # تبدیل متون به اسناد (documents)
         from langchain.docstore.document import Document
+        documents = [Document(page_content=text) for text in split_texts]
         return index_creator.from_documents(documents)
 # مسیر فایل CSV
 csv_file_path = 'output (1).csv'
+try:
+    # ساخت ایندکس
+    csv_index = get_csv_index(csv_file_path)
+    st.success("ایندکس فایل CSV با موفقیت ساخته شد!")
+except Exception as e:
+    st.error(f"خطا در ساخت ایندکس: {str(e)}")
 #------------------------------------------
 llm = ChatOpenAI(
     base_url="https://api.together.xyz/v1",