M17idd commited on
Commit
b141134
·
1 Parent(s): 2b4036c

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +17 -17
app.py CHANGED
@@ -535,28 +535,28 @@ def load_and_process_documents(path):
535
  # بارگذاری و پردازش اسناد
536
  all_sentences = load_and_process_documents(folder_path)
537
 
538
- # تابع خلاصه‌سازی متن با استفاده از KMeans
539
- def summarize_text_with_kmeans(text, num_sentences=3):
540
- sentences = sentence_tokenizer.tokenize(text) # تقسیم متن به جملات
541
- tfidf_vectorizer = TfidfVectorizer()
542
- tfidf_matrix = tfidf_vectorizer.fit_transform(sentences) # تبدیل جملات به ماتریس TF-IDF
543
 
544
- # الگوریتم خوشه‌بندی KMeans
545
- kmeans = KMeans(n_clusters=1) # یک خوشه برای استخراج خلاصه
546
- kmeans.fit(tfidf_matrix)
547
 
548
- # پیدا کردن جملات نزدیک به مرکز خوشه
549
- closest_centroid = kmeans.cluster_centers_[0]
550
- similarities = cosine_similarity(tfidf_matrix, closest_centroid.reshape(1, -1))
551
- similar_sentences_indices = similarities.flatten().argsort()[-num_sentences:][::-1] # انتخاب jملات نزدیک
552
 
553
- summary = [sentences[i] for i in similar_sentences_indices]
554
- return ' '.join(summary)
555
 
556
 
557
- # خلاصه‌سازی متن قبل از ارسال به LLM
558
- text_to_summarize = "\n".join(all_sentences) # تمام جملات را با هم ترکیب کنید
559
- summarized_text = summarize_text_with_kmeans(text_to_summarize)
560
 
561
  # تابع تمیز کردن متن
562
  def clean_text(text):
 
535
  # بارگذاری و پردازش اسناد
536
  all_sentences = load_and_process_documents(folder_path)
537
 
538
+ # # تابع خلاصه‌سازی متن با استفاده از KMeans
539
+ # def summarize_text_with_kmeans(text, num_sentences=3):
540
+ # sentences = sentence_tokenizer.tokenize(text) # تقسیم متن به جملات
541
+ # tfidf_vectorizer = TfidfVectorizer()
542
+ # tfidf_matrix = tfidf_vectorizer.fit_transform(sentences) # تبدیل جملات به ماتریس TF-IDF
543
 
544
+ # # الگوریتم خوشه‌بندی KMeans
545
+ # kmeans = KMeans(n_clusters=1) # یک خوشه برای استخراج خلاصه
546
+ # kmeans.fit(tfidf_matrix)
547
 
548
+ # # پیدا کردن جملات نزدیک به مرکز خوشه
549
+ # closest_centroid = kmeans.cluster_centers_[0]
550
+ # similarities = cosine_similarity(tfidf_matrix, closest_centroid.reshape(1, -1))
551
+ # similar_sentences_indices = similarities.flatten().argsort()[-num_sentences:][::-1] # انتخاب jملات نزدیک
552
 
553
+ # summary = [sentences[i] for i in similar_sentences_indices]
554
+ # return ' '.join(summary)
555
 
556
 
557
+ # # خلاصه‌سازی متن قبل از ارسال به LLM
558
+ # text_to_summarize = "\n".join(all_sentences) # تمام جملات را با هم ترکیب کنید
559
+ summarized_text = all_sentences
560
 
561
  # تابع تمیز کردن متن
562
  def clean_text(text):