Spaces:

M17idd
/

army

Sleeping

App Files Files Community

M17idd commited on May 4

Commit

39f1557

1 Parent(s): ddb39b3

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -8

app.py CHANGED Viewed

@@ -547,12 +547,33 @@ def find_closest_filenames(query, filenames, top_n=3):
     scores.sort(key=lambda x: x[1], reverse=True)
     return [score[0] for score in scores[:top_n]]
-from transformers import pipeline
-def summarize_text(text):
-    summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
-    summary = summarizer(text, max_length=1024, min_length=512, do_sample=False)
-    return summary[0]['summary_text']
 def find_best_answer(query, top_files, doc_texts):
     best_match = None
@@ -567,13 +588,13 @@ def find_best_answer(query, top_files, doc_texts):
             best_match = filename
             best_text = text
-    # خلاصه کردن متن برای خروجی بهتر
     if best_text:
-        summary = summarize_text(best_text)
     else:
         summary = "متنی برای خلاصه‌سازی پیدا نشد."
-    return summary
 # حالا این رو در کد اصلی استفاده می‌کنیم:

     scores.sort(key=lambda x: x[1], reverse=True)
     return [score[0] for score in scores[:top_n]]
+import re
+import numpy as np
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.cluster import KMeans
+from nltk.tokenize import sent_tokenize
+from sklearn.metrics.pairwise import cosine_similarity
+# توابع کمکی
+def clean_text(text):
+    return re.sub(r'[^آ-ی۰-۹0-9،.؟!؛+\-* ]+', '', text)
+def summarize_text_with_kmeans(text, num_sentences=3):
+    sentences = sent_tokenize(text)  # تقسیم متن به جملات
+    tfidf_vectorizer = TfidfVectorizer()
+    tfidf_matrix = tfidf_vectorizer.fit_transform(sentences)  # تبدیل جملات به ماتریس TF-IDF
+    # الگوریتم خوشه‌بندی KMeans
+    kmeans = KMeans(n_clusters=1)  # یک خوشه برای استخراج خلاصه
+    kmeans.fit(tfidf_matrix)
+    # پیدا کردن جملات نزدیک به مرکز خوشه
+    closest_centroid = kmeans.cluster_centers_[0]
+    similarities = cosine_similarity(tfidf_matrix, closest_centroid.reshape(1, -1))
+    similar_sentences_indices = similarities.flatten().argsort()[-num_sentences:][::-1]  # انتخاب jملات نزدیک
+    summary = [sentences[i] for i in similar_sentences_indices]
+    return ' '.join(summary)
 def find_best_answer(query, top_files, doc_texts):
     best_match = None
             best_match = filename
             best_text = text
+    # خلاصه کردن متن با استفاده از KMeans
     if best_text:
+        summary = summarize_text_with_kmeans(best_text)
     else:
         summary = "متنی برای خلاصه‌سازی پیدا نشد."
+    return best_match, summary
 # حالا این رو در کد اصلی استفاده می‌کنیم: