Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on May 4

Commit

0f721da

1 Parent(s): c20bc05

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -26

app.py CHANGED Viewed

@@ -500,6 +500,17 @@ st.markdown("""
     }
     </style>
 """, unsafe_allow_html=True)
 folder_path = '46'
 normalizer = Normalizer()
 sentence_tokenizer = SentenceTokenizer()
@@ -517,37 +528,17 @@ def load_and_process_documents(path):
         except Exception as e:
             print(f"Error processing {filename}: {e}")
             return []
-    with concurrent.futures.ThreadPoolExecutor() as executor:
         results = executor.map(process_docx, [f for f in os.listdir(path) if f.endswith(".docx")])
     return list(results)
-all_sentences = load_and_process_documents(folder_path)
-def clean_text(text):
-    cleaned_text = re.sub(r'[^آ-ی۰-۹0-9،.؟!؛+\-* ]+', '', text)
-    return cleaned_text
-def compute_similarity(sentence, query, threshold):
-    similarity = fuzz.partial_ratio(sentence, query)
-    if similarity >= threshold:
-        return sentence
-    return None
-import string
-from hazm import word_tokenize, sent_tokenize
-from sklearn.feature_extraction.text import TfidfVectorizer
-from sklearn.cluster import KMeans
-from sklearn.metrics.pairwise import cosine_similarity
-from concurrent.futures import ThreadPoolExecutor
 # تابع خلاصه‌سازی متن با استفاده از KMeans
 def summarize_text_with_kmeans(text, num_sentences=3):
-    sentences = sent_tokenize(text)  # تقسیم متن به جملات
     tfidf_vectorizer = TfidfVectorizer()
     tfidf_matrix = tfidf_vectorizer.fit_transform(sentences)  # تبدیل جملات به ماتریس TF-IDF
@@ -563,7 +554,19 @@ def summarize_text_with_kmeans(text, num_sentences=3):
     summary = [sentences[i] for i in similar_sentences_indices]
     return ' '.join(summary)
-# فرض بر این است که query و all_sentences قبلاً تعریف شده‌اند
 if query:
     threshold = 75
     keywords = query
@@ -656,4 +659,3 @@ if query:
             ])
             rewritten = clean_text(response.content.strip())
             st.markdown(f'<div class="chat-message">{rewritten}</div>', unsafe_allow_html=True)
-            think.empty()

     }
     </style>
 """, unsafe_allow_html=True)
+import streamlit as st
+import os
+import docx
+from hazm import Normalizer, SentenceTokenizer
+from fuzzywuzzy import fuzz
+from concurrent.futures import ThreadPoolExecutor
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.cluster import KMeans
+from sklearn.metrics.pairwise import cosine_similarity
+import re
 folder_path = '46'
 normalizer = Normalizer()
 sentence_tokenizer = SentenceTokenizer()
         except Exception as e:
             print(f"Error processing {filename}: {e}")
             return []
+    with ThreadPoolExecutor() as executor:
         results = executor.map(process_docx, [f for f in os.listdir(path) if f.endswith(".docx")])
     return list(results)
+# بارگذاری و پردازش اسناد
+all_sentences = load_and_process_documents(folder_path)
 # تابع خلاصه‌سازی متن با استفاده از KMeans
 def summarize_text_with_kmeans(text, num_sentences=3):
+    sentences = sentence_tokenizer.tokenize(text)  # تقسیم متن به جملات
     tfidf_vectorizer = TfidfVectorizer()
     tfidf_matrix = tfidf_vectorizer.fit_transform(sentences)  # تبدیل جملات به ماتریس TF-IDF
     summary = [sentences[i] for i in similar_sentences_indices]
     return ' '.join(summary)
+# تابع تمیز کردن متن
+def clean_text(text):
+    cleaned_text = re.sub(r'[^آ-ی۰-۹0-9،.؟!؛+\-* ]+', '', text)
+    return cleaned_text
+# محاسبه شباهت بین جملات
+def compute_similarity(sentence, query, threshold):
+    similarity = fuzz.partial_ratio(sentence, query)
+    if similarity >= threshold:
+        return sentence
+    return None
+# پردازش پرسش
 if query:
     threshold = 75
     keywords = query
             ])
             rewritten = clean_text(response.content.strip())
             st.markdown(f'<div class="chat-message">{rewritten}</div>', unsafe_allow_html=True)