Update app.py
Browse files
app.py
CHANGED
@@ -497,10 +497,21 @@ doc_texts = load_and_process_documents(folder_path)
|
|
497 |
|
498 |
stop_words = [
|
499 |
"است", "و", "با", "که", "در", "از", "برای", "به", "بر", "تا", "این", "آن", "یک", "کدام", "کجا", "هم", "همه",
|
500 |
-
"یا", "همچنین", "می", "باید", "شود", "شد", "گفت", "گویا", "داشت", "داشتن", "کنند", "کنیم",
|
501 |
-
"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
502 |
]
|
503 |
-
|
504 |
def remove_stop_words(text, stop_words):
|
505 |
words = text.split()
|
506 |
return " ".join([word for word in words if word not in stop_words])
|
|
|
497 |
|
498 |
stop_words = [
|
499 |
"است", "و", "با", "که", "در", "از", "برای", "به", "بر", "تا", "این", "آن", "یک", "کدام", "کجا", "هم", "همه",
|
500 |
+
"یا", "همچنین", "می", "باید", "شود", "شد", "گفت", "گویا", "داشت", "داشتن", "کنند", "کنیم", "کرد", "کردن",
|
501 |
+
"نیز", "اگر", "ای", "اینکه", "نه", "باشید", "باشم", "باشی", "در حالی که", "مگر", "چرا", "اما", "ولی", "زیرا",
|
502 |
+
"چون", "اگرچه", "لذا", "بنابراین", "یعنی", "دیگر", "خود", "خودش", "خودم", "خودت", "خودمان", "خودشان", "خودمون",
|
503 |
+
"من", "تو", "او", "ما", "شما", "آنها", "ایشان", "وی", "اینجا", "آنجا", "همان", "چنین", "چنان", "چیزی", "چیز",
|
504 |
+
"کسی", "هیچ", "هر", "توسط", "روی", "زیر", "بالا", "پایین", "کنار", "درباره", "نسبت", "همراه", "وسط", "همواره",
|
505 |
+
"نیست", "نیستن", "نیستی", "نیستم", "نیس", "باش", "باشند", "باشیم", "بود", "بودن", "بودند", "بودیم", "خواهد",
|
506 |
+
"خواهند", "خواهیم", "توان", "توانست", "توانستن", "گرفته", "گرفتن", "دارند", "داریم", "دارید", "داشتند",
|
507 |
+
"آمد", "آمدن", "رفته", "رفتن", "کن", "کرده", "کردن", "میشود", "نمیشود", "نمیتواند", "توانایی", "همین",
|
508 |
+
"اکنون", "الان", "امروز", "دیروز", "فردا", "بیشتر", "کمتر", "زیاد", "کامل", "تقریباً", "تقریبا", "حتی",
|
509 |
+
"آیا", "مثلاً", "مثلا", "وقتی", "زمانی", "لحظه", "دقیقه", "ساعت", "روز", "شب", "صبح", "عصر", "مدتی",
|
510 |
+
"بعضی", "برخی", "چند", "عدهای", "برحسب", "نسبت", "گاهی", "بارها", "مرتب", "هیچگاه", "اغلب", "اغلبا",
|
511 |
+
"واقعاً", "واقعيت", "بینهایت", "خیلی", "تمام", "اکثراً", "اقلاً", "کم", "زیاد", "سایر",
|
512 |
+
"موارد", "دیگران",
|
513 |
+
"نوعی", "گونهای", "آنان", "اینها", "آنها", "چیزهایی", "افراد", "اشخاص", "اشیاء", "مورد", "صورت", "حال", "طور"
|
514 |
]
|
|
|
515 |
def remove_stop_words(text, stop_words):
|
516 |
words = text.split()
|
517 |
return " ".join([word for word in words if word not in stop_words])
|