M17idd commited on
Commit
9f443c9
·
verified ·
1 Parent(s): 3cc0adb

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +14 -3
app.py CHANGED
@@ -497,10 +497,21 @@ doc_texts = load_and_process_documents(folder_path)
497
 
498
  stop_words = [
499
  "است", "و", "با", "که", "در", "از", "برای", "به", "بر", "تا", "این", "آن", "یک", "کدام", "کجا", "هم", "همه",
500
- "یا", "همچنین", "می", "باید", "شود", "شد", "گفت", "گویا", "داشت", "داشتن", "کنند", "کنیم",
501
- "کرد", "کردن", "نیز", "اگر", "ای", "اینکه", "نه", "باشید", "باشم", "باشی", "در حالی که", "مگر", "چرا"
 
 
 
 
 
 
 
 
 
 
 
 
502
  ]
503
-
504
  def remove_stop_words(text, stop_words):
505
  words = text.split()
506
  return " ".join([word for word in words if word not in stop_words])
 
497
 
498
  stop_words = [
499
  "است", "و", "با", "که", "در", "از", "برای", "به", "بر", "تا", "این", "آن", "یک", "کدام", "کجا", "هم", "همه",
500
+ "یا", "همچنین", "می", "باید", "شود", "شد", "گفت", "گویا", "داشت", "داشتن", "کنند", "کنیم", "کرد", "کردن",
501
+ "نیز", "اگر", "ای", "اینکه", "نه", "باشید", "باشم", "باشی", "در حالی که", "مگر", "چرا", "اما", "ولی", "زیرا",
502
+ "چون", "اگرچه", "لذا", "بنابراین", "یعنی", "دیگر", "خود", "خودش", "خودم", "خودت", "خودمان", "خودشان", "خودمون",
503
+ "من", "تو", "او", "ما", "شما", "آنها", "ایشان", "وی", "اینجا", "آنجا", "همان", "چنین", "چنان", "چیزی", "چیز",
504
+ "کسی", "هیچ", "هر", "توسط", "روی", "زیر", "بالا", "پایین", "کنار", "درباره", "نسبت", "همراه", "وسط", "همواره",
505
+ "نیست", "نیستن", "نیستی", "نیستم", "نیس", "باش", "باشند", "باشیم", "بود", "بودن", "بودند", "بودیم", "خواهد",
506
+ "خواهند", "خواهیم", "توان", "توانست", "توانستن", "گرفته", "گرفتن", "دارند", "داریم", "دارید", "داشتند",
507
+ "آمد", "آمدن", "رفته", "رفتن", "کن", "کرده", "کردن", "می‌شود", "نمی‌شود", "نمی‌تواند", "توانایی", "همین",
508
+ "اکنون", "الان", "امروز", "دیروز", "فردا", "بیشتر", "کمتر", "زیاد", "کامل", "تقریباً", "تقریبا", "حتی",
509
+ "آیا", "مثلاً", "مثلا", "وقتی", "زمانی", "لحظه", "دقیقه", "ساعت", "روز", "شب", "صبح", "عصر", "مدتی",
510
+ "بعضی", "برخی", "چند", "عده‌ای", "برحسب", "نسبت", "گاهی", "بارها", "مرتب", "هیچ‌گاه", "اغلب", "اغلبا",
511
+ "واقعاً", "واقعيت", "بی‌نهایت", "خیلی", "تمام", "اکثراً", "اقلاً", "کم", "زیاد", "سایر",
512
+ "موارد", "دیگران",
513
+ "نوعی", "گونه‌ای", "آنان", "این‌ها", "آن‌ها", "چیزهایی", "افراد", "اشخاص", "اشیاء", "مورد", "صورت", "حال", "طور"
514
  ]
 
515
  def remove_stop_words(text, stop_words):
516
  words = text.split()
517
  return " ".join([word for word in words if word not in stop_words])