Spaces:

quoc-khanh
/

chatbot4nct_test1

Sleeping

quoc-khanh commited on Feb 26

Commit

4ae410f

verified ·

1 Parent(s): 983f039

Update file_loader.py

Files changed (1) hide show

file_loader.py CHANGED Viewed

@@ -9,7 +9,7 @@ from helpers import (
     list_docx_files,  # Lấy danh sách file .docx
     get_splits,  # Xử lý file docx thành splits
     get_json_splits_only,  # Xử lý file JSON (FAQ)
-    get_web_documents,  # Xử lý dữ liệu từ web
 )
@@ -29,13 +29,9 @@ def get_vectorstore():
     FAQ_splits = get_json_splits_only(FAQ_path)
     all_splits += FAQ_splits
-    print('Crawing from https://nct.neu.edu.vn/')
-    website_content = get_web_documents(base_url='https://nct.neu.edu.vn/')
-    all_splits += website_content
-    print('Crawing from https://neu.edu.vn/')
-    website_content = get_web_documents(base_url='https://neu.edu.vn/')
-    all_splits += website_content
     # Lưu vào vectorstore với nhúng từ Google GenAI
     # embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")

     list_docx_files,  # Lấy danh sách file .docx
     get_splits,  # Xử lý file docx thành splits
     get_json_splits_only,  # Xử lý file JSON (FAQ)
+    scrape_website,  # Xử lý dữ liệu từ web
 )
     FAQ_splits = get_json_splits_only(FAQ_path)
     all_splits += FAQ_splits
+    base_urls = ['https://nct.neu.edu.vn/', 'https://fsf.neu.edu.vn/', 'https://mfe.neu.edu.vn/', 'https://mis.neu.edu.vn/', 'https://fda.neu.edu.vn/', 'https://khoathongke.neu.edu.vn/', 'https://fit.neu.edu.vn/']
+    website_contents = scrape_website(base_urls='base_urls')
+    all_splits += website_contents
     # Lưu vào vectorstore với nhúng từ Google GenAI
     # embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")