Spaces:
Sleeping
Sleeping
Update file_loader.py
Browse files- file_loader.py +4 -8
file_loader.py
CHANGED
@@ -9,7 +9,7 @@ from helpers import (
|
|
9 |
list_docx_files, # Lấy danh sách file .docx
|
10 |
get_splits, # Xử lý file docx thành splits
|
11 |
get_json_splits_only, # Xử lý file JSON (FAQ)
|
12 |
-
|
13 |
)
|
14 |
|
15 |
|
@@ -29,13 +29,9 @@ def get_vectorstore():
|
|
29 |
FAQ_splits = get_json_splits_only(FAQ_path)
|
30 |
all_splits += FAQ_splits
|
31 |
|
32 |
-
|
33 |
-
|
34 |
-
all_splits +=
|
35 |
-
|
36 |
-
print('Crawing from https://neu.edu.vn/')
|
37 |
-
website_content = get_web_documents(base_url='https://neu.edu.vn/')
|
38 |
-
all_splits += website_content
|
39 |
|
40 |
# Lưu vào vectorstore với nhúng từ Google GenAI
|
41 |
# embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")
|
|
|
9 |
list_docx_files, # Lấy danh sách file .docx
|
10 |
get_splits, # Xử lý file docx thành splits
|
11 |
get_json_splits_only, # Xử lý file JSON (FAQ)
|
12 |
+
scrape_website, # Xử lý dữ liệu từ web
|
13 |
)
|
14 |
|
15 |
|
|
|
29 |
FAQ_splits = get_json_splits_only(FAQ_path)
|
30 |
all_splits += FAQ_splits
|
31 |
|
32 |
+
base_urls = ['https://nct.neu.edu.vn/', 'https://fsf.neu.edu.vn/', 'https://mfe.neu.edu.vn/', 'https://mis.neu.edu.vn/', 'https://fda.neu.edu.vn/', 'https://khoathongke.neu.edu.vn/', 'https://fit.neu.edu.vn/']
|
33 |
+
website_contents = scrape_website(base_urls='base_urls')
|
34 |
+
all_splits += website_contents
|
|
|
|
|
|
|
|
|
35 |
|
36 |
# Lưu vào vectorstore với nhúng từ Google GenAI
|
37 |
# embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")
|