quoc-khanh commited on
Commit
4ae410f
·
verified ·
1 Parent(s): 983f039

Update file_loader.py

Browse files
Files changed (1) hide show
  1. file_loader.py +4 -8
file_loader.py CHANGED
@@ -9,7 +9,7 @@ from helpers import (
9
  list_docx_files, # Lấy danh sách file .docx
10
  get_splits, # Xử lý file docx thành splits
11
  get_json_splits_only, # Xử lý file JSON (FAQ)
12
- get_web_documents, # Xử lý dữ liệu từ web
13
  )
14
 
15
 
@@ -29,13 +29,9 @@ def get_vectorstore():
29
  FAQ_splits = get_json_splits_only(FAQ_path)
30
  all_splits += FAQ_splits
31
 
32
- print('Crawing from https://nct.neu.edu.vn/')
33
- website_content = get_web_documents(base_url='https://nct.neu.edu.vn/')
34
- all_splits += website_content
35
-
36
- print('Crawing from https://neu.edu.vn/')
37
- website_content = get_web_documents(base_url='https://neu.edu.vn/')
38
- all_splits += website_content
39
 
40
  # Lưu vào vectorstore với nhúng từ Google GenAI
41
  # embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")
 
9
  list_docx_files, # Lấy danh sách file .docx
10
  get_splits, # Xử lý file docx thành splits
11
  get_json_splits_only, # Xử lý file JSON (FAQ)
12
+ scrape_website, # Xử lý dữ liệu từ web
13
  )
14
 
15
 
 
29
  FAQ_splits = get_json_splits_only(FAQ_path)
30
  all_splits += FAQ_splits
31
 
32
+ base_urls = ['https://nct.neu.edu.vn/', 'https://fsf.neu.edu.vn/', 'https://mfe.neu.edu.vn/', 'https://mis.neu.edu.vn/', 'https://fda.neu.edu.vn/', 'https://khoathongke.neu.edu.vn/', 'https://fit.neu.edu.vn/']
33
+ website_contents = scrape_website(base_urls='base_urls')
34
+ all_splits += website_contents
 
 
 
 
35
 
36
  # Lưu vào vectorstore với nhúng từ Google GenAI
37
  # embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")