Spaces:
Sleeping
Sleeping
Update file_loader.py
Browse files- file_loader.py +6 -0
file_loader.py
CHANGED
|
@@ -9,7 +9,10 @@ from helpers import (
|
|
| 9 |
get_splits, # Xử lý file docx thành splits
|
| 10 |
get_json_splits_only, # Xử lý file JSON (FAQ)
|
| 11 |
get_urls_splits, # Xử lý dữ liệu từ web
|
|
|
|
| 12 |
)
|
|
|
|
|
|
|
| 13 |
def get_vectorstore():
|
| 14 |
### Xử lý tất cả các tài liệu và nhét vào database
|
| 15 |
folder_path = "syllabus_nct_word_format/"
|
|
@@ -25,6 +28,9 @@ def get_vectorstore():
|
|
| 25 |
FAQ_path = "syllabus_nct_word_format/FAQ.json"
|
| 26 |
FAQ_splits = get_json_splits_only(FAQ_path)
|
| 27 |
all_splits += FAQ_splits
|
|
|
|
|
|
|
|
|
|
| 28 |
|
| 29 |
# Lưu vào vectorstore với nhúng từ Google GenAI
|
| 30 |
embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")
|
|
|
|
| 9 |
get_splits, # Xử lý file docx thành splits
|
| 10 |
get_json_splits_only, # Xử lý file JSON (FAQ)
|
| 11 |
get_urls_splits, # Xử lý dữ liệu từ web
|
| 12 |
+
get_web_documents,
|
| 13 |
)
|
| 14 |
+
|
| 15 |
+
|
| 16 |
def get_vectorstore():
|
| 17 |
### Xử lý tất cả các tài liệu và nhét vào database
|
| 18 |
folder_path = "syllabus_nct_word_format/"
|
|
|
|
| 28 |
FAQ_path = "syllabus_nct_word_format/FAQ.json"
|
| 29 |
FAQ_splits = get_json_splits_only(FAQ_path)
|
| 30 |
all_splits += FAQ_splits
|
| 31 |
+
|
| 32 |
+
website_content = get_web_documents(base_url='https://nct.neu.edu.vn/')
|
| 33 |
+
all_splits += website_content
|
| 34 |
|
| 35 |
# Lưu vào vectorstore với nhúng từ Google GenAI
|
| 36 |
embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")
|