Spaces:

quoc-khanh
/

chatbot4nct_test1

Sleeping

quoc-khanh commited on Feb 25

Commit

a29a886

verified ·

1 Parent(s): af19d03

Update helpers.py

Files changed (1) hide show

helpers.py CHANGED Viewed

@@ -21,30 +21,39 @@ if "GOOGLE_API_KEY" not in os.environ:
     os.environ["GOOGLE_API_KEY"] = "AIzaSyDJ4vIKuIBIPNHATLxnoHlagXWbsAz-vRs"
 key = "AIzaSyDJ4vIKuIBIPNHATLxnoHlagXWbsAz-vRs"
-async def get_urls_splits(url='https://nct.neu.edu.vn/', char='https://nct.neu.edu.vn/'):
-    reqs = requests.get(url)
-    soup = BeautifulSoup(reqs.text, 'html.parser')
-    urls = []
-    for link in soup.find_all('a', href=True):  # Chỉ lấy thẻ có 'href'
         href = link.get('href')
-        if href.startswith(char):
-            urls.append(href)
-    return urls
-    # docs = []
-    # for page_url in url:
-    #     loader = WebBaseLoader(web_paths=[page_url])
-    #     async for doc in loader.alazy_load():
-    #         docs.append(doc)
-    #     assert len(docs) == 1
-    #     # doc = docs[0]
-    # return docs
 # Ví dụ sử dụng
-# nct_urls = get_nct_urls('https://nct.neu.edu.vn/')
-# print(nct_urls)
 def log_message(messages, filename="chat_log.txt"):
     """Ghi lịch sử tin nhắn vào file log"""

     os.environ["GOOGLE_API_KEY"] = "AIzaSyDJ4vIKuIBIPNHATLxnoHlagXWbsAz-vRs"
 key = "AIzaSyDJ4vIKuIBIPNHATLxnoHlagXWbsAz-vRs"
+def get_web_documents(base_url='https://nct.neu.edu.vn/'):
+    """Lấy tất cả URL từ trang web và trích xuất nội dung văn bản"""
+    # Bước 1: Lấy danh sách URL
+    response = requests.get(base_url)
+    if response.status_code != 200:
+        print(f"Không thể truy cập {base_url}")
+        return []
+    soup = BeautifulSoup(response.text, 'html.parser')
+    urls = set()  # Dùng set để tránh trùng lặp
+    for link in soup.find_all('a', href=True):
         href = link.get('href')
+        if href.startswith(base_url):  # Chỉ lấy URL nội bộ
+            urls.add(href)
+    print(f"Tìm thấy {len(urls)} URL hợp lệ.")
+    # Bước 2: Tải nội dung từ các URL
+    docs = []
+    for page_url in urls:
+        try:
+            loader = WebBaseLoader(web_paths=[page_url])
+            docs.extend(loader.load())  # Đồng bộ, không cần async
+        except Exception as e:
+            print(f"Lỗi khi tải {page_url}: {e}")
+    print(f"Tải thành công {len(docs)} trang.")
+    return docs
 # Ví dụ sử dụng
+documents = get_web_documents("https://nct.neu.edu.vn/")
 def log_message(messages, filename="chat_log.txt"):
     """Ghi lịch sử tin nhắn vào file log"""