# utils.py import re from typing import List def tokenize_vi_simple(text: str) -> List[str]: """ Tokenize tiếng Việt một cách đơn giản cho các tác vụ như BM25. Chuyển thành chữ thường, loại bỏ dấu câu cơ bản và tách theo khoảng trắng. """ if not isinstance(text, str): return [] text = text.lower() # Loại bỏ các ký tự không phải chữ, số, hoặc khoảng trắng text = re.sub(r'[^\w\s]', '', text) return text.split()