--- title: README emoji: 🐨 colorFrom: gray colorTo: pink sdk: static pinned: false --- # 📦 ViSoLex Toolkit — Vietnamese Text Normalization & Processing **ViSoLex** là một toolkit mạnh mẽ dành cho **chuẩn hóa và xử lý văn bản tiếng Việt**, được thiết kế tối ưu cho môi trường **NLP** và dễ dàng cài đặt qua **PyPI**. Các tài nguyên (datasets, models) được lưu trữ và quản lý trực tiếp trên [Hugging Face Hub](https://huggingface.co/visolex). --- ## 🚀 Tính năng chính ### 1. 🔧 **Basic Normalizer** — Chuẩn hóa văn bản cơ bản * **Case folding**: chuyển toàn bộ văn bản về lowercase/uppercase/capitalize. * **Tone normalization**: chuẩn hóa dấu thanh tiếng Việt. * **Basic preprocessing**: loại bỏ khoảng trắng thừa, ký tự đặc biệt, định dạng câu. ### 2. 😀 **Emoji Handler** — Xử lý emoji * **Detect emojis**: phát hiện emoji trong văn bản. * **Split emoji text**: tách emoji ra khỏi câu. * **Remove emojis**: loại bỏ toàn bộ emoji. ### 3. 📊 **Resource Management** — Quản lý dữ liệu * `list_datasets()` — Liệt kê datasets có sẵn. * `load_dataset()` — Tải dataset từ Hugging Face. * `get_dataset_info()` — Xem thông tin chi tiết dataset. ### 4. 🧠 **Task Models** — Mô hình xử lý tác vụ * **SpamReviewDetection** — Phát hiện spam. * **HateSpeechDetection** — Phát hiện hate speech. * **EmotionRecognition** — Nhận diện cảm xúc. * **AspectSentimentAnalysis** — Phân tích sentiment theo từng khía cạnh. ### 5. 🧪 **Advanced Usage** — Kết hợp & Tùy chỉnh * Tạo **multi-step pipelines** cho chuẩn hóa và phân tích. * Tùy chỉnh từng bước xử lý theo nhu cầu. ### 6. ✏ **Lexical Normalization** — Chuẩn hóa văn bản mạng xã hội * `detect_nsw()` — Phát hiện từ phi chuẩn (non-standard words). * `normalize_sentence()` — Chuẩn hóa câu chứa từ phi chuẩn. --- ## 📥 Cài đặt ```bash pip install visolex ```