|
--- |
|
title: README |
|
emoji: 🐨 |
|
colorFrom: gray |
|
colorTo: pink |
|
sdk: static |
|
pinned: false |
|
--- |
|
|
|
# 📦 ViSoLex Toolkit — Vietnamese Text Normalization & Processing |
|
|
|
**ViSoLex** là một toolkit mạnh mẽ dành cho **chuẩn hóa và xử lý văn bản tiếng Việt**, được thiết kế tối ưu cho môi trường **NLP** và dễ dàng cài đặt qua **PyPI**. |
|
Các tài nguyên (datasets, models) được lưu trữ và quản lý trực tiếp trên [Hugging Face Hub](https://huggingface.co/visolex). |
|
|
|
--- |
|
|
|
## 🚀 Tính năng chính |
|
|
|
### 1. 🔧 **Basic Normalizer** — Chuẩn hóa văn bản cơ bản |
|
|
|
* **Case folding**: chuyển toàn bộ văn bản về lowercase/uppercase/capitalize. |
|
* **Tone normalization**: chuẩn hóa dấu thanh tiếng Việt. |
|
* **Basic preprocessing**: loại bỏ khoảng trắng thừa, ký tự đặc biệt, định dạng câu. |
|
|
|
### 2. 😀 **Emoji Handler** — Xử lý emoji |
|
|
|
* **Detect emojis**: phát hiện emoji trong văn bản. |
|
* **Split emoji text**: tách emoji ra khỏi câu. |
|
* **Remove emojis**: loại bỏ toàn bộ emoji. |
|
|
|
### 3. 📊 **Resource Management** — Quản lý dữ liệu |
|
|
|
* `list_datasets()` — Liệt kê datasets có sẵn. |
|
* `load_dataset()` — Tải dataset từ Hugging Face. |
|
* `get_dataset_info()` — Xem thông tin chi tiết dataset. |
|
|
|
### 4. 🧠 **Task Models** — Mô hình xử lý tác vụ |
|
|
|
* **SpamReviewDetection** — Phát hiện spam. |
|
* **HateSpeechDetection** — Phát hiện hate speech. |
|
* **EmotionRecognition** — Nhận diện cảm xúc. |
|
* **AspectSentimentAnalysis** — Phân tích sentiment theo từng khía cạnh. |
|
|
|
### 5. 🧪 **Advanced Usage** — Kết hợp & Tùy chỉnh |
|
|
|
* Tạo **multi-step pipelines** cho chuẩn hóa và phân tích. |
|
* Tùy chỉnh từng bước xử lý theo nhu cầu. |
|
|
|
### 6. ✏ **Lexical Normalization** — Chuẩn hóa văn bản mạng xã hội |
|
|
|
* `detect_nsw()` — Phát hiện từ phi chuẩn (non-standard words). |
|
* `normalize_sentence()` — Chuẩn hóa câu chứa từ phi chuẩn. |
|
|
|
--- |
|
|
|
## 📥 Cài đặt |
|
|
|
```bash |
|
pip install visolex |
|
``` |
|
|