README / README.md
AnnyNguyen's picture
Update README.md
3b185c6 verified
---
title: README
emoji: 🐨
colorFrom: gray
colorTo: pink
sdk: static
pinned: false
---
# 📦 ViSoLex Toolkit — Vietnamese Text Normalization & Processing
**ViSoLex** là một toolkit mạnh mẽ dành cho **chuẩn hóa và xử lý văn bản tiếng Việt**, được thiết kế tối ưu cho môi trường **NLP** và dễ dàng cài đặt qua **PyPI**.
Các tài nguyên (datasets, models) được lưu trữ và quản lý trực tiếp trên [Hugging Face Hub](https://huggingface.co/visolex).
---
## 🚀 Tính năng chính
### 1. 🔧 **Basic Normalizer** — Chuẩn hóa văn bản cơ bản
* **Case folding**: chuyển toàn bộ văn bản về lowercase/uppercase/capitalize.
* **Tone normalization**: chuẩn hóa dấu thanh tiếng Việt.
* **Basic preprocessing**: loại bỏ khoảng trắng thừa, ký tự đặc biệt, định dạng câu.
### 2. 😀 **Emoji Handler** — Xử lý emoji
* **Detect emojis**: phát hiện emoji trong văn bản.
* **Split emoji text**: tách emoji ra khỏi câu.
* **Remove emojis**: loại bỏ toàn bộ emoji.
### 3. 📊 **Resource Management** — Quản lý dữ liệu
* `list_datasets()` — Liệt kê datasets có sẵn.
* `load_dataset()` — Tải dataset từ Hugging Face.
* `get_dataset_info()` — Xem thông tin chi tiết dataset.
### 4. 🧠 **Task Models** — Mô hình xử lý tác vụ
* **SpamReviewDetection** — Phát hiện spam.
* **HateSpeechDetection** — Phát hiện hate speech.
* **EmotionRecognition** — Nhận diện cảm xúc.
* **AspectSentimentAnalysis** — Phân tích sentiment theo từng khía cạnh.
### 5. 🧪 **Advanced Usage** — Kết hợp & Tùy chỉnh
* Tạo **multi-step pipelines** cho chuẩn hóa và phân tích.
* Tùy chỉnh từng bước xử lý theo nhu cầu.
### 6. ✏ **Lexical Normalization** — Chuẩn hóa văn bản mạng xã hội
* `detect_nsw()` — Phát hiện từ phi chuẩn (non-standard words).
* `normalize_sentence()` — Chuẩn hóa câu chứa từ phi chuẩn.
---
## 📥 Cài đặt
```bash
pip install visolex
```