Spaces:

visolex
/

README

Running

App Files Files Community

README / README.md

AnnyNguyen

Update README.md

3b185c6 verified about 1 month ago

preview code

raw

history blame contribute delete

2.11 kB

	---
	title: README
	emoji: 🐨
	colorFrom: gray
	colorTo: pink
	sdk: static
	pinned: false
	---

	# 📦 ViSoLex Toolkit — Vietnamese Text Normalization & Processing

	ViSoLex là một toolkit mạnh mẽ dành cho chuẩn hóa và xử lý văn bản tiếng Việt, được thiết kế tối ưu cho môi trường NLP và dễ dàng cài đặt qua PyPI.
	Các tài nguyên (datasets, models) được lưu trữ và quản lý trực tiếp trên [Hugging Face Hub](https://huggingface.co/visolex).

	---

	## 🚀 Tính năng chính

	### 1. 🔧 Basic Normalizer — Chuẩn hóa văn bản cơ bản

	* Case folding: chuyển toàn bộ văn bản về lowercase/uppercase/capitalize.
	* Tone normalization: chuẩn hóa dấu thanh tiếng Việt.
	* Basic preprocessing: loại bỏ khoảng trắng thừa, ký tự đặc biệt, định dạng câu.

	### 2. 😀 Emoji Handler — Xử lý emoji

	* Detect emojis: phát hiện emoji trong văn bản.
	* Split emoji text: tách emoji ra khỏi câu.
	* Remove emojis: loại bỏ toàn bộ emoji.

	### 3. 📊 Resource Management — Quản lý dữ liệu

	* `list_datasets()` — Liệt kê datasets có sẵn.
	* `load_dataset()` — Tải dataset từ Hugging Face.
	* `get_dataset_info()` — Xem thông tin chi tiết dataset.

	### 4. 🧠 Task Models — Mô hình xử lý tác vụ

	* SpamReviewDetection — Phát hiện spam.
	* HateSpeechDetection — Phát hiện hate speech.
	* EmotionRecognition — Nhận diện cảm xúc.
	* AspectSentimentAnalysis — Phân tích sentiment theo từng khía cạnh.

	### 5. 🧪 Advanced Usage — Kết hợp & Tùy chỉnh

	* Tạo multi-step pipelines cho chuẩn hóa và phân tích.
	* Tùy chỉnh từng bước xử lý theo nhu cầu.

	### 6. ✏ Lexical Normalization — Chuẩn hóa văn bản mạng xã hội

	* `detect_nsw()` — Phát hiện từ phi chuẩn (non-standard words).
	* `normalize_sentence()` — Chuẩn hóa câu chứa từ phi chuẩn.

	---

	## 📥 Cài đặt

	```bash
	pip install visolex
	```