๐คฌ hongssi/final_abuse_manual_model
hongssi/final_abuse_manual_model
์ ํ๊ตญ์ด ๋ฌธ์ฅ์์ ์์ค, ํ์ค ํํ, ๋ชจ์์ฑ ๋ฐ์ธ ๋ฑ์ ํ์งํ๋ ๋ค์ค ๋ ์ด๋ธ ๋ถ๋ฅ ๋ชจ๋ธ์
๋๋ค.
Smilegate์ UNSMILE ๋ฐ์ดํฐ์
์ ๊ธฐ๋ฐ์ผ๋ก, beomi/KcELECTRA-small
๋ชจ๋ธ์ ํ์ธํ๋ํ์ฌ ์ ์๋์์ต๋๋ค.
๐ง ๋ชจ๋ธ ๊ฐ์
- โ
Base Model:
beomi/KcELECTRA-small
- โ Task: Multi-label classification (sigmoid-based)
- โ Output: ๊ฐ ๋ผ๋ฒจ๋ณ [0.0 ~ 1.0] ํ๋ฅ ๊ฐ
- โ ๋ชฉ์ : Call center, ์ปค๋ฎค๋ํฐ, ์ฑ๋ด ๋ฑ์์์ ์์ค/๋ชจ์ ํ์ง ๋ฐ ๋ถ๋ฅ
๐ท๏ธ ํด๋์ค ๋ผ๋ฒจ (11๊ฐ)
[
"์ฌ์ฑ/๊ฐ์กฑ", "๋จ์ฑ", "์ฑ์์์", "์ธ์ข
/๊ตญ์ ", "์ฐ๋ น",
"์ง์ญ", "์ข
๊ต", "๊ธฐํ ํ์ค", "์
ํ/์์ค", "clean", "๊ฐ์ธ์ง์นญ"
]
ํ ๋ฌธ์ฅ์ด ์ฌ๋ฌ ๋ผ๋ฒจ์ ํด๋น๋ ์ ์์ต๋๋ค (multi-label classification)
๐งพ ํ์ต ์ ๋ณด
ํญ๋ชฉ | ๊ฐ |
---|---|
๋ฐ์ดํฐ์ | UNSMILE |
์ํ ์ | 95,000+ ๋ฌธ์ฅ |
๋ชจ๋ธ ๊ตฌ์กฐ | ELECTRA-small, classification head (11 output nodes) |
ํ ํฐํ | KcELECTRA tokenizer (uncased, 128 tokens max) |
์ ๋ ฅ ๊ธธ์ด | max_length=128 |
์์ค ํจ์ | Binary Cross Entropy (BCEWithLogitsLoss) |
์ตํฐ๋ง์ด์ | AdamW |
๋ฌ๋๋ ์ดํธ | 5e-5 |
๋ฐฐ์น์ฌ์ด์ฆ | 32 |
ํ์ต ์ํญ | 5 epochs |
ํ๊ฐ ์งํ | Macro F1 Score, Binary Accuracy |
๐ ๋ชจ๋ธ ์ฑ๋ฅ
ํด๋์ค | F1 ์ ์ |
---|---|
์ ํ/์์ค | 0.87 |
์ฌ์ฑ/๊ฐ์กฑ | 0.84 |
์ฑ์์์ | 0.78 |
clean | 0.91 |
๊ธฐํ ํ๊ท | Macro F1: 0.83 |
ํ๊ฐ ๊ธฐ์ค์ UNSMILE validation set ๊ธฐ๋ฐ์ด๋ฉฐ, ์ค์ฌ์ฉ ํ๊ฒฝ์์ ์ ์ฒ๋ฆฌ ๋ฐ ์ฌ์ ํ์ง ์์คํ ๊ณผ ํจ๊ป ์ฌ์ฉํ ์ ์์ต๋๋ค.
๐ฅ ์ฌ์ฉ๋ฒ ์์
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
labels = [
"์ฌ์ฑ/๊ฐ์กฑ", "๋จ์ฑ", "์ฑ์์์", "์ธ์ข
/๊ตญ์ ", "์ฐ๋ น",
"์ง์ญ", "์ข
๊ต", "๊ธฐํ ํ์ค", "์
ํ/์์ค", "clean", "๊ฐ์ธ์ง์นญ"
]
model_id = "hongssi/final_abuse_manual_model"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSequenceClassification.from_pretrained(model_id)
model.eval()
text = "์ผ ๋๋ ์ฌ๋๋ ์๋๋ค"
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=128)
with torch.no_grad():
outputs = model(**inputs)
probs = torch.sigmoid(outputs.logits)[0]
results = {label: float(prob) for label, prob in zip(labels, probs)}
print(results)
๐ง ํตํฉ ํ์ฉ: ์์ค ์ฌ์ ํ์ง์ ํจ๊ป
๋ณธ ๋ชจ๋ธ์ Aho-Corasick ๊ธฐ๋ฐ์ ์์ค ์ฌ์ ํ์ง์ ํจ๊ป ์ฌ์ฉํ ๊ฒฝ์ฐ, ๋ชจ๋ธ์ด ํ์งํ์ง ๋ชปํ ๋ช ์์ ๋น์์ด๋ ๋ณด์ํ ์ ์์ด ์ค์ฌ์ฉ์์ ๋์ฑ ์์ ์ ์ธ ์ด์์ด ๊ฐ๋ฅํฉ๋๋ค.
โ ๋ผ์ด์ ์ค
- ๋ณธ ๋ชจ๋ธ์ MIT ๋ผ์ด์ ์ค๋ฅผ ๋ฐ๋ฆ ๋๋ค.
- ํ์ต ๋ฐ์ดํฐ์ธ UNSMILE์ Smilegate์์ ๊ณต๊ฐํ ์ ์๋ฌผ๋ก, ํด๋น ๋ผ์ด์ ์ค๋ฅผ ๋ฐ๋์ ํ์ธํ์ธ์.
๐โโ๏ธ ์์ฑ์
- ๐ค hongssi (ํํํ)
- โ๏ธ [email protected]
- ๐ ๊ด๋ จ ํ๋ก์ ํธ: FastAPI ๊ธฐ๋ฐ ์์ค ํ์ง API ์๋ฒ
---
- Downloads last month
- 18
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
๐
Ask for provider support