📌 모델 상세 정보

1. 🧾 개요

이 모델은 한국어 문장 내 유해 표현의 유무를 검출하기 위해 학습된 모델입니다.
binary classification을 수행하며, 유해 표현이 포함되었거나 일반적인 문장인지를 **판단(분류)**합니다.
AI-Task로는 text-classification에 해당합니다.
사용하는 데이터셋은 TTA-DQA/hate_sentence입니다.

클래스 구성:
- "0": no_hate
- "1": hate

2. 🧠 학습 정보

Base Model: KcElectra (a pre-trained Korean language model based on Electra)
Source: monologg/koelectra-base-v3-discriminator
Model Type: Casual Language Model
Pre-training (Korean): 약 20GB
Fine-tuning (Hate Dataset): 약 22.3MB (TTA-DQA/hate_sentence)
Learning Rate: 5e-6
Weight Decay: 0.01
Epochs: 20
Batch Size: 16
Data Loader Workers: 2
Tokenizer: BertWordPieceTokenizer
Model Size: 약 512MB

3. 🧩 요구사항

pytorch ~= 1.8.0
transformers ~= 4.0.0

4. 🚀 Quick Start

from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

model_name = "TTA-DQA/HateDetection_KoElectra_FineTuning"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
classifier = pipeline("text-classification", model=model, tokenizer=tokenizer)

sentences = ["오늘 점심 뭐 먹을까?", "이 나쁜 놈아."]
results = classifier(sentences)'

5.📚 Citation

이 모델은 초거대AI 학습용 데이터 품질검증 사업(2024년도 초거대AI 학습용 품질검증)에 의해서 구축되었습니다.

6. ⚠️ Bias, Risks, and Limitations

본 모델은 각 클래스의 데이터를 편향되게 학습하지는 않았으나,
언어적·문화적 특성에 의해 레이블에 대한 이견이 있을 수 있습니다.
유해 표현은 언어, 문화, 적용 분야, 개인적 견해에 따라 주관적인 부분이 존재하여,
결과에 대한 편향 또는 논란이 발생할 수 있습니다.

❗ 본 모델의 결과는 절대적인 유해 표현 기준이 아님을 유의해 주세요.

📈 Results

Task: binary classification (text-classification)
F1-score: 0.9881
Accuracy: 0.9881

Downloads last month: 6

Safetensors

Model size

113M params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for TTA-DQA/HateDetection_KoElectra_FineTuning

Base model

monologg/koelectra-base-v3-discriminator

Finetuned

(85)

this model