HunminVL 32B v0.1

HunminVL 32B v0.1은 Qwen2.5-VL-32B-Instruct를 기반으로 한 한국어 전용 Vision-Language Instruction 모델입니다.
VL 데이터로 별도 학습 없이, **lm_head 레벨에서 중국어, 일본어, 러시아어에 토큰을 마스킹하여 Language Confusion을 억제하고 한국어 생성 능력을 보존하는 것을 목표로 합니다.

🔧 주요 변경 사항

추가적인 Finetuning 없음: 추가적인 VL 데이터 학습 없이 기존 Qwen2.5-VL-32B-Instruct 사용
Language Confusion 완화:
- lm_head에서 중국어, 일본어, 러시아어 토큰 weight을 masking
- 학습 없이 추론 시 자동 적용

📊 Evaluation: Korean VLM Benchmarks

한국어 전용 VLM 평가 벤치마크를 사용해 Language Confusion을 측정하였습니다.
결과는 다음과 같이 기존의 성능을 유지하면서도 Confusion이 유의미하게 줄어듦을 보여줍니다:

Model Variant	K-MMBench	K-SEED	K-MMStar	K-DTCBench	K-LLAVA-W
baseline	80.39% 0.12% (5 / 4329)	77.08% 0%	52.60% 0.60% (9 / 1500)	76.67% 0%	89.08% 15.00% (9 / 60)
weight_masking	80.39% 0.02% (1 / 4329)	77.08% 0%	52.53% 0.00% (0 / 1500)	76.67% 0%	87.70% 1.67% (1 / 60)

상단: Performance
하단: Language Confusion 비율 (중국어 토큰이 등장한 비율)

💡 Intended Use

한국어 기반 멀티모달 어시스턴트
한국어 VQA 및 이미지 설명
한국어 instruction-following with image

⚠️ Limitations

학습 데이터 없이 inference-only masking이므로 극한 상황에서는 제한적
중국어 강제 생성은 비정상적으로 억제될 수 있음

💻 예시 사용법

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor

model = Qwen2_5_VLForConditionalGeneration.from_pretrained("mncai/hunminVL_32B_v0.1_20250724", device_map="auto")
processor = AutoProcessor.from_pretrained("mncai/hunminVL_32B_v0.1_20250724")

# 입력 예시: vision + text