HunminVL 32B v0.1
HunminVL 32B v0.1์ Qwen2.5-VL-32B-Instruct๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ํ๊ตญ์ด ์ ์ฉ Vision-Language Instruction ๋ชจ๋ธ์
๋๋ค.
VL ๋ฐ์ดํฐ๋ก ๋ณ๋ ํ์ต ์์ด, **lm_head
๋ ๋ฒจ์์ ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ๋ฌ์์์ด์ ํ ํฐ์ ๋ง์คํนํ์ฌ Language Confusion์ ์ต์ ํ๊ณ ํ๊ตญ์ด ์์ฑ ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๐ง ์ฃผ์ ๋ณ๊ฒฝ ์ฌํญ
- ์ถ๊ฐ์ ์ธ Finetuning ์์: ์ถ๊ฐ์ ์ธ VL ๋ฐ์ดํฐ ํ์ต ์์ด ๊ธฐ์กด Qwen2.5-VL-32B-Instruct ์ฌ์ฉ
- Language Confusion ์ํ:
- lm_head์์ ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ๋ฌ์์์ด ํ ํฐ weight์ masking
- ํ์ต ์์ด ์ถ๋ก ์ ์๋ ์ ์ฉ
๐ Evaluation: Korean VLM Benchmarks
ํ๊ตญ์ด ์ ์ฉ VLM ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํด Language Confusion์ ์ธก์ ํ์์ต๋๋ค.
๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ธฐ์กด์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ Confusion์ด ์ ์๋ฏธํ๊ฒ ์ค์ด๋ฆ์ ๋ณด์ฌ์ค๋๋ค:
Model Variant | K-MMBench | K-SEED | K-MMStar | K-DTCBench | K-LLAVA-W |
---|---|---|---|---|---|
baseline | 80.39% 0.12% (5 / 4329) |
77.08% 0% |
52.60% 0.60% (9 / 1500) |
76.67% 0% |
89.08% 15.00% (9 / 60) |
weight_masking | 80.39% 0.02% (1 / 4329) |
77.08% 0% |
52.53% 0.00% (0 / 1500) |
76.67% 0% |
87.70% 1.67% (1 / 60) |
- ์๋จ: Performance
- ํ๋จ: Language Confusion ๋น์จ (์ค๊ตญ์ด ํ ํฐ์ด ๋ฑ์ฅํ ๋น์จ)
๐ก Intended Use
- ํ๊ตญ์ด ๊ธฐ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ด์์คํดํธ
- ํ๊ตญ์ด VQA ๋ฐ ์ด๋ฏธ์ง ์ค๋ช
- ํ๊ตญ์ด instruction-following with image
โ ๏ธ Limitations
- ํ์ต ๋ฐ์ดํฐ ์์ด inference-only masking์ด๋ฏ๋ก ๊ทนํ ์ํฉ์์๋ ์ ํ์
- ์ค๊ตญ์ด ๊ฐ์ ์์ฑ์ ๋น์ ์์ ์ผ๋ก ์ต์ ๋ ์ ์์
๐ป ์์ ์ฌ์ฉ๋ฒ
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("mncai/hunminVL_32B_v0.1_20250724", device_map="auto")
processor = AutoProcessor.from_pretrained("mncai/hunminVL_32B_v0.1_20250724")
# ์
๋ ฅ ์์: vision + text
- Downloads last month
- 15
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
๐
Ask for provider support