metadata
datasets:
- lmms-lab/RefCOCOg
language:
- en
base_model:
- Qwen/Qwen2.5-VL-3B-Instruct
pipeline_tag: zero-shot-object-detection
LaonA2 VL 3B
LaonA2 VL 3B๋ Qwen 2.5 VL 3B ๊ธฐ๋ฐ์ ํฅ์๋ ๋น์ -์ธ์ด ๋ชจ๋ธ์ ๋๋ค. VLM-R1 ๊ฐํํ์ต์ ํตํด REC(Referring Expression Comprehension) ์ฑ๋ฅ์ด ๊ฐ์ ๋์์ต๋๋ค.
cite: arxiv.org/abs/2504.07615