Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning

Paper Title and Link

The model was presented in the paper Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning. You can also find the paper on arXiv: Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning (arXiv:2506.09736)

Paper Abstract

Vision-Matters is a simple visual perturbation framework that can be easily integrated into existing post-training pipelines including SFT, DPO, and GRPO. Our findings highlight the critical role of visual perturbation: better reasoning begins with better seeing.

🐙 GitHub Repo: YutingLi0606/Vision-Matters
💾 Dataset: Yuting6/vision-matters on Hugging Face

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Yuting6/Vision-Matters-Evaluation

Base model

Qwen/Qwen2.5-VL-7B-Instruct

Finetuned

(748)

this model

Datasets used to train Yuting6/Vision-Matters-Evaluation

Collection including Yuting6/Vision-Matters-Evaluation

Vision-Matters

Collection

13 items • Updated Jun 13 • 2