MLLM Reasoning, Rewarding, and Understanding - a shuoxing Collection

shuoxing 's Collections

MLLM Reasoning, Rewarding, and Understanding

MLLM Reasoning, Rewarding, and Understanding

updated 4 days ago

Papers on the reasoning, rewarding, and understanding of the MLLMs and LLMs

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

Paper • 2505.24726 • Published May 30 • 262
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

Paper • 2506.02096 • Published Jun 2 • 51
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Paper • 2506.02397 • Published Jun 3 • 36
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Paper • 2505.24864 • Published May 30 • 133
Time Blindness: Why Video-Language Models Can't See What Humans Can?

Paper • 2505.24867 • Published May 30 • 79
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

Paper • 2505.23359 • Published May 29 • 40
Fractured Chain-of-Thought Reasoning

Paper • 2505.12992 • Published May 19 • 22
MiMo-VL Technical Report

Paper • 2506.03569 • Published Jun 4 • 75
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

Paper • 2506.05349 • Published Jun 5 • 24
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

Paper • 2506.05331 • Published Jun 5 • 13
How much do language models memorize?

Paper • 2505.24832 • Published May 30 • 3
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning

Paper • 2505.15966 • Published May 21 • 53
GRIT: Teaching MLLMs to Think with Images

Paper • 2505.15879 • Published May 21 • 12
InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning

Paper • 2505.18291 • Published May 23 • 2
VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

Paper • 2505.16192 • Published May 22 • 12
Reward Reasoning Model

Paper • 2505.14674 • Published May 20 • 36
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

Paper • 2507.13348 • Published 8 days ago • 68
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities

Paper • 2507.13158 • Published 8 days ago • 22