rl papers - a amongstars Collection

amongstars 's Collections

llms

rl papers

updated 4 days ago

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Paper • 2506.16141 • Published 10 days ago • 25