RL - a leondawn666 Collection

leondawn666 's Collections

Test Time Scaling

Vision

LLM

RL

RL

updated 10 days ago

Towards General-Purpose Model-Free Reinforcement Learning

Paper • 2501.16142 • Published Jan 27 • 30
DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18 • 128
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Paper • 2504.13837 • Published Apr 18 • 127
Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published Apr 21 • 85
ToolRL: Reward is All Tool Learning Needs

Paper • 2504.13958 • Published Apr 16 • 44
TTRL: Test-Time Reinforcement Learning

Paper • 2504.16084 • Published Apr 22 • 112
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

Paper • 2504.16656 • Published Apr 23 • 57
Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Paper • 2504.20571 • Published Apr 29 • 93
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

Paper • 2504.10481 • Published Apr 14 • 84
Rethinking Reflection in Pre-Training

Paper • 2504.04022 • Published Apr 5 • 79
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Paper • 2504.10479 • Published Apr 14 • 268
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Paper • 2504.01990 • Published Mar 31 • 285
Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

Paper • 2503.24290 • Published Mar 31 • 62
Distilling LLM Agent into Small Models with Retrieval and Code Tools

Paper • 2505.17612 • Published 14 days ago • 76
ARM: Adaptive Reasoning Model

Paper • 2505.20258 • Published 10 days ago • 43