LLM-RL - a jzwong Collection

jzwong 's Collections

MLLM

LLM

LLM-RL

Novel

SYS

Survey

LLM-RL

updated 9 days ago

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper • 2501.12599 • Published Jan 22 • 118
DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18 • 128
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Paper • 2503.16219 • Published Mar 20 • 51
Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

Paper • 2503.24290 • Published Mar 31 • 62
Inference-Time Scaling for Generalist Reward Modeling

Paper • 2504.02495 • Published Apr 3 • 55
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

Paper • 2504.05118 • Published Apr 7 • 25
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

Paper • 2504.11343 • Published Apr 15 • 18
Tina: Tiny Reasoning Models via LoRA

Paper • 2504.15777 • Published Apr 22 • 55
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Paper • 2504.13837 • Published Apr 18 • 128
TTRL: Test-Time Reinforcement Learning

Paper • 2504.16084 • Published Apr 22 • 115
Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published Apr 21 • 85
Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Paper • 2504.20571 • Published Apr 29 • 94
Llama-Nemotron: Efficient Reasoning Models

Paper • 2505.00949 • Published May 2 • 35
AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

Paper • 2505.08311 • Published May 13 • 16
AdaptThink: Reasoning Models Can Learn When to Think

Paper • 2505.13417 • Published 25 days ago • 78
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published 21 days ago • 59