Papers + RL/Reasoning - a sugatoray Collection

sugatoray 's Collections

Papers + RL/Reasoning

Marimo

RLMs (Reasoning Language Models)

Books And Notes

Reasoning Datasets

SmolAgents Tools (Spaces)

Bookmark::Models

LLMs

AV LLMs

LLM Training Datasets

Papers

Leaderboards 🔥

Papers-Fundamentals

TFM: TimeSeries Foundation Models

Papers-Benchmarks

LLMs-EmbeddingModels

LLM + Datasets : Finance

Papers + RL/Reasoning

updated 4 days ago

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18 • 128
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

Paper • 2504.05118 • Published Apr 7 • 25
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

Paper • 2504.08600 • Published Apr 11 • 29
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

Paper • 2504.11343 • Published Apr 15 • 18
OTC: Optimal Tool Calls via Reinforcement Learning

Paper • 2504.14870 • Published Apr 21 • 33
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models

Paper • 2504.15716 • Published Apr 22 • 10
WebThinker: Empowering Large Reasoning Models with Deep Research Capability

Paper • 2504.21776 • Published Apr 30 • 57
DeepCritic: Deliberate Critique with Large Language Models

Paper • 2505.00662 • Published May 1 • 53
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

Paper • 2505.07608 • Published May 12 • 79
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

Paper • 2505.09343 • Published about 1 month ago • 65
CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models

Paper • 2505.12504 • Published 26 days ago • 23
AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning

Paper • 2505.11896 • Published 28 days ago • 57
Reward Reasoning Model

Paper • 2505.14674 • Published 24 days ago • 35
One-RL-to-See-Them-All/Orsta-Data-47k

Updated 10 days ago • 511 • 10
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published 21 days ago • 59
RL with KL penalties is better viewed as Bayesian inference

Paper • 2205.11275 • Published May 23, 2022 • 1
Asymptotics of Language Model Alignment

Paper • 2404.01730 • Published Apr 2, 2024 • 1
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

Paper • 2505.19000 • Published 20 days ago • 42
Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

Paper • 2505.15778 • Published 23 days ago • 17
ZeroGUI: Automating Online GUI Learning at Zero Human Cost

Paper • 2505.23762 • Published 15 days ago • 45
Table-R1: Inference-Time Scaling for Table Reasoning

Paper • 2505.23621 • Published 15 days ago • 91
Reinforcement Pre-Training

Paper • 2506.08007 • Published 4 days ago • 195