Reinforcement learning - a Testerpce Collection

Testerpce 's Collections

Graph

Search

Self correction

Information_retrieval

Speech

Agent

MoE

RAG

State space LLM

Partial layer training LLMs

Math

Dataset and Data processing

Video understanding

Reinforcement learning

Reinforcement learning

updated about 16 hours ago

Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

Paper • 2407.20798 • Published Jul 30, 2024 • 25
Offline Reinforcement Learning for LLM Multi-Step Reasoning

Paper • 2412.16145 • Published Dec 20, 2024 • 39
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper • 2501.03262 • Published Jan 4 • 99
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Paper • 2502.18449 • Published Feb 25 • 74
Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published 1 day ago • 58