RLHFlow

university

AI & ML interests

Workflow of Reinforcement Learning from Human Feedback (RLHF). Blog: https://rlhflow.github.io/

Recent Activity

Chenlu123 submitted a paper about 2 months ago

Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

baohao submitted a paper 3 months ago

Self-Hinting Language Models Enhance Reinforcement Learning

baohao updated a collection 6 months ago

View all activity

Papers

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

View all Papers

RLHFlow 's models 37

RLHFlow/Qwen2.5-Math-1.5B-DAPO-easy

2B • Updated Oct 26, 2025 • 1

RLHFlow/Qwen2.5-Math-1.5B-GRPO-n8-easy

2B • Updated Oct 26, 2025 • 151

RLHFlow/Qwen2.5-Math-1-5B-Reinforce-Ada-balance-hard

Updated Oct 15, 2025 • 3

RLHFlow/Qwen2.5-Math-1-5B-Reinforce-Ada-balance-easy

2B • Updated Oct 11, 2025 • 3

RLHFlow/Qwen2.5-Math-7B-Reinforce-Ada-balance-easy

8B • Updated Oct 10, 2025 • 6

RLHFlow/Qwen2.5-Math-7B-Reinforce-Ada-balance-hard

8B • Updated Oct 10, 2025 • 1

RLHFlow/Qwen3-4B-Instruct-2507-Reinforce-Ada-balance-hard

4B • Updated Oct 10, 2025 • 3 • 1

RLHFlow/Llama-3.2-3B-Instruct-Reinforce-Ada-balance-hard

4B • Updated Oct 10, 2025 • 5

RLHFlow/Qwen2.5-Math-7B-Zero-RAFTpp

Text Generation • 8B • Updated May 21, 2025 • 11 • 1

RLHFlow/Qwen2.5-Math-7B-Zero-Reinforce-Rej

Text Generation • 8B • Updated May 21, 2025 • 8 • 1

RLHFlow/Llama3.1-8B-PRM-Deepseek-Data

Text Generation • 8B • Updated May 10, 2025 • 2.21k • • 38

RLHFlow/Qwen2.5-7B-SFT

8B • Updated Feb 17, 2025 • 121

RLHFlow/Qwen2.5-7B-RAFT-Zero

8B • Updated Feb 17, 2025 • 2

RLHFlow/Qwen2.5-7B-DPO-NLL-Zero

8B • Updated Feb 17, 2025 • 6

RLHFlow/Qwen2.5-7B-DPO-Zero

8B • Updated Feb 17, 2025 • 10

RLHFlow/Qwen2.5-7B-DPO

8B • Updated Feb 17, 2025 • 17

RLHFlow/Qwen2.5-7B-PPO-Zero

8B • Updated Feb 17, 2025 • 8 • 3

RLHFlow/Decision-Tree-Reward-Gemma-2-27B

Text Classification • 27B • Updated Jan 24, 2025 • 77 • 8

RLHFlow/Decision-Tree-Reward-Llama-3.1-8B

Text Classification • 8B • Updated Jan 24, 2025 • 100 • 7

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

Text Generation • 8B • Updated Nov 9, 2024 • 263 • • 10

RLHFlow/Llama3.1-8B-ORM-Deepseek-Data

Text Generation • 8B • Updated Nov 9, 2024 • 37 • • 2

RLHFlow/Llama3.1-8B-ORM-Mistral-Data

Text Generation • 8B • Updated Nov 9, 2024 • 4 •

RLHFlow/Llama3-v2-iterative-DPO-iter3

Text Generation • 8B • Updated Nov 4, 2024 • 9 • • 1

RLHFlow/Llama3-v2-iterative-DPO-iter2

Text Generation • 8B • Updated Nov 4, 2024 • 3

RLHFlow/Llama3-v2-iterative-DPO-iter1

Text Generation • 8B • Updated Nov 4, 2024 • 3

RLHFlow/LLaMA3-SFT-v2

Text Generation • 8B • Updated Nov 3, 2024 • 510 • • 3

RLHFlow/Llama3-SFT-v2.0-epoch1

Text Generation • 8B • Updated Nov 3, 2024 • 6

RLHFlow/Llama3-SFT-v2.0-epoch2

Text Generation • 8B • Updated Nov 3, 2024 • 2

RLHFlow/Llama3-SFT-v2.0-epoch3

Text Generation • 8B • Updated Nov 3, 2024 • 3 •

RLHFlow/LLaMA3-SFT

Text Generation • 8B • Updated Nov 3, 2024 • 107 • • 10