姚冠宇's picture

5 1

姚冠宇

yaogy

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 11 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

upvoted a paper about 2 months ago

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

updated a model 2 months ago

yaogy/qwen3b-papo

View all activity

Organizations

upvoted a paper 11 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 16 days ago • 204

upvoted a paper about 2 months ago

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Paper • 2511.21689 • Published Nov 26, 2025 • 120

upvoted a collection 7 months ago

Leanabell-Prover

The official release of Leanabell-Prover • 6 items • Updated Apr 16, 2025 • 2

upvoted a paper 8 months ago

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Paper • 2505.24864 • Published May 30, 2025 • 143

upvoted a paper 9 months ago

CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

Paper • 2504.13161 • Published Apr 17, 2025 • 93