XYX's picture

XYX

xuyd16

·

AI & ML interests

None yet

Recent Activity

authored a paper 1 day ago

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

upvoted a paper 1 day ago

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

submitted a paper 1 day ago

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

View all activity

Organizations

None yet

Papers 5

arxiv:2605.12483

arxiv:2603.11178

arxiv:2603.05433

arxiv:2602.21420

models 0

None public yet

datasets 0

None public yet