wang's picture

3

wang

wzx111

·

AI & ML interests

None yet

Recent Activity

new activity 23 days ago

Qwen/Qwen3-235B-A22B:是不是奖励函数没有ngram重复度惩罚

updated a model 28 days ago

wzx111/Qwen3-1.7B-Open-R1-GRPO

published a model 28 days ago

wzx111/Qwen3-1.7B-Open-R1-GRPO

View all activity

Organizations

spaces 2

My Argilla

好

Chatweb

models 5

wzx111/Qwen3-1.7B-Open-R1-GRPO

Updated 28 days ago • 9

wzx111/Qwen3-1.7B-Open-R1-GDPO-epcoh_

Text Generation • Updated 28 days ago • 9

wzx111/Qwen3-1.7B-MATH-GDPO-EPOCH2

Text Generation • Updated May 2 • 9

wzx111/Qwen3-1.7B-MATH-GDPO

Text Generation • Updated May 1 • 18 • 2

wzx111/Qwen2.5-1.5B-Open-R1-GRPO

Text Generation • Updated Apr 28 • 6

datasets 0

None public yet