ShadeCloak's picture

3 4

ShadeCloak

ShadeCloak

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 3 days ago

Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

upvoted a paper 21 days ago

Agentic Reinforced Policy Optimization

updated a model 5 months ago

AdoraRL/Qwen2.5-7B-Instruct-1M-KK-5ppl-100step-ADORA

View all activity

Organizations

models 5

ShadeCloak/MM-EUREKA_GRPO

Feature Extraction • 8B • Updated Mar 18 • 4

ShadeCloak/MM-EUREKA_ASORA

ShadeCloak/Qwen-7B-1M-3to5ppl_cold

Feature Extraction • 7B • Updated Feb 8 • 4

ShadeCloak/qwen-1M-logicrl-3ppl-callapse-112

Feature Extraction • 7B • Updated Feb 6 • 4

ShadeCloak/qwen-1M-logicrl-3ppl-callapse-224

Feature Extraction • 7B • Updated Feb 6 • 5

datasets 1

ShadeCloak/KK-qwen2.5-7B

Viewer • Updated Jan 26 • 1.4k • 2