Reasoning Work - a dumbequation Collection

dumbequation 's Collections

Reasoning Work

updated May 1

Models I've trained to think like DeepSeek R1 using online learning - Group Relative Policy Optimization (GRPO) introduced by DeepSeekMath

dumbequation/Qwen2.5-3B-reasoning-medical-symptoms-GRPO-quant

3B • Updated Mar 4 • 4
dumbequation/Qwen2.5-7B-GRPO-1M-Context-Medical-Reasoning-f16-GGUF-v2

8B • Updated Mar 4 • 11
dumbequation/Qwen2.5-3B-reasoning-medical-symptoms-GRPO-f16-GGUF

3B • Updated Feb 19 • 10
dumbequation/Qwen2.5-7B-GRPO-1M-Context-Medical-Reasoning-f16-GGUF

8B • Updated Mar 4 • 10
dumbequation/Qwen2.5-3B-reasoning-medical-symptoms-GRPO-f16

Text Generation • Updated Feb 19 • 6
dumbequation/Qwen2.5-7B-GRPO-1M-Context-Medical-Reasoning-f16

Text Generation • 8B • Updated Mar 4 • 5 • 1