jhn9803
/

DeepSeek-R1-Distill-Qwen-7B-MATH345-GRPO-G16

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions Community

DeepSeek-R1-Distill-Qwen-7B-MATH345-GRPO-G16 / model-00001-of-00004.safetensors

Commit History

Training in progress, epoch 4

5d4b9aa
verified

jhn9803 commited on 28 days ago

Training in progress, epoch 3

cdb6b89
verified

jhn9803 commited on 28 days ago

Training in progress, epoch 2

03a9a58
verified

jhn9803 commited on 28 days ago

Training in progress, epoch 1

43955f3
verified

jhn9803 commited on 28 days ago

Training in progress, epoch 0

11d3487
verified

jhn9803 commited on 28 days ago