DPO-RM
/

Qwen2.5-Math-1.5B-prime-no_logSoftmax_refRM-beta1-eurus_rl_15k-step120-actor

Model card Files Files and versions Community

No model card

Downloads last month: 6

Safetensors

Model size

1.78B params

Tensor type

BF16

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support