rubricreward
/

LLaMA-3.2-3B-DPO-HelpSteer3-R3-Qwen3-14B-LoRA-4k

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

LLaMA-3.2-3B-DPO-HelpSteer3-R3-Qwen3-14B-LoRA-4k

Commit History

Upload folder using huggingface_hub

69756ff
verified

davidanugraha commited on 11 days ago

initial commit

e7220ba
verified

davidanugraha commited on 11 days ago