ReasoningEval
/

DeepSeek-R1-Distill-Qwen-7B-Huatuo-SFT-quality-difficulty-RL

Update README.md

eeba713 verified 5 months ago

167 Bytes

Base Model: ReasoningEval/DeepSeek-R1-Distill-Qwen-7B-Huatuo-SFT-quality-difficulty

Training Epochs: 3

Training Objective: RL

Training Data: ReasoningEval/Huatuo-RL