DPO model excluding the noisy preference pairs for Mistral-Base under trl/ultradeedback_binarized finetuning.

Safetensors

Model size

7.24B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for ComparisonPO/Mistral-Base-7B-DPO_clean

Base model

Finetuned

Finetuned

(376)

this model

Finetunes

ComparisonPO
/

Mistral-Base-7B-DPO_clean