RTO-RL
/

Llama3-8B-TDPO

Model card Files Files and versions

Llama3-8B-TDPO / README.md

zkshan2002's picture

Create README.md

cefa159 verified 7 months ago

|

history blame contribute delete

337 Bytes

	---
	datasets:
	- HuggingFaceH4/ultrafeedback_binarized
	base_model:
	- OpenRLHF/Llama-3-8b-sft-mixture
	---
	Base model: [OpenRLHF/Llama-3-8b-sft-mixture](https://huggingface.co/OpenRLHF/Llama-3-8b-sft-mixture)

	Preference dataset: [HuggingFaceH4/ultrafeedback_binarized](https://huggingface.co/datasets/HuggingFaceH4/ultrafeedback_binarized)