bikalnetomi
/

RLHF-PPO-RewardModel-LLama3-3B-v1

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions Community

RLHF-PPO-RewardModel-LLama3-3B-v1

Commit History

Create config.json

28dfa45
verified

bikalnetomi commited on Dec 1, 2024

bikalnetomi/RLHF-PPO-RewardModel-LLama3-3B-v1

b5aab6c
verified

bikalnetomi commited on Dec 1, 2024

initial commit

372f81e
verified

bikalnetomi commited on Dec 1, 2024