{
    "epoch": 1.0,
    "eval_logits/chosen": NaN,
    "eval_logits/rejected": 1.202070951461792,
    "eval_logps/chosen": -359.77777099609375,
    "eval_logps/rejected": -327.26983642578125,
    "eval_loss": NaN,
    "eval_nll_loss": NaN,
    "eval_rewards/accuracies": 0.579365074634552,
    "eval_rewards/chosen": 0.8003472089767456,
    "eval_rewards/margins": 0.1918538361787796,
    "eval_rewards/rejected": 0.6087549328804016,
    "eval_runtime": 8.4173,
    "eval_samples_per_second": 118.802,
    "eval_steps_per_second": 7.485
}