{"train/loss": 1.2111, "train/grad_norm": 0.3055819571018219, "train/learning_rate": 0.0002, "train/epoch": 0.99, "train/global_step": 45, "_timestamp": 1715849610.9547303, "_runtime": 5267.9963991642, "_step": 45, "train_runtime": 5268.0425, "train_samples_per_second": 0.069, "train_steps_per_second": 0.009, "total_flos": 4.525072831473254e+16, "train_loss": 1.5121496227052478}