|
{ |
|
"best_metric": 2.037834644317627, |
|
"best_model_checkpoint": "/content/drive/My Drive/Hugh Mann/Llama/Llama3.2-3B-podcast-curated-v6/checkpoint-115", |
|
"epoch": 9.583333333333334, |
|
"eval_steps": 5, |
|
"global_step": 115, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.4166666666666667, |
|
"grad_norm": 1.6029208898544312, |
|
"learning_rate": 2.0833333333333336e-05, |
|
"loss": 3.0787, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.4166666666666667, |
|
"eval_loss": 3.1546361446380615, |
|
"eval_runtime": 0.2708, |
|
"eval_samples_per_second": 36.928, |
|
"eval_steps_per_second": 7.386, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"grad_norm": 1.0084378719329834, |
|
"learning_rate": 4.166666666666667e-05, |
|
"loss": 3.0823, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"eval_loss": 3.0798888206481934, |
|
"eval_runtime": 0.271, |
|
"eval_samples_per_second": 36.899, |
|
"eval_steps_per_second": 7.38, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 1.25, |
|
"grad_norm": 0.8381924629211426, |
|
"learning_rate": 4.9342105263157894e-05, |
|
"loss": 2.9943, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 1.25, |
|
"eval_loss": 2.9763541221618652, |
|
"eval_runtime": 0.2735, |
|
"eval_samples_per_second": 36.564, |
|
"eval_steps_per_second": 7.313, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"grad_norm": 0.6706913709640503, |
|
"learning_rate": 4.824561403508772e-05, |
|
"loss": 2.8166, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"eval_loss": 2.8783249855041504, |
|
"eval_runtime": 0.2722, |
|
"eval_samples_per_second": 36.735, |
|
"eval_steps_per_second": 7.347, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 2.0833333333333335, |
|
"grad_norm": 0.5173995494842529, |
|
"learning_rate": 4.714912280701755e-05, |
|
"loss": 2.7656, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 2.0833333333333335, |
|
"eval_loss": 2.812581777572632, |
|
"eval_runtime": 0.2753, |
|
"eval_samples_per_second": 36.327, |
|
"eval_steps_per_second": 7.265, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"grad_norm": 0.5741815567016602, |
|
"learning_rate": 4.605263157894737e-05, |
|
"loss": 2.717, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"eval_loss": 2.7478079795837402, |
|
"eval_runtime": 0.273, |
|
"eval_samples_per_second": 36.626, |
|
"eval_steps_per_second": 7.325, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 2.9166666666666665, |
|
"grad_norm": 0.6998803019523621, |
|
"learning_rate": 4.4956140350877196e-05, |
|
"loss": 2.6165, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 2.9166666666666665, |
|
"eval_loss": 2.6678473949432373, |
|
"eval_runtime": 0.2713, |
|
"eval_samples_per_second": 36.854, |
|
"eval_steps_per_second": 7.371, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 3.3333333333333335, |
|
"grad_norm": 0.8583101630210876, |
|
"learning_rate": 4.3859649122807014e-05, |
|
"loss": 2.5373, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 3.3333333333333335, |
|
"eval_loss": 2.5898900032043457, |
|
"eval_runtime": 0.2721, |
|
"eval_samples_per_second": 36.757, |
|
"eval_steps_per_second": 7.351, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 3.75, |
|
"grad_norm": 0.641633927822113, |
|
"learning_rate": 4.2763157894736847e-05, |
|
"loss": 2.4072, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 3.75, |
|
"eval_loss": 2.5076985359191895, |
|
"eval_runtime": 0.2707, |
|
"eval_samples_per_second": 36.946, |
|
"eval_steps_per_second": 7.389, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 4.166666666666667, |
|
"grad_norm": 0.9377325773239136, |
|
"learning_rate": 4.166666666666667e-05, |
|
"loss": 2.4043, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 4.166666666666667, |
|
"eval_loss": 2.4171013832092285, |
|
"eval_runtime": 0.2738, |
|
"eval_samples_per_second": 36.521, |
|
"eval_steps_per_second": 7.304, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 4.583333333333333, |
|
"grad_norm": 1.047525405883789, |
|
"learning_rate": 4.057017543859649e-05, |
|
"loss": 2.2374, |
|
"step": 55 |
|
}, |
|
{ |
|
"epoch": 4.583333333333333, |
|
"eval_loss": 2.314101219177246, |
|
"eval_runtime": 0.2716, |
|
"eval_samples_per_second": 36.821, |
|
"eval_steps_per_second": 7.364, |
|
"step": 55 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"grad_norm": 1.1795281171798706, |
|
"learning_rate": 3.9473684210526316e-05, |
|
"loss": 2.182, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"eval_loss": 2.2135045528411865, |
|
"eval_runtime": 0.2703, |
|
"eval_samples_per_second": 36.99, |
|
"eval_steps_per_second": 7.398, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 5.416666666666667, |
|
"grad_norm": 0.9460779428482056, |
|
"learning_rate": 3.837719298245614e-05, |
|
"loss": 2.0183, |
|
"step": 65 |
|
}, |
|
{ |
|
"epoch": 5.416666666666667, |
|
"eval_loss": 2.1343321800231934, |
|
"eval_runtime": 0.2733, |
|
"eval_samples_per_second": 36.594, |
|
"eval_steps_per_second": 7.319, |
|
"step": 65 |
|
}, |
|
{ |
|
"epoch": 5.833333333333333, |
|
"grad_norm": 0.6265141367912292, |
|
"learning_rate": 3.728070175438597e-05, |
|
"loss": 2.0059, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 5.833333333333333, |
|
"eval_loss": 2.1033430099487305, |
|
"eval_runtime": 0.2713, |
|
"eval_samples_per_second": 36.854, |
|
"eval_steps_per_second": 7.371, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 6.25, |
|
"grad_norm": 0.6062536835670471, |
|
"learning_rate": 3.618421052631579e-05, |
|
"loss": 1.9302, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 6.25, |
|
"eval_loss": 2.084512233734131, |
|
"eval_runtime": 0.2706, |
|
"eval_samples_per_second": 36.956, |
|
"eval_steps_per_second": 7.391, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 6.666666666666667, |
|
"grad_norm": 0.5330774188041687, |
|
"learning_rate": 3.508771929824561e-05, |
|
"loss": 1.9598, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 6.666666666666667, |
|
"eval_loss": 2.071258544921875, |
|
"eval_runtime": 0.2718, |
|
"eval_samples_per_second": 36.797, |
|
"eval_steps_per_second": 7.359, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 7.083333333333333, |
|
"grad_norm": 0.5063824653625488, |
|
"learning_rate": 3.3991228070175444e-05, |
|
"loss": 1.9177, |
|
"step": 85 |
|
}, |
|
{ |
|
"epoch": 7.083333333333333, |
|
"eval_loss": 2.062066078186035, |
|
"eval_runtime": 0.2733, |
|
"eval_samples_per_second": 36.589, |
|
"eval_steps_per_second": 7.318, |
|
"step": 85 |
|
}, |
|
{ |
|
"epoch": 7.5, |
|
"grad_norm": 0.4624127745628357, |
|
"learning_rate": 3.289473684210527e-05, |
|
"loss": 1.9313, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 7.5, |
|
"eval_loss": 2.0558922290802, |
|
"eval_runtime": 0.2721, |
|
"eval_samples_per_second": 36.747, |
|
"eval_steps_per_second": 7.349, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 7.916666666666667, |
|
"grad_norm": 0.5520562529563904, |
|
"learning_rate": 3.179824561403509e-05, |
|
"loss": 1.8613, |
|
"step": 95 |
|
}, |
|
{ |
|
"epoch": 7.916666666666667, |
|
"eval_loss": 2.051041603088379, |
|
"eval_runtime": 0.2729, |
|
"eval_samples_per_second": 36.637, |
|
"eval_steps_per_second": 7.327, |
|
"step": 95 |
|
}, |
|
{ |
|
"epoch": 8.333333333333334, |
|
"grad_norm": 0.5451687574386597, |
|
"learning_rate": 3.0701754385964913e-05, |
|
"loss": 1.851, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 8.333333333333334, |
|
"eval_loss": 2.0468153953552246, |
|
"eval_runtime": 0.2712, |
|
"eval_samples_per_second": 36.867, |
|
"eval_steps_per_second": 7.373, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 8.75, |
|
"grad_norm": 0.5990932583808899, |
|
"learning_rate": 2.9605263157894735e-05, |
|
"loss": 1.8708, |
|
"step": 105 |
|
}, |
|
{ |
|
"epoch": 8.75, |
|
"eval_loss": 2.043128490447998, |
|
"eval_runtime": 0.28, |
|
"eval_samples_per_second": 35.716, |
|
"eval_steps_per_second": 7.143, |
|
"step": 105 |
|
}, |
|
{ |
|
"epoch": 9.166666666666666, |
|
"grad_norm": 0.49774909019470215, |
|
"learning_rate": 2.850877192982456e-05, |
|
"loss": 1.9028, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 9.166666666666666, |
|
"eval_loss": 2.0402286052703857, |
|
"eval_runtime": 0.2763, |
|
"eval_samples_per_second": 36.189, |
|
"eval_steps_per_second": 7.238, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 9.583333333333334, |
|
"grad_norm": 0.5342414975166321, |
|
"learning_rate": 2.741228070175439e-05, |
|
"loss": 1.8969, |
|
"step": 115 |
|
}, |
|
{ |
|
"epoch": 9.583333333333334, |
|
"eval_loss": 2.037834644317627, |
|
"eval_runtime": 0.2723, |
|
"eval_samples_per_second": 36.718, |
|
"eval_steps_per_second": 7.344, |
|
"step": 115 |
|
} |
|
], |
|
"logging_steps": 5, |
|
"max_steps": 240, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 20, |
|
"save_steps": 5, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 7511064679809024.0, |
|
"train_batch_size": 8, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|