Music-paligemma-3b / trainer_state.json
penghangliu's picture
Upload folder using huggingface_hub
e18bdd1 verified
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 0.6666666666666666,
"eval_steps": 500,
"global_step": 4000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.016666666666666666,
"grad_norm": 2.8894264698028564,
"learning_rate": 1.9836639439906652e-05,
"loss": 3.963,
"step": 100
},
{
"epoch": 0.03333333333333333,
"grad_norm": 1.6018348932266235,
"learning_rate": 1.9669944990831806e-05,
"loss": 1.6373,
"step": 200
},
{
"epoch": 0.05,
"grad_norm": 1.5761862993240356,
"learning_rate": 1.950325054175696e-05,
"loss": 1.0775,
"step": 300
},
{
"epoch": 0.06666666666666667,
"grad_norm": 2.316917657852173,
"learning_rate": 1.9336556092682115e-05,
"loss": 0.9137,
"step": 400
},
{
"epoch": 0.08333333333333333,
"grad_norm": 1.1824716329574585,
"learning_rate": 1.916986164360727e-05,
"loss": 0.905,
"step": 500
},
{
"epoch": 0.1,
"grad_norm": 1.3308736085891724,
"learning_rate": 1.9003167194532424e-05,
"loss": 0.8585,
"step": 600
},
{
"epoch": 0.11666666666666667,
"grad_norm": 2.580430030822754,
"learning_rate": 1.8836472745457578e-05,
"loss": 0.8369,
"step": 700
},
{
"epoch": 0.13333333333333333,
"grad_norm": 1.272025465965271,
"learning_rate": 1.8669778296382732e-05,
"loss": 0.8541,
"step": 800
},
{
"epoch": 0.15,
"grad_norm": 0.856234610080719,
"learning_rate": 1.8503083847307887e-05,
"loss": 0.8249,
"step": 900
},
{
"epoch": 0.16666666666666666,
"grad_norm": 3.3791863918304443,
"learning_rate": 1.833638939823304e-05,
"loss": 0.7451,
"step": 1000
},
{
"epoch": 0.18333333333333332,
"grad_norm": 2.909228801727295,
"learning_rate": 1.8169694949158195e-05,
"loss": 0.764,
"step": 1100
},
{
"epoch": 0.2,
"grad_norm": 4.349322319030762,
"learning_rate": 1.800300050008335e-05,
"loss": 0.7804,
"step": 1200
},
{
"epoch": 0.21666666666666667,
"grad_norm": 2.2106833457946777,
"learning_rate": 1.7836306051008504e-05,
"loss": 0.6879,
"step": 1300
},
{
"epoch": 0.23333333333333334,
"grad_norm": 1.6364814043045044,
"learning_rate": 1.7669611601933655e-05,
"loss": 0.7412,
"step": 1400
},
{
"epoch": 0.25,
"grad_norm": 1.1314855813980103,
"learning_rate": 1.7502917152858813e-05,
"loss": 0.7475,
"step": 1500
},
{
"epoch": 0.26666666666666666,
"grad_norm": 1.854612112045288,
"learning_rate": 1.7336222703783964e-05,
"loss": 0.7417,
"step": 1600
},
{
"epoch": 0.2833333333333333,
"grad_norm": 1.044703722000122,
"learning_rate": 1.716952825470912e-05,
"loss": 0.7145,
"step": 1700
},
{
"epoch": 0.3,
"grad_norm": 2.3508412837982178,
"learning_rate": 1.7002833805634272e-05,
"loss": 0.6941,
"step": 1800
},
{
"epoch": 0.31666666666666665,
"grad_norm": 1.4268666505813599,
"learning_rate": 1.683613935655943e-05,
"loss": 0.6445,
"step": 1900
},
{
"epoch": 0.3333333333333333,
"grad_norm": 3.743910312652588,
"learning_rate": 1.666944490748458e-05,
"loss": 0.6664,
"step": 2000
},
{
"epoch": 0.35,
"grad_norm": 3.6548993587493896,
"learning_rate": 1.6502750458409736e-05,
"loss": 0.6595,
"step": 2100
},
{
"epoch": 0.36666666666666664,
"grad_norm": 2.295973777770996,
"learning_rate": 1.633605600933489e-05,
"loss": 0.7187,
"step": 2200
},
{
"epoch": 0.38333333333333336,
"grad_norm": 2.941169500350952,
"learning_rate": 1.6169361560260044e-05,
"loss": 0.6929,
"step": 2300
},
{
"epoch": 0.4,
"grad_norm": 1.1575044393539429,
"learning_rate": 1.60026671111852e-05,
"loss": 0.672,
"step": 2400
},
{
"epoch": 0.4166666666666667,
"grad_norm": 5.224921703338623,
"learning_rate": 1.5835972662110353e-05,
"loss": 0.6365,
"step": 2500
},
{
"epoch": 0.43333333333333335,
"grad_norm": 2.8850746154785156,
"learning_rate": 1.5669278213035507e-05,
"loss": 0.6301,
"step": 2600
},
{
"epoch": 0.45,
"grad_norm": 0.9255233407020569,
"learning_rate": 1.550258376396066e-05,
"loss": 0.6064,
"step": 2700
},
{
"epoch": 0.4666666666666667,
"grad_norm": 2.414670467376709,
"learning_rate": 1.5335889314885816e-05,
"loss": 0.5662,
"step": 2800
},
{
"epoch": 0.48333333333333334,
"grad_norm": 2.8756697177886963,
"learning_rate": 1.516919486581097e-05,
"loss": 0.6112,
"step": 2900
},
{
"epoch": 0.5,
"grad_norm": 5.171830177307129,
"learning_rate": 1.5002500416736123e-05,
"loss": 0.6093,
"step": 3000
},
{
"epoch": 0.5166666666666667,
"grad_norm": 4.4593729972839355,
"learning_rate": 1.4835805967661279e-05,
"loss": 0.5817,
"step": 3100
},
{
"epoch": 0.5333333333333333,
"grad_norm": 1.6261086463928223,
"learning_rate": 1.4669111518586432e-05,
"loss": 0.6441,
"step": 3200
},
{
"epoch": 0.55,
"grad_norm": 7.9956159591674805,
"learning_rate": 1.4502417069511588e-05,
"loss": 0.5863,
"step": 3300
},
{
"epoch": 0.5666666666666667,
"grad_norm": 5.350605487823486,
"learning_rate": 1.433572262043674e-05,
"loss": 0.5661,
"step": 3400
},
{
"epoch": 0.5833333333333334,
"grad_norm": 2.4754750728607178,
"learning_rate": 1.4169028171361893e-05,
"loss": 0.5792,
"step": 3500
},
{
"epoch": 0.6,
"grad_norm": 6.824994087219238,
"learning_rate": 1.400233372228705e-05,
"loss": 0.5871,
"step": 3600
},
{
"epoch": 0.6166666666666667,
"grad_norm": 5.394326686859131,
"learning_rate": 1.3835639273212202e-05,
"loss": 0.5672,
"step": 3700
},
{
"epoch": 0.6333333333333333,
"grad_norm": 3.3266642093658447,
"learning_rate": 1.3668944824137358e-05,
"loss": 0.5494,
"step": 3800
},
{
"epoch": 0.65,
"grad_norm": 3.2017102241516113,
"learning_rate": 1.350225037506251e-05,
"loss": 0.5389,
"step": 3900
},
{
"epoch": 0.6666666666666666,
"grad_norm": 1.5428489446640015,
"learning_rate": 1.3335555925987667e-05,
"loss": 0.5491,
"step": 4000
}
],
"logging_steps": 100,
"max_steps": 12000,
"num_input_tokens_seen": 0,
"num_train_epochs": 2,
"save_steps": 500,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 1.0297102208608502e+18,
"train_batch_size": 2,
"trial_name": null,
"trial_params": null
}