roberta-large-emopillars-contextual / trainer_state.json

Upload folder using huggingface_hub

447bf56 verified 2 months ago

11.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 29370,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.17024174327545114,
	"grad_norm": 0.6650531888008118,
	"learning_rate": 1.96595165134491e-05,
	"loss": 0.2305,
	"step": 500
	},
	{
	"epoch": 0.34048348655090227,
	"grad_norm": 2.3951523303985596,
	"learning_rate": 1.9319033026898198e-05,
	"loss": 0.1633,
	"step": 1000
	},
	{
	"epoch": 0.5107252298263534,
	"grad_norm": 0.9463224411010742,
	"learning_rate": 1.8978549540347296e-05,
	"loss": 0.1548,
	"step": 1500
	},
	{
	"epoch": 0.6809669731018045,
	"grad_norm": 1.2913334369659424,
	"learning_rate": 1.8638066053796395e-05,
	"loss": 0.1487,
	"step": 2000
	},
	{
	"epoch": 0.8512087163772557,
	"grad_norm": 1.0490585565567017,
	"learning_rate": 1.829758256724549e-05,
	"loss": 0.1435,
	"step": 2500
	},
	{
	"epoch": 1.0214504596527068,
	"grad_norm": 1.5652408599853516,
	"learning_rate": 1.7957099080694588e-05,
	"loss": 0.1397,
	"step": 3000
	},
	{
	"epoch": 1.191692202928158,
	"grad_norm": 1.1205641031265259,
	"learning_rate": 1.7616615594143686e-05,
	"loss": 0.1283,
	"step": 3500
	},
	{
	"epoch": 1.361933946203609,
	"grad_norm": 1.0744216442108154,
	"learning_rate": 1.727613210759278e-05,
	"loss": 0.1292,
	"step": 4000
	},
	{
	"epoch": 1.5321756894790601,
	"grad_norm": 1.089113712310791,
	"learning_rate": 1.693564862104188e-05,
	"loss": 0.1273,
	"step": 4500
	},
	{
	"epoch": 1.7024174327545114,
	"grad_norm": 2.334705114364624,
	"learning_rate": 1.6595165134490977e-05,
	"loss": 0.1275,
	"step": 5000
	},
	{
	"epoch": 1.8726591760299627,
	"grad_norm": 1.1323754787445068,
	"learning_rate": 1.6254681647940076e-05,
	"loss": 0.1251,
	"step": 5500
	},
	{
	"epoch": 2.0429009193054135,
	"grad_norm": 0.8757261633872986,
	"learning_rate": 1.5914198161389174e-05,
	"loss": 0.1213,
	"step": 6000
	},
	{
	"epoch": 2.213142662580865,
	"grad_norm": 1.1232839822769165,
	"learning_rate": 1.5573714674838272e-05,
	"loss": 0.1104,
	"step": 6500
	},
	{
	"epoch": 2.383384405856316,
	"grad_norm": 0.8715490698814392,
	"learning_rate": 1.5233231188287369e-05,
	"loss": 0.1099,
	"step": 7000
	},
	{
	"epoch": 2.553626149131767,
	"grad_norm": 1.2656769752502441,
	"learning_rate": 1.4892747701736467e-05,
	"loss": 0.1102,
	"step": 7500
	},
	{
	"epoch": 2.723867892407218,
	"grad_norm": 1.1669204235076904,
	"learning_rate": 1.4552264215185565e-05,
	"loss": 0.1101,
	"step": 8000
	},
	{
	"epoch": 2.8941096356826694,
	"grad_norm": 1.0073705911636353,
	"learning_rate": 1.4211780728634664e-05,
	"loss": 0.1085,
	"step": 8500
	},
	{
	"epoch": 3.0643513789581207,
	"grad_norm": 1.1393821239471436,
	"learning_rate": 1.3871297242083762e-05,
	"loss": 0.1027,
	"step": 9000
	},
	{
	"epoch": 3.2345931222335715,
	"grad_norm": 1.4679887294769287,
	"learning_rate": 1.3530813755532857e-05,
	"loss": 0.0926,
	"step": 9500
	},
	{
	"epoch": 3.404834865509023,
	"grad_norm": 0.8374710083007812,
	"learning_rate": 1.3190330268981955e-05,
	"loss": 0.0925,
	"step": 10000
	},
	{
	"epoch": 3.575076608784474,
	"grad_norm": 1.2514032125473022,
	"learning_rate": 1.2849846782431053e-05,
	"loss": 0.0927,
	"step": 10500
	},
	{
	"epoch": 3.7453183520599254,
	"grad_norm": 1.5251351594924927,
	"learning_rate": 1.250936329588015e-05,
	"loss": 0.0929,
	"step": 11000
	},
	{
	"epoch": 3.915560095335376,
	"grad_norm": 1.0668872594833374,
	"learning_rate": 1.2168879809329248e-05,
	"loss": 0.0923,
	"step": 11500
	},
	{
	"epoch": 4.085801838610827,
	"grad_norm": 1.0528796911239624,
	"learning_rate": 1.1828396322778346e-05,
	"loss": 0.0848,
	"step": 12000
	},
	{
	"epoch": 4.256043581886279,
	"grad_norm": 1.316041111946106,
	"learning_rate": 1.1487912836227445e-05,
	"loss": 0.0767,
	"step": 12500
	},
	{
	"epoch": 4.42628532516173,
	"grad_norm": 1.6180927753448486,
	"learning_rate": 1.1147429349676541e-05,
	"loss": 0.077,
	"step": 13000
	},
	{
	"epoch": 4.596527068437181,
	"grad_norm": 1.2156362533569336,
	"learning_rate": 1.080694586312564e-05,
	"loss": 0.0773,
	"step": 13500
	},
	{
	"epoch": 4.766768811712632,
	"grad_norm": 1.621887445449829,
	"learning_rate": 1.0466462376574738e-05,
	"loss": 0.0773,
	"step": 14000
	},
	{
	"epoch": 4.937010554988083,
	"grad_norm": 1.5306437015533447,
	"learning_rate": 1.0125978890023836e-05,
	"loss": 0.0774,
	"step": 14500
	},
	{
	"epoch": 5.107252298263534,
	"grad_norm": 22.37914276123047,
	"learning_rate": 9.785495403472932e-06,
	"loss": 0.0678,
	"step": 15000
	},
	{
	"epoch": 5.2774940415389855,
	"grad_norm": 1.3330860137939453,
	"learning_rate": 9.44501191692203e-06,
	"loss": 0.0634,
	"step": 15500
	},
	{
	"epoch": 5.447735784814436,
	"grad_norm": 1.9692567586898804,
	"learning_rate": 9.104528430371127e-06,
	"loss": 0.0634,
	"step": 16000
	},
	{
	"epoch": 5.617977528089888,
	"grad_norm": 1.3089221715927124,
	"learning_rate": 8.764044943820226e-06,
	"loss": 0.0635,
	"step": 16500
	},
	{
	"epoch": 5.788219271365339,
	"grad_norm": 1.5806821584701538,
	"learning_rate": 8.423561457269324e-06,
	"loss": 0.0637,
	"step": 17000
	},
	{
	"epoch": 5.95846101464079,
	"grad_norm": 1.579941987991333,
	"learning_rate": 8.08307797071842e-06,
	"loss": 0.0633,
	"step": 17500
	},
	{
	"epoch": 6.128702757916241,
	"grad_norm": 1.5726784467697144,
	"learning_rate": 7.742594484167519e-06,
	"loss": 0.054,
	"step": 18000
	},
	{
	"epoch": 6.298944501191692,
	"grad_norm": 1.140791654586792,
	"learning_rate": 7.402110997616616e-06,
	"loss": 0.052,
	"step": 18500
	},
	{
	"epoch": 6.469186244467143,
	"grad_norm": 1.6548409461975098,
	"learning_rate": 7.061627511065714e-06,
	"loss": 0.0516,
	"step": 19000
	},
	{
	"epoch": 6.639427987742595,
	"grad_norm": 1.3514069318771362,
	"learning_rate": 6.721144024514812e-06,
	"loss": 0.0522,
	"step": 19500
	},
	{
	"epoch": 6.809669731018046,
	"grad_norm": 1.5590009689331055,
	"learning_rate": 6.38066053796391e-06,
	"loss": 0.0518,
	"step": 20000
	},
	{
	"epoch": 6.9799114742934965,
	"grad_norm": 1.2986799478530884,
	"learning_rate": 6.0401770514130066e-06,
	"loss": 0.0524,
	"step": 20500
	},
	{
	"epoch": 7.150153217568948,
	"grad_norm": 1.5317639112472534,
	"learning_rate": 5.699693564862104e-06,
	"loss": 0.044,
	"step": 21000
	},
	{
	"epoch": 7.320394960844399,
	"grad_norm": 2.344708204269409,
	"learning_rate": 5.359210078311202e-06,
	"loss": 0.0415,
	"step": 21500
	},
	{
	"epoch": 7.49063670411985,
	"grad_norm": 3.3057548999786377,
	"learning_rate": 5.0187265917603005e-06,
	"loss": 0.0418,
	"step": 22000
	},
	{
	"epoch": 7.6608784473953015,
	"grad_norm": 1.3382242918014526,
	"learning_rate": 4.678243105209398e-06,
	"loss": 0.0419,
	"step": 22500
	},
	{
	"epoch": 7.831120190670752,
	"grad_norm": 1.7018738985061646,
	"learning_rate": 4.337759618658495e-06,
	"loss": 0.0421,
	"step": 23000
	},
	{
	"epoch": 8.001361933946203,
	"grad_norm": 0.9316732883453369,
	"learning_rate": 3.997276132107593e-06,
	"loss": 0.0414,
	"step": 23500
	},
	{
	"epoch": 8.171603677221654,
	"grad_norm": 1.4249956607818604,
	"learning_rate": 3.656792645556691e-06,
	"loss": 0.0346,
	"step": 24000
	},
	{
	"epoch": 8.341845420497107,
	"grad_norm": 1.263279914855957,
	"learning_rate": 3.3163091590057884e-06,
	"loss": 0.0345,
	"step": 24500
	},
	{
	"epoch": 8.512087163772557,
	"grad_norm": 2.6162939071655273,
	"learning_rate": 2.9758256724548862e-06,
	"loss": 0.0342,
	"step": 25000
	},
	{
	"epoch": 8.682328907048008,
	"grad_norm": 1.2574002742767334,
	"learning_rate": 2.635342185903984e-06,
	"loss": 0.0345,
	"step": 25500
	},
	{
	"epoch": 8.85257065032346,
	"grad_norm": 5.4230732917785645,
	"learning_rate": 2.2948586993530815e-06,
	"loss": 0.0344,
	"step": 26000
	},
	{
	"epoch": 9.02281239359891,
	"grad_norm": 0.885810136795044,
	"learning_rate": 1.9543752128021793e-06,
	"loss": 0.0333,
	"step": 26500
	},
	{
	"epoch": 9.19305413687436,
	"grad_norm": 1.7516717910766602,
	"learning_rate": 1.6138917262512767e-06,
	"loss": 0.0291,
	"step": 27000
	},
	{
	"epoch": 9.363295880149813,
	"grad_norm": 1.1372159719467163,
	"learning_rate": 1.2734082397003748e-06,
	"loss": 0.0293,
	"step": 27500
	},
	{
	"epoch": 9.533537623425264,
	"grad_norm": 0.9269993305206299,
	"learning_rate": 9.329247531494723e-07,
	"loss": 0.0294,
	"step": 28000
	},
	{
	"epoch": 9.703779366700715,
	"grad_norm": 1.229074239730835,
	"learning_rate": 5.9244126659857e-07,
	"loss": 0.0291,
	"step": 28500
	},
	{
	"epoch": 9.874021109976166,
	"grad_norm": 2.4099299907684326,
	"learning_rate": 2.519577800476677e-07,
	"loss": 0.0289,
	"step": 29000
	},
	{
	"epoch": 10.0,
	"step": 29370,
	"total_flos": 8.758967154215731e+17,
	"train_loss": 0.07915824020562384,
	"train_runtime": 29556.1772,
	"train_samples_per_second": 31.797,
	"train_steps_per_second": 0.994
	}
	],
	"logging_steps": 500,
	"max_steps": 29370,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8.758967154215731e+17,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}