Training in progress, step 95, checkpoint

da964a9 verified 9 months ago

18.2 kB

	{
	"best_metric": 1.1252893209457397,
	"best_model_checkpoint": "miner_id_24/checkpoint-75",
	"epoch": 0.7735368956743003,
	"eval_steps": 25,
	"global_step": 95,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008142493638676845,
	"grad_norm": 0.7951357364654541,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 2.1777,
	"step": 1
	},
	{
	"epoch": 0.008142493638676845,
	"eval_loss": 2.6585562229156494,
	"eval_runtime": 3.2014,
	"eval_samples_per_second": 15.618,
	"eval_steps_per_second": 4.061,
	"step": 1
	},
	{
	"epoch": 0.01628498727735369,
	"grad_norm": 0.920566976070404,
	"learning_rate": 6.666666666666667e-05,
	"loss": 2.1561,
	"step": 2
	},
	{
	"epoch": 0.024427480916030534,
	"grad_norm": 0.9564467668533325,
	"learning_rate": 0.0001,
	"loss": 2.2048,
	"step": 3
	},
	{
	"epoch": 0.03256997455470738,
	"grad_norm": 1.0686429738998413,
	"learning_rate": 9.997376600647783e-05,
	"loss": 2.1696,
	"step": 4
	},
	{
	"epoch": 0.04071246819338423,
	"grad_norm": 1.0367040634155273,
	"learning_rate": 9.989509461357426e-05,
	"loss": 1.8942,
	"step": 5
	},
	{
	"epoch": 0.04885496183206107,
	"grad_norm": 0.8149427175521851,
	"learning_rate": 9.976407754861426e-05,
	"loss": 1.6377,
	"step": 6
	},
	{
	"epoch": 0.056997455470737916,
	"grad_norm": 0.7105250358581543,
	"learning_rate": 9.958086757163489e-05,
	"loss": 1.3655,
	"step": 7
	},
	{
	"epoch": 0.06513994910941476,
	"grad_norm": 0.7786738872528076,
	"learning_rate": 9.934567829727386e-05,
	"loss": 1.3318,
	"step": 8
	},
	{
	"epoch": 0.0732824427480916,
	"grad_norm": 0.6053236126899719,
	"learning_rate": 9.905878394570453e-05,
	"loss": 1.1656,
	"step": 9
	},
	{
	"epoch": 0.08142493638676845,
	"grad_norm": 0.49749094247817993,
	"learning_rate": 9.872051902290737e-05,
	"loss": 1.1655,
	"step": 10
	},
	{
	"epoch": 0.08956743002544529,
	"grad_norm": 0.5606850981712341,
	"learning_rate": 9.833127793065098e-05,
	"loss": 1.0697,
	"step": 11
	},
	{
	"epoch": 0.09770992366412214,
	"grad_norm": 0.6993449330329895,
	"learning_rate": 9.789151450663723e-05,
	"loss": 0.9941,
	"step": 12
	},
	{
	"epoch": 0.10585241730279898,
	"grad_norm": 0.5706828832626343,
	"learning_rate": 9.740174149534693e-05,
	"loss": 1.4403,
	"step": 13
	},
	{
	"epoch": 0.11399491094147583,
	"grad_norm": 0.6802021861076355,
	"learning_rate": 9.686252995020249e-05,
	"loss": 1.4688,
	"step": 14
	},
	{
	"epoch": 0.12213740458015267,
	"grad_norm": 0.5219370722770691,
	"learning_rate": 9.627450856774539e-05,
	"loss": 1.3689,
	"step": 15
	},
	{
	"epoch": 0.13027989821882952,
	"grad_norm": 0.41930851340293884,
	"learning_rate": 9.563836295460398e-05,
	"loss": 1.3572,
	"step": 16
	},
	{
	"epoch": 0.13842239185750635,
	"grad_norm": 0.47524869441986084,
	"learning_rate": 9.495483482810688e-05,
	"loss": 1.3036,
	"step": 17
	},
	{
	"epoch": 0.1465648854961832,
	"grad_norm": 0.417620450258255,
	"learning_rate": 9.422472115147382e-05,
	"loss": 1.2112,
	"step": 18
	},
	{
	"epoch": 0.15470737913486005,
	"grad_norm": 0.5184525847434998,
	"learning_rate": 9.3448873204592e-05,
	"loss": 1.2041,
	"step": 19
	},
	{
	"epoch": 0.1628498727735369,
	"grad_norm": 0.43881309032440186,
	"learning_rate": 9.2628195591462e-05,
	"loss": 1.1282,
	"step": 20
	},
	{
	"epoch": 0.17099236641221374,
	"grad_norm": 0.38495856523513794,
	"learning_rate": 9.176364518546989e-05,
	"loss": 1.1295,
	"step": 21
	},
	{
	"epoch": 0.17913486005089058,
	"grad_norm": 0.3401827812194824,
	"learning_rate": 9.08562300137157e-05,
	"loss": 1.103,
	"step": 22
	},
	{
	"epoch": 0.18727735368956744,
	"grad_norm": 0.3839218020439148,
	"learning_rate": 8.990700808169889e-05,
	"loss": 1.057,
	"step": 23
	},
	{
	"epoch": 0.19541984732824427,
	"grad_norm": 0.42890799045562744,
	"learning_rate": 8.891708613973126e-05,
	"loss": 0.9879,
	"step": 24
	},
	{
	"epoch": 0.2035623409669211,
	"grad_norm": 0.4219408631324768,
	"learning_rate": 8.788761839251559e-05,
	"loss": 0.7933,
	"step": 25
	},
	{
	"epoch": 0.2035623409669211,
	"eval_loss": 1.1750500202178955,
	"eval_runtime": 3.237,
	"eval_samples_per_second": 15.446,
	"eval_steps_per_second": 4.016,
	"step": 25
	},
	{
	"epoch": 0.21170483460559797,
	"grad_norm": 0.5137602090835571,
	"learning_rate": 8.681980515339464e-05,
	"loss": 1.4807,
	"step": 26
	},
	{
	"epoch": 0.2198473282442748,
	"grad_norm": 0.5336816906929016,
	"learning_rate": 8.571489144483944e-05,
	"loss": 1.4194,
	"step": 27
	},
	{
	"epoch": 0.22798982188295167,
	"grad_norm": 0.37356939911842346,
	"learning_rate": 8.457416554680877e-05,
	"loss": 1.3018,
	"step": 28
	},
	{
	"epoch": 0.2361323155216285,
	"grad_norm": 0.34776827692985535,
	"learning_rate": 8.339895749467238e-05,
	"loss": 1.2163,
	"step": 29
	},
	{
	"epoch": 0.24427480916030533,
	"grad_norm": 0.3022593557834625,
	"learning_rate": 8.219063752844926e-05,
	"loss": 1.1786,
	"step": 30
	},
	{
	"epoch": 0.25241730279898217,
	"grad_norm": 0.3063591420650482,
	"learning_rate": 8.095061449516903e-05,
	"loss": 1.1727,
	"step": 31
	},
	{
	"epoch": 0.26055979643765903,
	"grad_norm": 0.3639509677886963,
	"learning_rate": 7.968033420621935e-05,
	"loss": 1.2463,
	"step": 32
	},
	{
	"epoch": 0.2687022900763359,
	"grad_norm": 0.40702012181282043,
	"learning_rate": 7.838127775159452e-05,
	"loss": 1.0818,
	"step": 33
	},
	{
	"epoch": 0.2768447837150127,
	"grad_norm": 0.40854519605636597,
	"learning_rate": 7.705495977301078e-05,
	"loss": 1.0641,
	"step": 34
	},
	{
	"epoch": 0.28498727735368956,
	"grad_norm": 0.43549180030822754,
	"learning_rate": 7.570292669790186e-05,
	"loss": 1.0249,
	"step": 35
	},
	{
	"epoch": 0.2931297709923664,
	"grad_norm": 0.44407615065574646,
	"learning_rate": 7.43267549363537e-05,
	"loss": 1.0178,
	"step": 36
	},
	{
	"epoch": 0.30127226463104323,
	"grad_norm": 0.45777806639671326,
	"learning_rate": 7.292804904308087e-05,
	"loss": 0.8703,
	"step": 37
	},
	{
	"epoch": 0.3094147582697201,
	"grad_norm": 0.30209803581237793,
	"learning_rate": 7.150843984658754e-05,
	"loss": 1.3586,
	"step": 38
	},
	{
	"epoch": 0.31755725190839695,
	"grad_norm": 0.27303484082221985,
	"learning_rate": 7.006958254769438e-05,
	"loss": 1.3765,
	"step": 39
	},
	{
	"epoch": 0.3256997455470738,
	"grad_norm": 0.31225576996803284,
	"learning_rate": 6.861315478964841e-05,
	"loss": 1.3231,
	"step": 40
	},
	{
	"epoch": 0.3338422391857506,
	"grad_norm": 0.3471241891384125,
	"learning_rate": 6.714085470206609e-05,
	"loss": 1.2386,
	"step": 41
	},
	{
	"epoch": 0.3419847328244275,
	"grad_norm": 0.4284417927265167,
	"learning_rate": 6.56543989209901e-05,
	"loss": 1.2152,
	"step": 42
	},
	{
	"epoch": 0.35012722646310435,
	"grad_norm": 0.3678395748138428,
	"learning_rate": 6.415552058736854e-05,
	"loss": 1.1708,
	"step": 43
	},
	{
	"epoch": 0.35826972010178115,
	"grad_norm": 0.3918590247631073,
	"learning_rate": 6.264596732629e-05,
	"loss": 1.2062,
	"step": 44
	},
	{
	"epoch": 0.366412213740458,
	"grad_norm": 0.30557262897491455,
	"learning_rate": 6.112749920933111e-05,
	"loss": 1.115,
	"step": 45
	},
	{
	"epoch": 0.3745547073791349,
	"grad_norm": 0.3059096336364746,
	"learning_rate": 5.960188670239154e-05,
	"loss": 1.0529,
	"step": 46
	},
	{
	"epoch": 0.3826972010178117,
	"grad_norm": 0.3168966770172119,
	"learning_rate": 5.80709086014102e-05,
	"loss": 1.0206,
	"step": 47
	},
	{
	"epoch": 0.39083969465648855,
	"grad_norm": 0.3171919584274292,
	"learning_rate": 5.653634995836856e-05,
	"loss": 0.9549,
	"step": 48
	},
	{
	"epoch": 0.3989821882951654,
	"grad_norm": 0.3663451373577118,
	"learning_rate": 5.500000000000001e-05,
	"loss": 0.8722,
	"step": 49
	},
	{
	"epoch": 0.4071246819338422,
	"grad_norm": 0.3894191384315491,
	"learning_rate": 5.346365004163145e-05,
	"loss": 0.8173,
	"step": 50
	},
	{
	"epoch": 0.4071246819338422,
	"eval_loss": 1.1385380029678345,
	"eval_runtime": 3.2577,
	"eval_samples_per_second": 15.348,
	"eval_steps_per_second": 3.99,
	"step": 50
	},
	{
	"epoch": 0.4152671755725191,
	"grad_norm": 0.25706854462623596,
	"learning_rate": 5.192909139858981e-05,
	"loss": 1.3684,
	"step": 51
	},
	{
	"epoch": 0.42340966921119594,
	"grad_norm": 0.2687229514122009,
	"learning_rate": 5.0398113297608465e-05,
	"loss": 1.2704,
	"step": 52
	},
	{
	"epoch": 0.4315521628498728,
	"grad_norm": 0.2694632411003113,
	"learning_rate": 4.887250079066892e-05,
	"loss": 1.2929,
	"step": 53
	},
	{
	"epoch": 0.4396946564885496,
	"grad_norm": 0.27409684658050537,
	"learning_rate": 4.7354032673710005e-05,
	"loss": 1.1768,
	"step": 54
	},
	{
	"epoch": 0.44783715012722647,
	"grad_norm": 0.2727748453617096,
	"learning_rate": 4.584447941263149e-05,
	"loss": 1.1819,
	"step": 55
	},
	{
	"epoch": 0.45597964376590333,
	"grad_norm": 0.29984185099601746,
	"learning_rate": 4.43456010790099e-05,
	"loss": 1.1877,
	"step": 56
	},
	{
	"epoch": 0.46412213740458014,
	"grad_norm": 0.2994973957538605,
	"learning_rate": 4.285914529793391e-05,
	"loss": 1.1334,
	"step": 57
	},
	{
	"epoch": 0.472264631043257,
	"grad_norm": 0.3209475576877594,
	"learning_rate": 4.13868452103516e-05,
	"loss": 1.1666,
	"step": 58
	},
	{
	"epoch": 0.48040712468193386,
	"grad_norm": 0.317921906709671,
	"learning_rate": 3.9930417452305626e-05,
	"loss": 1.029,
	"step": 59
	},
	{
	"epoch": 0.48854961832061067,
	"grad_norm": 0.32125380635261536,
	"learning_rate": 3.8491560153412466e-05,
	"loss": 0.9528,
	"step": 60
	},
	{
	"epoch": 0.49669211195928753,
	"grad_norm": 0.30410146713256836,
	"learning_rate": 3.707195095691913e-05,
	"loss": 0.9018,
	"step": 61
	},
	{
	"epoch": 0.5048346055979643,
	"grad_norm": 0.39632368087768555,
	"learning_rate": 3.567324506364632e-05,
	"loss": 0.9189,
	"step": 62
	},
	{
	"epoch": 0.5129770992366413,
	"grad_norm": 0.28354790806770325,
	"learning_rate": 3.4297073302098156e-05,
	"loss": 1.2053,
	"step": 63
	},
	{
	"epoch": 0.5211195928753181,
	"grad_norm": 0.23840811848640442,
	"learning_rate": 3.2945040226989244e-05,
	"loss": 1.3452,
	"step": 64
	},
	{
	"epoch": 0.5292620865139949,
	"grad_norm": 0.2518406808376312,
	"learning_rate": 3.16187222484055e-05,
	"loss": 1.2796,
	"step": 65
	},
	{
	"epoch": 0.5374045801526718,
	"grad_norm": 0.3083972632884979,
	"learning_rate": 3.0319665793780648e-05,
	"loss": 1.2915,
	"step": 66
	},
	{
	"epoch": 0.5455470737913486,
	"grad_norm": 0.28872764110565186,
	"learning_rate": 2.9049385504830985e-05,
	"loss": 1.2188,
	"step": 67
	},
	{
	"epoch": 0.5536895674300254,
	"grad_norm": 0.281512588262558,
	"learning_rate": 2.7809362471550748e-05,
	"loss": 1.1432,
	"step": 68
	},
	{
	"epoch": 0.5618320610687023,
	"grad_norm": 0.2897692918777466,
	"learning_rate": 2.660104250532764e-05,
	"loss": 1.197,
	"step": 69
	},
	{
	"epoch": 0.5699745547073791,
	"grad_norm": 0.28706327080726624,
	"learning_rate": 2.5425834453191232e-05,
	"loss": 1.065,
	"step": 70
	},
	{
	"epoch": 0.5781170483460559,
	"grad_norm": 0.30318784713745117,
	"learning_rate": 2.4285108555160577e-05,
	"loss": 0.9742,
	"step": 71
	},
	{
	"epoch": 0.5862595419847328,
	"grad_norm": 0.310880571603775,
	"learning_rate": 2.3180194846605367e-05,
	"loss": 0.9485,
	"step": 72
	},
	{
	"epoch": 0.5944020356234097,
	"grad_norm": 0.33773961663246155,
	"learning_rate": 2.2112381607484417e-05,
	"loss": 0.98,
	"step": 73
	},
	{
	"epoch": 0.6025445292620865,
	"grad_norm": 0.35677966475486755,
	"learning_rate": 2.1082913860268765e-05,
	"loss": 0.8608,
	"step": 74
	},
	{
	"epoch": 0.6106870229007634,
	"grad_norm": 0.38845735788345337,
	"learning_rate": 2.0092991918301108e-05,
	"loss": 0.787,
	"step": 75
	},
	{
	"epoch": 0.6106870229007634,
	"eval_loss": 1.1252893209457397,
	"eval_runtime": 3.2469,
	"eval_samples_per_second": 15.399,
	"eval_steps_per_second": 4.004,
	"step": 75
	},
	{
	"epoch": 0.6188295165394402,
	"grad_norm": 0.2565176784992218,
	"learning_rate": 1.91437699862843e-05,
	"loss": 1.331,
	"step": 76
	},
	{
	"epoch": 0.6269720101781171,
	"grad_norm": 0.2451658397912979,
	"learning_rate": 1.8236354814530112e-05,
	"loss": 1.2461,
	"step": 77
	},
	{
	"epoch": 0.6351145038167939,
	"grad_norm": 0.2756778597831726,
	"learning_rate": 1.7371804408538024e-05,
	"loss": 1.2637,
	"step": 78
	},
	{
	"epoch": 0.6432569974554707,
	"grad_norm": 0.2695421874523163,
	"learning_rate": 1.6551126795408016e-05,
	"loss": 1.2262,
	"step": 79
	},
	{
	"epoch": 0.6513994910941476,
	"grad_norm": 0.288644403219223,
	"learning_rate": 1.577527884852619e-05,
	"loss": 1.1969,
	"step": 80
	},
	{
	"epoch": 0.6595419847328244,
	"grad_norm": 0.29181233048439026,
	"learning_rate": 1.5045165171893116e-05,
	"loss": 1.163,
	"step": 81
	},
	{
	"epoch": 0.6676844783715012,
	"grad_norm": 0.2998856008052826,
	"learning_rate": 1.4361637045396029e-05,
	"loss": 1.0569,
	"step": 82
	},
	{
	"epoch": 0.6758269720101782,
	"grad_norm": 0.3256518244743347,
	"learning_rate": 1.3725491432254624e-05,
	"loss": 1.0537,
	"step": 83
	},
	{
	"epoch": 0.683969465648855,
	"grad_norm": 0.29111307859420776,
	"learning_rate": 1.313747004979751e-05,
	"loss": 1.0298,
	"step": 84
	},
	{
	"epoch": 0.6921119592875318,
	"grad_norm": 0.32174497842788696,
	"learning_rate": 1.2598258504653081e-05,
	"loss": 0.9976,
	"step": 85
	},
	{
	"epoch": 0.7002544529262087,
	"grad_norm": 0.36173349618911743,
	"learning_rate": 1.2108485493362765e-05,
	"loss": 0.9361,
	"step": 86
	},
	{
	"epoch": 0.7083969465648855,
	"grad_norm": 0.3511975407600403,
	"learning_rate": 1.1668722069349041e-05,
	"loss": 0.8343,
	"step": 87
	},
	{
	"epoch": 0.7165394402035623,
	"grad_norm": 0.2947863042354584,
	"learning_rate": 1.1279480977092635e-05,
	"loss": 1.3039,
	"step": 88
	},
	{
	"epoch": 0.7246819338422392,
	"grad_norm": 0.2641090154647827,
	"learning_rate": 1.094121605429547e-05,
	"loss": 1.2791,
	"step": 89
	},
	{
	"epoch": 0.732824427480916,
	"grad_norm": 0.2599228024482727,
	"learning_rate": 1.0654321702726141e-05,
	"loss": 1.2946,
	"step": 90
	},
	{
	"epoch": 0.7409669211195928,
	"grad_norm": 0.2754274308681488,
	"learning_rate": 1.0419132428365116e-05,
	"loss": 1.2478,
	"step": 91
	},
	{
	"epoch": 0.7491094147582698,
	"grad_norm": 0.2846546173095703,
	"learning_rate": 1.0235922451385733e-05,
	"loss": 1.2817,
	"step": 92
	},
	{
	"epoch": 0.7572519083969466,
	"grad_norm": 0.29695919156074524,
	"learning_rate": 1.0104905386425733e-05,
	"loss": 1.2161,
	"step": 93
	},
	{
	"epoch": 0.7653944020356234,
	"grad_norm": 0.29593130946159363,
	"learning_rate": 1.002623399352217e-05,
	"loss": 1.1682,
	"step": 94
	},
	{
	"epoch": 0.7735368956743003,
	"grad_norm": 0.2888301908969879,
	"learning_rate": 1e-05,
	"loss": 1.0711,
	"step": 95
	}
	],
	"logging_steps": 1,
	"max_steps": 95,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 25,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 1,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.0685709840233267e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}