Stewart Slocum

Add fine-tuned model

f1298db 3 months ago

61.6 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 0,
	"global_step": 351,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.002849002849002849,
	"grad_norm": 1.4838141202926636,
	"learning_rate": 1e-05,
	"loss": 2.366,
	"step": 1
	},
	{
	"epoch": 0.005698005698005698,
	"grad_norm": 1.4262256622314453,
	"learning_rate": 9.971509971509972e-06,
	"loss": 2.4139,
	"step": 2
	},
	{
	"epoch": 0.008547008547008548,
	"grad_norm": 1.3603845834732056,
	"learning_rate": 9.943019943019944e-06,
	"loss": 2.2811,
	"step": 3
	},
	{
	"epoch": 0.011396011396011397,
	"grad_norm": 1.307405710220337,
	"learning_rate": 9.914529914529915e-06,
	"loss": 2.2546,
	"step": 4
	},
	{
	"epoch": 0.014245014245014245,
	"grad_norm": 1.2675021886825562,
	"learning_rate": 9.886039886039887e-06,
	"loss": 2.2322,
	"step": 5
	},
	{
	"epoch": 0.017094017094017096,
	"grad_norm": 1.2081060409545898,
	"learning_rate": 9.857549857549858e-06,
	"loss": 2.2255,
	"step": 6
	},
	{
	"epoch": 0.019943019943019943,
	"grad_norm": 1.104535698890686,
	"learning_rate": 9.82905982905983e-06,
	"loss": 2.2139,
	"step": 7
	},
	{
	"epoch": 0.022792022792022793,
	"grad_norm": 1.0799970626831055,
	"learning_rate": 9.800569800569801e-06,
	"loss": 2.2049,
	"step": 8
	},
	{
	"epoch": 0.02564102564102564,
	"grad_norm": 0.9630372524261475,
	"learning_rate": 9.772079772079773e-06,
	"loss": 2.1045,
	"step": 9
	},
	{
	"epoch": 0.02849002849002849,
	"grad_norm": 0.9740710854530334,
	"learning_rate": 9.743589743589744e-06,
	"loss": 2.1669,
	"step": 10
	},
	{
	"epoch": 0.03133903133903134,
	"grad_norm": 0.9871430397033691,
	"learning_rate": 9.715099715099716e-06,
	"loss": 2.1666,
	"step": 11
	},
	{
	"epoch": 0.03418803418803419,
	"grad_norm": 0.9979017376899719,
	"learning_rate": 9.686609686609687e-06,
	"loss": 2.2347,
	"step": 12
	},
	{
	"epoch": 0.037037037037037035,
	"grad_norm": 0.921946108341217,
	"learning_rate": 9.658119658119659e-06,
	"loss": 2.1309,
	"step": 13
	},
	{
	"epoch": 0.039886039886039885,
	"grad_norm": 0.9126842617988586,
	"learning_rate": 9.62962962962963e-06,
	"loss": 2.0519,
	"step": 14
	},
	{
	"epoch": 0.042735042735042736,
	"grad_norm": 0.8587276935577393,
	"learning_rate": 9.601139601139601e-06,
	"loss": 2.0816,
	"step": 15
	},
	{
	"epoch": 0.045584045584045586,
	"grad_norm": 0.8564528822898865,
	"learning_rate": 9.572649572649575e-06,
	"loss": 2.0918,
	"step": 16
	},
	{
	"epoch": 0.04843304843304843,
	"grad_norm": 0.8116742968559265,
	"learning_rate": 9.544159544159544e-06,
	"loss": 1.9883,
	"step": 17
	},
	{
	"epoch": 0.05128205128205128,
	"grad_norm": 0.7653638124465942,
	"learning_rate": 9.515669515669516e-06,
	"loss": 2.008,
	"step": 18
	},
	{
	"epoch": 0.05413105413105413,
	"grad_norm": 0.758541464805603,
	"learning_rate": 9.487179487179487e-06,
	"loss": 2.0232,
	"step": 19
	},
	{
	"epoch": 0.05698005698005698,
	"grad_norm": 0.7756889462471008,
	"learning_rate": 9.458689458689459e-06,
	"loss": 2.0479,
	"step": 20
	},
	{
	"epoch": 0.05982905982905983,
	"grad_norm": 0.8094788789749146,
	"learning_rate": 9.430199430199432e-06,
	"loss": 2.0904,
	"step": 21
	},
	{
	"epoch": 0.06267806267806268,
	"grad_norm": 0.6886956691741943,
	"learning_rate": 9.401709401709402e-06,
	"loss": 1.9566,
	"step": 22
	},
	{
	"epoch": 0.06552706552706553,
	"grad_norm": 0.6763948798179626,
	"learning_rate": 9.373219373219375e-06,
	"loss": 1.9283,
	"step": 23
	},
	{
	"epoch": 0.06837606837606838,
	"grad_norm": 0.6754049062728882,
	"learning_rate": 9.344729344729345e-06,
	"loss": 1.9353,
	"step": 24
	},
	{
	"epoch": 0.07122507122507123,
	"grad_norm": 0.6518625617027283,
	"learning_rate": 9.316239316239318e-06,
	"loss": 1.9165,
	"step": 25
	},
	{
	"epoch": 0.07407407407407407,
	"grad_norm": 0.6429179906845093,
	"learning_rate": 9.287749287749288e-06,
	"loss": 1.9261,
	"step": 26
	},
	{
	"epoch": 0.07692307692307693,
	"grad_norm": 0.6808933019638062,
	"learning_rate": 9.25925925925926e-06,
	"loss": 1.9784,
	"step": 27
	},
	{
	"epoch": 0.07977207977207977,
	"grad_norm": 0.7099093198776245,
	"learning_rate": 9.230769230769232e-06,
	"loss": 1.9884,
	"step": 28
	},
	{
	"epoch": 0.08262108262108261,
	"grad_norm": 0.6004197597503662,
	"learning_rate": 9.202279202279202e-06,
	"loss": 1.8912,
	"step": 29
	},
	{
	"epoch": 0.08547008547008547,
	"grad_norm": 0.5550093650817871,
	"learning_rate": 9.173789173789175e-06,
	"loss": 1.7948,
	"step": 30
	},
	{
	"epoch": 0.08831908831908832,
	"grad_norm": 0.6177744269371033,
	"learning_rate": 9.145299145299145e-06,
	"loss": 1.9004,
	"step": 31
	},
	{
	"epoch": 0.09116809116809117,
	"grad_norm": 0.5736203789710999,
	"learning_rate": 9.116809116809118e-06,
	"loss": 1.8579,
	"step": 32
	},
	{
	"epoch": 0.09401709401709402,
	"grad_norm": 0.5455344915390015,
	"learning_rate": 9.088319088319088e-06,
	"loss": 1.8232,
	"step": 33
	},
	{
	"epoch": 0.09686609686609686,
	"grad_norm": 0.5457695126533508,
	"learning_rate": 9.059829059829061e-06,
	"loss": 1.8387,
	"step": 34
	},
	{
	"epoch": 0.09971509971509972,
	"grad_norm": 0.6495256423950195,
	"learning_rate": 9.031339031339033e-06,
	"loss": 1.9007,
	"step": 35
	},
	{
	"epoch": 0.10256410256410256,
	"grad_norm": 0.553978443145752,
	"learning_rate": 9.002849002849004e-06,
	"loss": 1.7967,
	"step": 36
	},
	{
	"epoch": 0.10541310541310542,
	"grad_norm": 0.6648301482200623,
	"learning_rate": 8.974358974358976e-06,
	"loss": 1.8203,
	"step": 37
	},
	{
	"epoch": 0.10826210826210826,
	"grad_norm": 0.604141354560852,
	"learning_rate": 8.945868945868947e-06,
	"loss": 1.8569,
	"step": 38
	},
	{
	"epoch": 0.1111111111111111,
	"grad_norm": 0.5134737491607666,
	"learning_rate": 8.917378917378919e-06,
	"loss": 1.7601,
	"step": 39
	},
	{
	"epoch": 0.11396011396011396,
	"grad_norm": 0.5309232473373413,
	"learning_rate": 8.888888888888888e-06,
	"loss": 1.8382,
	"step": 40
	},
	{
	"epoch": 0.1168091168091168,
	"grad_norm": 0.5077832937240601,
	"learning_rate": 8.860398860398861e-06,
	"loss": 1.7595,
	"step": 41
	},
	{
	"epoch": 0.11965811965811966,
	"grad_norm": 0.511060357093811,
	"learning_rate": 8.831908831908833e-06,
	"loss": 1.7981,
	"step": 42
	},
	{
	"epoch": 0.1225071225071225,
	"grad_norm": 0.48027244210243225,
	"learning_rate": 8.803418803418804e-06,
	"loss": 1.726,
	"step": 43
	},
	{
	"epoch": 0.12535612535612536,
	"grad_norm": 0.4738457202911377,
	"learning_rate": 8.774928774928776e-06,
	"loss": 1.7552,
	"step": 44
	},
	{
	"epoch": 0.1282051282051282,
	"grad_norm": 0.4702482223510742,
	"learning_rate": 8.746438746438747e-06,
	"loss": 1.7324,
	"step": 45
	},
	{
	"epoch": 0.13105413105413105,
	"grad_norm": 0.48187750577926636,
	"learning_rate": 8.717948717948719e-06,
	"loss": 1.7393,
	"step": 46
	},
	{
	"epoch": 0.1339031339031339,
	"grad_norm": 0.46382951736450195,
	"learning_rate": 8.68945868945869e-06,
	"loss": 1.7103,
	"step": 47
	},
	{
	"epoch": 0.13675213675213677,
	"grad_norm": 0.5777999758720398,
	"learning_rate": 8.660968660968662e-06,
	"loss": 1.7991,
	"step": 48
	},
	{
	"epoch": 0.1396011396011396,
	"grad_norm": 0.46543341875076294,
	"learning_rate": 8.632478632478633e-06,
	"loss": 1.7483,
	"step": 49
	},
	{
	"epoch": 0.14245014245014245,
	"grad_norm": 0.5707411766052246,
	"learning_rate": 8.603988603988605e-06,
	"loss": 1.7243,
	"step": 50
	},
	{
	"epoch": 0.1452991452991453,
	"grad_norm": 0.5121602416038513,
	"learning_rate": 8.575498575498576e-06,
	"loss": 1.7487,
	"step": 51
	},
	{
	"epoch": 0.14814814814814814,
	"grad_norm": 0.45368504524230957,
	"learning_rate": 8.547008547008548e-06,
	"loss": 1.7515,
	"step": 52
	},
	{
	"epoch": 0.150997150997151,
	"grad_norm": 0.44115832448005676,
	"learning_rate": 8.518518518518519e-06,
	"loss": 1.7165,
	"step": 53
	},
	{
	"epoch": 0.15384615384615385,
	"grad_norm": 0.43293115496635437,
	"learning_rate": 8.49002849002849e-06,
	"loss": 1.7247,
	"step": 54
	},
	{
	"epoch": 0.15669515669515668,
	"grad_norm": 0.4369884431362152,
	"learning_rate": 8.461538461538462e-06,
	"loss": 1.7046,
	"step": 55
	},
	{
	"epoch": 0.15954415954415954,
	"grad_norm": 0.44155994057655334,
	"learning_rate": 8.433048433048434e-06,
	"loss": 1.7397,
	"step": 56
	},
	{
	"epoch": 0.1623931623931624,
	"grad_norm": 0.4158068895339966,
	"learning_rate": 8.404558404558405e-06,
	"loss": 1.7038,
	"step": 57
	},
	{
	"epoch": 0.16524216524216523,
	"grad_norm": 0.4057186245918274,
	"learning_rate": 8.376068376068377e-06,
	"loss": 1.6994,
	"step": 58
	},
	{
	"epoch": 0.16809116809116809,
	"grad_norm": 0.4907611906528473,
	"learning_rate": 8.347578347578348e-06,
	"loss": 1.7246,
	"step": 59
	},
	{
	"epoch": 0.17094017094017094,
	"grad_norm": 0.4695189595222473,
	"learning_rate": 8.31908831908832e-06,
	"loss": 1.7315,
	"step": 60
	},
	{
	"epoch": 0.1737891737891738,
	"grad_norm": 0.40382280945777893,
	"learning_rate": 8.290598290598293e-06,
	"loss": 1.6904,
	"step": 61
	},
	{
	"epoch": 0.17663817663817663,
	"grad_norm": 0.42537087202072144,
	"learning_rate": 8.262108262108262e-06,
	"loss": 1.7413,
	"step": 62
	},
	{
	"epoch": 0.1794871794871795,
	"grad_norm": 0.45500096678733826,
	"learning_rate": 8.233618233618234e-06,
	"loss": 1.687,
	"step": 63
	},
	{
	"epoch": 0.18233618233618235,
	"grad_norm": 0.5165032148361206,
	"learning_rate": 8.205128205128205e-06,
	"loss": 1.6565,
	"step": 64
	},
	{
	"epoch": 0.18518518518518517,
	"grad_norm": 0.4045052230358124,
	"learning_rate": 8.176638176638177e-06,
	"loss": 1.679,
	"step": 65
	},
	{
	"epoch": 0.18803418803418803,
	"grad_norm": 0.5608129501342773,
	"learning_rate": 8.148148148148148e-06,
	"loss": 1.6782,
	"step": 66
	},
	{
	"epoch": 0.1908831908831909,
	"grad_norm": 0.42527124285697937,
	"learning_rate": 8.11965811965812e-06,
	"loss": 1.6164,
	"step": 67
	},
	{
	"epoch": 0.19373219373219372,
	"grad_norm": 0.39863091707229614,
	"learning_rate": 8.091168091168093e-06,
	"loss": 1.6564,
	"step": 68
	},
	{
	"epoch": 0.19658119658119658,
	"grad_norm": 0.40516364574432373,
	"learning_rate": 8.062678062678063e-06,
	"loss": 1.5941,
	"step": 69
	},
	{
	"epoch": 0.19943019943019943,
	"grad_norm": 0.42938536405563354,
	"learning_rate": 8.034188034188036e-06,
	"loss": 1.6471,
	"step": 70
	},
	{
	"epoch": 0.2022792022792023,
	"grad_norm": 0.3754700720310211,
	"learning_rate": 8.005698005698006e-06,
	"loss": 1.637,
	"step": 71
	},
	{
	"epoch": 0.20512820512820512,
	"grad_norm": 0.4259706735610962,
	"learning_rate": 7.977207977207979e-06,
	"loss": 1.6063,
	"step": 72
	},
	{
	"epoch": 0.20797720797720798,
	"grad_norm": 0.41146427392959595,
	"learning_rate": 7.948717948717949e-06,
	"loss": 1.6559,
	"step": 73
	},
	{
	"epoch": 0.21082621082621084,
	"grad_norm": 0.3858882486820221,
	"learning_rate": 7.92022792022792e-06,
	"loss": 1.6355,
	"step": 74
	},
	{
	"epoch": 0.21367521367521367,
	"grad_norm": 0.46363890171051025,
	"learning_rate": 7.891737891737893e-06,
	"loss": 1.7049,
	"step": 75
	},
	{
	"epoch": 0.21652421652421652,
	"grad_norm": 0.40698277950286865,
	"learning_rate": 7.863247863247863e-06,
	"loss": 1.6436,
	"step": 76
	},
	{
	"epoch": 0.21937321937321938,
	"grad_norm": 0.3834919035434723,
	"learning_rate": 7.834757834757836e-06,
	"loss": 1.5902,
	"step": 77
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 0.3849916160106659,
	"learning_rate": 7.806267806267806e-06,
	"loss": 1.6127,
	"step": 78
	},
	{
	"epoch": 0.22507122507122507,
	"grad_norm": 0.6278889179229736,
	"learning_rate": 7.77777777777778e-06,
	"loss": 1.6641,
	"step": 79
	},
	{
	"epoch": 0.22792022792022792,
	"grad_norm": 0.4905427396297455,
	"learning_rate": 7.749287749287749e-06,
	"loss": 1.5825,
	"step": 80
	},
	{
	"epoch": 0.23076923076923078,
	"grad_norm": 0.4097338318824768,
	"learning_rate": 7.720797720797722e-06,
	"loss": 1.5964,
	"step": 81
	},
	{
	"epoch": 0.2336182336182336,
	"grad_norm": 0.3952528238296509,
	"learning_rate": 7.692307692307694e-06,
	"loss": 1.6584,
	"step": 82
	},
	{
	"epoch": 0.23646723646723647,
	"grad_norm": 0.38913223147392273,
	"learning_rate": 7.663817663817665e-06,
	"loss": 1.5694,
	"step": 83
	},
	{
	"epoch": 0.23931623931623933,
	"grad_norm": 0.391777902841568,
	"learning_rate": 7.635327635327637e-06,
	"loss": 1.6378,
	"step": 84
	},
	{
	"epoch": 0.24216524216524216,
	"grad_norm": 0.41954416036605835,
	"learning_rate": 7.606837606837607e-06,
	"loss": 1.6073,
	"step": 85
	},
	{
	"epoch": 0.245014245014245,
	"grad_norm": 0.3974544107913971,
	"learning_rate": 7.578347578347579e-06,
	"loss": 1.6005,
	"step": 86
	},
	{
	"epoch": 0.24786324786324787,
	"grad_norm": 0.43366730213165283,
	"learning_rate": 7.54985754985755e-06,
	"loss": 1.5905,
	"step": 87
	},
	{
	"epoch": 0.25071225071225073,
	"grad_norm": 0.37673377990722656,
	"learning_rate": 7.521367521367522e-06,
	"loss": 1.562,
	"step": 88
	},
	{
	"epoch": 0.2535612535612536,
	"grad_norm": 0.48865458369255066,
	"learning_rate": 7.492877492877494e-06,
	"loss": 1.5934,
	"step": 89
	},
	{
	"epoch": 0.2564102564102564,
	"grad_norm": 0.38269999623298645,
	"learning_rate": 7.4643874643874645e-06,
	"loss": 1.6024,
	"step": 90
	},
	{
	"epoch": 0.25925925925925924,
	"grad_norm": 0.40311211347579956,
	"learning_rate": 7.435897435897437e-06,
	"loss": 1.6263,
	"step": 91
	},
	{
	"epoch": 0.2621082621082621,
	"grad_norm": 0.3799367845058441,
	"learning_rate": 7.4074074074074075e-06,
	"loss": 1.599,
	"step": 92
	},
	{
	"epoch": 0.26495726495726496,
	"grad_norm": 0.39559420943260193,
	"learning_rate": 7.37891737891738e-06,
	"loss": 1.6103,
	"step": 93
	},
	{
	"epoch": 0.2678062678062678,
	"grad_norm": 0.37981730699539185,
	"learning_rate": 7.350427350427351e-06,
	"loss": 1.598,
	"step": 94
	},
	{
	"epoch": 0.2706552706552707,
	"grad_norm": 0.3881866931915283,
	"learning_rate": 7.321937321937323e-06,
	"loss": 1.5843,
	"step": 95
	},
	{
	"epoch": 0.27350427350427353,
	"grad_norm": 0.3740154504776001,
	"learning_rate": 7.293447293447294e-06,
	"loss": 1.6069,
	"step": 96
	},
	{
	"epoch": 0.27635327635327633,
	"grad_norm": 0.3980708718299866,
	"learning_rate": 7.264957264957266e-06,
	"loss": 1.5667,
	"step": 97
	},
	{
	"epoch": 0.2792022792022792,
	"grad_norm": 0.37536391615867615,
	"learning_rate": 7.236467236467237e-06,
	"loss": 1.5926,
	"step": 98
	},
	{
	"epoch": 0.28205128205128205,
	"grad_norm": 0.4172308146953583,
	"learning_rate": 7.207977207977208e-06,
	"loss": 1.5371,
	"step": 99
	},
	{
	"epoch": 0.2849002849002849,
	"grad_norm": 0.39715775847435,
	"learning_rate": 7.17948717948718e-06,
	"loss": 1.5931,
	"step": 100
	},
	{
	"epoch": 0.28774928774928776,
	"grad_norm": 0.4845562279224396,
	"learning_rate": 7.1509971509971524e-06,
	"loss": 1.6267,
	"step": 101
	},
	{
	"epoch": 0.2905982905982906,
	"grad_norm": 0.38772156834602356,
	"learning_rate": 7.122507122507123e-06,
	"loss": 1.5949,
	"step": 102
	},
	{
	"epoch": 0.2934472934472934,
	"grad_norm": 0.3815441429615021,
	"learning_rate": 7.0940170940170945e-06,
	"loss": 1.5758,
	"step": 103
	},
	{
	"epoch": 0.2962962962962963,
	"grad_norm": 0.4964717626571655,
	"learning_rate": 7.065527065527066e-06,
	"loss": 1.5653,
	"step": 104
	},
	{
	"epoch": 0.29914529914529914,
	"grad_norm": 0.378212571144104,
	"learning_rate": 7.0370370370370375e-06,
	"loss": 1.536,
	"step": 105
	},
	{
	"epoch": 0.301994301994302,
	"grad_norm": 0.36918291449546814,
	"learning_rate": 7.008547008547009e-06,
	"loss": 1.555,
	"step": 106
	},
	{
	"epoch": 0.30484330484330485,
	"grad_norm": 0.39171653985977173,
	"learning_rate": 6.9800569800569804e-06,
	"loss": 1.6057,
	"step": 107
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 0.5356259942054749,
	"learning_rate": 6.951566951566953e-06,
	"loss": 1.5825,
	"step": 108
	},
	{
	"epoch": 0.31054131054131057,
	"grad_norm": 0.40925300121307373,
	"learning_rate": 6.923076923076923e-06,
	"loss": 1.6084,
	"step": 109
	},
	{
	"epoch": 0.31339031339031337,
	"grad_norm": 0.3943912386894226,
	"learning_rate": 6.894586894586896e-06,
	"loss": 1.5231,
	"step": 110
	},
	{
	"epoch": 0.3162393162393162,
	"grad_norm": 0.40087035298347473,
	"learning_rate": 6.866096866096866e-06,
	"loss": 1.5833,
	"step": 111
	},
	{
	"epoch": 0.3190883190883191,
	"grad_norm": 0.3822116553783417,
	"learning_rate": 6.837606837606839e-06,
	"loss": 1.5477,
	"step": 112
	},
	{
	"epoch": 0.32193732193732194,
	"grad_norm": 0.39919513463974,
	"learning_rate": 6.809116809116809e-06,
	"loss": 1.555,
	"step": 113
	},
	{
	"epoch": 0.3247863247863248,
	"grad_norm": 0.39128148555755615,
	"learning_rate": 6.780626780626781e-06,
	"loss": 1.5886,
	"step": 114
	},
	{
	"epoch": 0.32763532763532766,
	"grad_norm": 0.3694957196712494,
	"learning_rate": 6.752136752136753e-06,
	"loss": 1.4937,
	"step": 115
	},
	{
	"epoch": 0.33048433048433046,
	"grad_norm": 0.4147852659225464,
	"learning_rate": 6.723646723646724e-06,
	"loss": 1.5697,
	"step": 116
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.4091155230998993,
	"learning_rate": 6.695156695156696e-06,
	"loss": 1.511,
	"step": 117
	},
	{
	"epoch": 0.33618233618233617,
	"grad_norm": 0.3905634582042694,
	"learning_rate": 6.666666666666667e-06,
	"loss": 1.5462,
	"step": 118
	},
	{
	"epoch": 0.33903133903133903,
	"grad_norm": 0.4323817491531372,
	"learning_rate": 6.638176638176639e-06,
	"loss": 1.5459,
	"step": 119
	},
	{
	"epoch": 0.3418803418803419,
	"grad_norm": 0.38668230175971985,
	"learning_rate": 6.60968660968661e-06,
	"loss": 1.5664,
	"step": 120
	},
	{
	"epoch": 0.34472934472934474,
	"grad_norm": 0.4649519622325897,
	"learning_rate": 6.581196581196582e-06,
	"loss": 1.5827,
	"step": 121
	},
	{
	"epoch": 0.3475783475783476,
	"grad_norm": 0.4004313051700592,
	"learning_rate": 6.552706552706553e-06,
	"loss": 1.4653,
	"step": 122
	},
	{
	"epoch": 0.3504273504273504,
	"grad_norm": 0.3949541449546814,
	"learning_rate": 6.524216524216525e-06,
	"loss": 1.5285,
	"step": 123
	},
	{
	"epoch": 0.35327635327635326,
	"grad_norm": 0.6077877283096313,
	"learning_rate": 6.495726495726496e-06,
	"loss": 1.5648,
	"step": 124
	},
	{
	"epoch": 0.3561253561253561,
	"grad_norm": 0.5344558358192444,
	"learning_rate": 6.467236467236467e-06,
	"loss": 1.5311,
	"step": 125
	},
	{
	"epoch": 0.358974358974359,
	"grad_norm": 0.38816729187965393,
	"learning_rate": 6.438746438746439e-06,
	"loss": 1.5139,
	"step": 126
	},
	{
	"epoch": 0.36182336182336183,
	"grad_norm": 0.3926841914653778,
	"learning_rate": 6.410256410256412e-06,
	"loss": 1.5277,
	"step": 127
	},
	{
	"epoch": 0.3646723646723647,
	"grad_norm": 0.40280261635780334,
	"learning_rate": 6.381766381766382e-06,
	"loss": 1.553,
	"step": 128
	},
	{
	"epoch": 0.36752136752136755,
	"grad_norm": 0.38559049367904663,
	"learning_rate": 6.3532763532763546e-06,
	"loss": 1.5269,
	"step": 129
	},
	{
	"epoch": 0.37037037037037035,
	"grad_norm": 0.38594579696655273,
	"learning_rate": 6.324786324786325e-06,
	"loss": 1.5185,
	"step": 130
	},
	{
	"epoch": 0.3732193732193732,
	"grad_norm": 0.372689425945282,
	"learning_rate": 6.296296296296297e-06,
	"loss": 1.5058,
	"step": 131
	},
	{
	"epoch": 0.37606837606837606,
	"grad_norm": 0.3884972333908081,
	"learning_rate": 6.267806267806268e-06,
	"loss": 1.5255,
	"step": 132
	},
	{
	"epoch": 0.3789173789173789,
	"grad_norm": 0.40464359521865845,
	"learning_rate": 6.23931623931624e-06,
	"loss": 1.5212,
	"step": 133
	},
	{
	"epoch": 0.3817663817663818,
	"grad_norm": 0.4075316786766052,
	"learning_rate": 6.210826210826212e-06,
	"loss": 1.4987,
	"step": 134
	},
	{
	"epoch": 0.38461538461538464,
	"grad_norm": 0.41846784949302673,
	"learning_rate": 6.1823361823361825e-06,
	"loss": 1.5409,
	"step": 135
	},
	{
	"epoch": 0.38746438746438744,
	"grad_norm": 0.4159785509109497,
	"learning_rate": 6.153846153846155e-06,
	"loss": 1.5393,
	"step": 136
	},
	{
	"epoch": 0.3903133903133903,
	"grad_norm": 0.3839842975139618,
	"learning_rate": 6.1253561253561255e-06,
	"loss": 1.5139,
	"step": 137
	},
	{
	"epoch": 0.39316239316239315,
	"grad_norm": 0.5279687643051147,
	"learning_rate": 6.096866096866098e-06,
	"loss": 1.5747,
	"step": 138
	},
	{
	"epoch": 0.396011396011396,
	"grad_norm": 0.40492990612983704,
	"learning_rate": 6.0683760683760684e-06,
	"loss": 1.453,
	"step": 139
	},
	{
	"epoch": 0.39886039886039887,
	"grad_norm": 0.41720351576805115,
	"learning_rate": 6.039886039886041e-06,
	"loss": 1.4864,
	"step": 140
	},
	{
	"epoch": 0.4017094017094017,
	"grad_norm": 0.3866989016532898,
	"learning_rate": 6.011396011396012e-06,
	"loss": 1.4723,
	"step": 141
	},
	{
	"epoch": 0.4045584045584046,
	"grad_norm": 0.38849347829818726,
	"learning_rate": 5.982905982905983e-06,
	"loss": 1.4842,
	"step": 142
	},
	{
	"epoch": 0.4074074074074074,
	"grad_norm": 0.5428235530853271,
	"learning_rate": 5.954415954415955e-06,
	"loss": 1.5338,
	"step": 143
	},
	{
	"epoch": 0.41025641025641024,
	"grad_norm": 0.3945627808570862,
	"learning_rate": 5.925925925925926e-06,
	"loss": 1.528,
	"step": 144
	},
	{
	"epoch": 0.4131054131054131,
	"grad_norm": 0.3996782898902893,
	"learning_rate": 5.897435897435898e-06,
	"loss": 1.5212,
	"step": 145
	},
	{
	"epoch": 0.41595441595441596,
	"grad_norm": 0.4091893136501312,
	"learning_rate": 5.868945868945869e-06,
	"loss": 1.5419,
	"step": 146
	},
	{
	"epoch": 0.4188034188034188,
	"grad_norm": 0.3839370906352997,
	"learning_rate": 5.840455840455841e-06,
	"loss": 1.4778,
	"step": 147
	},
	{
	"epoch": 0.42165242165242167,
	"grad_norm": 0.3939463496208191,
	"learning_rate": 5.8119658119658126e-06,
	"loss": 1.4912,
	"step": 148
	},
	{
	"epoch": 0.42450142450142453,
	"grad_norm": 0.5488878488540649,
	"learning_rate": 5.783475783475784e-06,
	"loss": 1.459,
	"step": 149
	},
	{
	"epoch": 0.42735042735042733,
	"grad_norm": 0.6062666773796082,
	"learning_rate": 5.7549857549857555e-06,
	"loss": 1.4166,
	"step": 150
	},
	{
	"epoch": 0.4301994301994302,
	"grad_norm": 0.5629584193229675,
	"learning_rate": 5.726495726495727e-06,
	"loss": 1.4818,
	"step": 151
	},
	{
	"epoch": 0.43304843304843305,
	"grad_norm": 0.41644972562789917,
	"learning_rate": 5.6980056980056985e-06,
	"loss": 1.4625,
	"step": 152
	},
	{
	"epoch": 0.4358974358974359,
	"grad_norm": 0.4007890820503235,
	"learning_rate": 5.669515669515669e-06,
	"loss": 1.4898,
	"step": 153
	},
	{
	"epoch": 0.43874643874643876,
	"grad_norm": 0.5906901359558105,
	"learning_rate": 5.641025641025641e-06,
	"loss": 1.5235,
	"step": 154
	},
	{
	"epoch": 0.4415954415954416,
	"grad_norm": 0.5607777237892151,
	"learning_rate": 5.612535612535614e-06,
	"loss": 1.5234,
	"step": 155
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 0.3959032893180847,
	"learning_rate": 5.584045584045584e-06,
	"loss": 1.4788,
	"step": 156
	},
	{
	"epoch": 0.4472934472934473,
	"grad_norm": 0.4064564108848572,
	"learning_rate": 5.555555555555557e-06,
	"loss": 1.503,
	"step": 157
	},
	{
	"epoch": 0.45014245014245013,
	"grad_norm": 0.39798179268836975,
	"learning_rate": 5.527065527065527e-06,
	"loss": 1.5001,
	"step": 158
	},
	{
	"epoch": 0.452991452991453,
	"grad_norm": 0.45741236209869385,
	"learning_rate": 5.498575498575499e-06,
	"loss": 1.5012,
	"step": 159
	},
	{
	"epoch": 0.45584045584045585,
	"grad_norm": 0.45142683386802673,
	"learning_rate": 5.470085470085471e-06,
	"loss": 1.5039,
	"step": 160
	},
	{
	"epoch": 0.4586894586894587,
	"grad_norm": 0.39934027194976807,
	"learning_rate": 5.441595441595442e-06,
	"loss": 1.4824,
	"step": 161
	},
	{
	"epoch": 0.46153846153846156,
	"grad_norm": 0.3966750502586365,
	"learning_rate": 5.413105413105414e-06,
	"loss": 1.4791,
	"step": 162
	},
	{
	"epoch": 0.46438746438746437,
	"grad_norm": 0.4393257200717926,
	"learning_rate": 5.384615384615385e-06,
	"loss": 1.449,
	"step": 163
	},
	{
	"epoch": 0.4672364672364672,
	"grad_norm": 0.42632415890693665,
	"learning_rate": 5.356125356125357e-06,
	"loss": 1.5248,
	"step": 164
	},
	{
	"epoch": 0.4700854700854701,
	"grad_norm": 0.41508087515830994,
	"learning_rate": 5.327635327635328e-06,
	"loss": 1.4873,
	"step": 165
	},
	{
	"epoch": 0.47293447293447294,
	"grad_norm": 0.4311036467552185,
	"learning_rate": 5.2991452991453e-06,
	"loss": 1.4981,
	"step": 166
	},
	{
	"epoch": 0.4757834757834758,
	"grad_norm": 0.39872288703918457,
	"learning_rate": 5.270655270655271e-06,
	"loss": 1.4905,
	"step": 167
	},
	{
	"epoch": 0.47863247863247865,
	"grad_norm": 0.412751168012619,
	"learning_rate": 5.242165242165243e-06,
	"loss": 1.4728,
	"step": 168
	},
	{
	"epoch": 0.48148148148148145,
	"grad_norm": 0.40860670804977417,
	"learning_rate": 5.213675213675214e-06,
	"loss": 1.4986,
	"step": 169
	},
	{
	"epoch": 0.4843304843304843,
	"grad_norm": 0.4355701208114624,
	"learning_rate": 5.185185185185185e-06,
	"loss": 1.5109,
	"step": 170
	},
	{
	"epoch": 0.48717948717948717,
	"grad_norm": 0.43395113945007324,
	"learning_rate": 5.156695156695157e-06,
	"loss": 1.4995,
	"step": 171
	},
	{
	"epoch": 0.49002849002849,
	"grad_norm": 0.43208786845207214,
	"learning_rate": 5.128205128205128e-06,
	"loss": 1.4399,
	"step": 172
	},
	{
	"epoch": 0.4928774928774929,
	"grad_norm": 0.40610820055007935,
	"learning_rate": 5.0997150997151e-06,
	"loss": 1.4794,
	"step": 173
	},
	{
	"epoch": 0.49572649572649574,
	"grad_norm": 0.40242278575897217,
	"learning_rate": 5.071225071225072e-06,
	"loss": 1.4634,
	"step": 174
	},
	{
	"epoch": 0.4985754985754986,
	"grad_norm": 0.39585167169570923,
	"learning_rate": 5.042735042735043e-06,
	"loss": 1.4701,
	"step": 175
	},
	{
	"epoch": 0.5014245014245015,
	"grad_norm": 0.43933385610580444,
	"learning_rate": 5.014245014245015e-06,
	"loss": 1.4759,
	"step": 176
	},
	{
	"epoch": 0.5042735042735043,
	"grad_norm": 0.5048877000808716,
	"learning_rate": 4.985754985754986e-06,
	"loss": 1.4405,
	"step": 177
	},
	{
	"epoch": 0.5071225071225072,
	"grad_norm": 0.45279544591903687,
	"learning_rate": 4.957264957264958e-06,
	"loss": 1.5182,
	"step": 178
	},
	{
	"epoch": 0.50997150997151,
	"grad_norm": 0.40896686911582947,
	"learning_rate": 4.928774928774929e-06,
	"loss": 1.4857,
	"step": 179
	},
	{
	"epoch": 0.5128205128205128,
	"grad_norm": 0.6420154571533203,
	"learning_rate": 4.9002849002849006e-06,
	"loss": 1.4331,
	"step": 180
	},
	{
	"epoch": 0.5156695156695157,
	"grad_norm": 0.45687025785446167,
	"learning_rate": 4.871794871794872e-06,
	"loss": 1.4716,
	"step": 181
	},
	{
	"epoch": 0.5185185185185185,
	"grad_norm": 0.4174126088619232,
	"learning_rate": 4.8433048433048435e-06,
	"loss": 1.4636,
	"step": 182
	},
	{
	"epoch": 0.5213675213675214,
	"grad_norm": 0.3912286162376404,
	"learning_rate": 4.814814814814815e-06,
	"loss": 1.4534,
	"step": 183
	},
	{
	"epoch": 0.5242165242165242,
	"grad_norm": 0.44232121109962463,
	"learning_rate": 4.786324786324787e-06,
	"loss": 1.4286,
	"step": 184
	},
	{
	"epoch": 0.5270655270655271,
	"grad_norm": 0.4259029030799866,
	"learning_rate": 4.757834757834758e-06,
	"loss": 1.5174,
	"step": 185
	},
	{
	"epoch": 0.5299145299145299,
	"grad_norm": 0.39745402336120605,
	"learning_rate": 4.729344729344729e-06,
	"loss": 1.4393,
	"step": 186
	},
	{
	"epoch": 0.5327635327635327,
	"grad_norm": 0.7201390266418457,
	"learning_rate": 4.700854700854701e-06,
	"loss": 1.5721,
	"step": 187
	},
	{
	"epoch": 0.5356125356125356,
	"grad_norm": 0.42101916670799255,
	"learning_rate": 4.672364672364672e-06,
	"loss": 1.4847,
	"step": 188
	},
	{
	"epoch": 0.5384615384615384,
	"grad_norm": 0.4132574498653412,
	"learning_rate": 4.643874643874644e-06,
	"loss": 1.4632,
	"step": 189
	},
	{
	"epoch": 0.5413105413105413,
	"grad_norm": 0.44261249899864197,
	"learning_rate": 4.615384615384616e-06,
	"loss": 1.4767,
	"step": 190
	},
	{
	"epoch": 0.5441595441595442,
	"grad_norm": 0.4636523723602295,
	"learning_rate": 4.586894586894588e-06,
	"loss": 1.4868,
	"step": 191
	},
	{
	"epoch": 0.5470085470085471,
	"grad_norm": 0.4402620792388916,
	"learning_rate": 4.558404558404559e-06,
	"loss": 1.5096,
	"step": 192
	},
	{
	"epoch": 0.5498575498575499,
	"grad_norm": 0.46384042501449585,
	"learning_rate": 4.5299145299145306e-06,
	"loss": 1.5022,
	"step": 193
	},
	{
	"epoch": 0.5527065527065527,
	"grad_norm": 0.4248226583003998,
	"learning_rate": 4.501424501424502e-06,
	"loss": 1.4968,
	"step": 194
	},
	{
	"epoch": 0.5555555555555556,
	"grad_norm": 0.41844654083251953,
	"learning_rate": 4.4729344729344735e-06,
	"loss": 1.4441,
	"step": 195
	},
	{
	"epoch": 0.5584045584045584,
	"grad_norm": 0.4129433035850525,
	"learning_rate": 4.444444444444444e-06,
	"loss": 1.4598,
	"step": 196
	},
	{
	"epoch": 0.5612535612535613,
	"grad_norm": 0.4882029891014099,
	"learning_rate": 4.4159544159544165e-06,
	"loss": 1.5211,
	"step": 197
	},
	{
	"epoch": 0.5641025641025641,
	"grad_norm": 0.4571973979473114,
	"learning_rate": 4.387464387464388e-06,
	"loss": 1.4964,
	"step": 198
	},
	{
	"epoch": 0.5669515669515669,
	"grad_norm": 0.4153326451778412,
	"learning_rate": 4.358974358974359e-06,
	"loss": 1.4912,
	"step": 199
	},
	{
	"epoch": 0.5698005698005698,
	"grad_norm": 0.41810521483421326,
	"learning_rate": 4.330484330484331e-06,
	"loss": 1.4881,
	"step": 200
	},
	{
	"epoch": 0.5726495726495726,
	"grad_norm": 0.43121734261512756,
	"learning_rate": 4.301994301994302e-06,
	"loss": 1.4489,
	"step": 201
	},
	{
	"epoch": 0.5754985754985755,
	"grad_norm": 0.39392393827438354,
	"learning_rate": 4.273504273504274e-06,
	"loss": 1.4354,
	"step": 202
	},
	{
	"epoch": 0.5783475783475783,
	"grad_norm": 0.4206382632255554,
	"learning_rate": 4.245014245014245e-06,
	"loss": 1.4294,
	"step": 203
	},
	{
	"epoch": 0.5811965811965812,
	"grad_norm": 0.7128792405128479,
	"learning_rate": 4.216524216524217e-06,
	"loss": 1.4796,
	"step": 204
	},
	{
	"epoch": 0.584045584045584,
	"grad_norm": 0.42449796199798584,
	"learning_rate": 4.188034188034188e-06,
	"loss": 1.44,
	"step": 205
	},
	{
	"epoch": 0.5868945868945868,
	"grad_norm": 0.40819981694221497,
	"learning_rate": 4.15954415954416e-06,
	"loss": 1.4674,
	"step": 206
	},
	{
	"epoch": 0.5897435897435898,
	"grad_norm": 0.4191708564758301,
	"learning_rate": 4.131054131054131e-06,
	"loss": 1.4231,
	"step": 207
	},
	{
	"epoch": 0.5925925925925926,
	"grad_norm": 0.4241287410259247,
	"learning_rate": 4.102564102564103e-06,
	"loss": 1.4841,
	"step": 208
	},
	{
	"epoch": 0.5954415954415955,
	"grad_norm": 0.4283653795719147,
	"learning_rate": 4.074074074074074e-06,
	"loss": 1.4251,
	"step": 209
	},
	{
	"epoch": 0.5982905982905983,
	"grad_norm": 0.41446876525878906,
	"learning_rate": 4.0455840455840465e-06,
	"loss": 1.4496,
	"step": 210
	},
	{
	"epoch": 0.6011396011396012,
	"grad_norm": 0.4163020849227905,
	"learning_rate": 4.017094017094018e-06,
	"loss": 1.4273,
	"step": 211
	},
	{
	"epoch": 0.603988603988604,
	"grad_norm": 0.42851346731185913,
	"learning_rate": 3.9886039886039894e-06,
	"loss": 1.4727,
	"step": 212
	},
	{
	"epoch": 0.6068376068376068,
	"grad_norm": 0.4239060878753662,
	"learning_rate": 3.96011396011396e-06,
	"loss": 1.4318,
	"step": 213
	},
	{
	"epoch": 0.6096866096866097,
	"grad_norm": 0.40873628854751587,
	"learning_rate": 3.9316239316239315e-06,
	"loss": 1.4548,
	"step": 214
	},
	{
	"epoch": 0.6125356125356125,
	"grad_norm": 0.45280134677886963,
	"learning_rate": 3.903133903133903e-06,
	"loss": 1.4932,
	"step": 215
	},
	{
	"epoch": 0.6153846153846154,
	"grad_norm": 0.6247657537460327,
	"learning_rate": 3.8746438746438745e-06,
	"loss": 1.4499,
	"step": 216
	},
	{
	"epoch": 0.6182336182336182,
	"grad_norm": 0.4122682511806488,
	"learning_rate": 3.846153846153847e-06,
	"loss": 1.4218,
	"step": 217
	},
	{
	"epoch": 0.6210826210826211,
	"grad_norm": 0.40727391839027405,
	"learning_rate": 3.817663817663818e-06,
	"loss": 1.4726,
	"step": 218
	},
	{
	"epoch": 0.6239316239316239,
	"grad_norm": 0.4725242555141449,
	"learning_rate": 3.7891737891737893e-06,
	"loss": 1.4214,
	"step": 219
	},
	{
	"epoch": 0.6267806267806267,
	"grad_norm": 0.45712363719940186,
	"learning_rate": 3.760683760683761e-06,
	"loss": 1.4518,
	"step": 220
	},
	{
	"epoch": 0.6296296296296297,
	"grad_norm": 0.40573611855506897,
	"learning_rate": 3.7321937321937323e-06,
	"loss": 1.459,
	"step": 221
	},
	{
	"epoch": 0.6324786324786325,
	"grad_norm": 0.4086320400238037,
	"learning_rate": 3.7037037037037037e-06,
	"loss": 1.4395,
	"step": 222
	},
	{
	"epoch": 0.6353276353276354,
	"grad_norm": 0.4158555567264557,
	"learning_rate": 3.6752136752136756e-06,
	"loss": 1.4436,
	"step": 223
	},
	{
	"epoch": 0.6381766381766382,
	"grad_norm": 0.5216575264930725,
	"learning_rate": 3.646723646723647e-06,
	"loss": 1.4659,
	"step": 224
	},
	{
	"epoch": 0.6410256410256411,
	"grad_norm": 0.394228994846344,
	"learning_rate": 3.6182336182336186e-06,
	"loss": 1.4637,
	"step": 225
	},
	{
	"epoch": 0.6438746438746439,
	"grad_norm": 0.41643351316452026,
	"learning_rate": 3.58974358974359e-06,
	"loss": 1.4298,
	"step": 226
	},
	{
	"epoch": 0.6467236467236467,
	"grad_norm": 0.407087117433548,
	"learning_rate": 3.5612535612535615e-06,
	"loss": 1.4426,
	"step": 227
	},
	{
	"epoch": 0.6495726495726496,
	"grad_norm": 0.47986599802970886,
	"learning_rate": 3.532763532763533e-06,
	"loss": 1.5079,
	"step": 228
	},
	{
	"epoch": 0.6524216524216524,
	"grad_norm": 0.42481309175491333,
	"learning_rate": 3.5042735042735045e-06,
	"loss": 1.4422,
	"step": 229
	},
	{
	"epoch": 0.6552706552706553,
	"grad_norm": 0.43366938829421997,
	"learning_rate": 3.4757834757834764e-06,
	"loss": 1.467,
	"step": 230
	},
	{
	"epoch": 0.6581196581196581,
	"grad_norm": 0.5313072204589844,
	"learning_rate": 3.447293447293448e-06,
	"loss": 1.4382,
	"step": 231
	},
	{
	"epoch": 0.6609686609686609,
	"grad_norm": 0.40050390362739563,
	"learning_rate": 3.4188034188034193e-06,
	"loss": 1.4024,
	"step": 232
	},
	{
	"epoch": 0.6638176638176638,
	"grad_norm": 0.42196667194366455,
	"learning_rate": 3.3903133903133904e-06,
	"loss": 1.4825,
	"step": 233
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.4109940826892853,
	"learning_rate": 3.361823361823362e-06,
	"loss": 1.4036,
	"step": 234
	},
	{
	"epoch": 0.6695156695156695,
	"grad_norm": 0.41641300916671753,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 1.4409,
	"step": 235
	},
	{
	"epoch": 0.6723646723646723,
	"grad_norm": 0.4459202289581299,
	"learning_rate": 3.304843304843305e-06,
	"loss": 1.4422,
	"step": 236
	},
	{
	"epoch": 0.6752136752136753,
	"grad_norm": 0.40903767943382263,
	"learning_rate": 3.2763532763532767e-06,
	"loss": 1.4375,
	"step": 237
	},
	{
	"epoch": 0.6780626780626781,
	"grad_norm": 0.40536248683929443,
	"learning_rate": 3.247863247863248e-06,
	"loss": 1.4357,
	"step": 238
	},
	{
	"epoch": 0.6809116809116809,
	"grad_norm": 0.43088406324386597,
	"learning_rate": 3.2193732193732196e-06,
	"loss": 1.4428,
	"step": 239
	},
	{
	"epoch": 0.6837606837606838,
	"grad_norm": 0.43017005920410156,
	"learning_rate": 3.190883190883191e-06,
	"loss": 1.4213,
	"step": 240
	},
	{
	"epoch": 0.6866096866096866,
	"grad_norm": 0.43592897057533264,
	"learning_rate": 3.1623931623931626e-06,
	"loss": 1.5107,
	"step": 241
	},
	{
	"epoch": 0.6894586894586895,
	"grad_norm": 0.6451869606971741,
	"learning_rate": 3.133903133903134e-06,
	"loss": 1.4993,
	"step": 242
	},
	{
	"epoch": 0.6923076923076923,
	"grad_norm": 0.45624542236328125,
	"learning_rate": 3.105413105413106e-06,
	"loss": 1.4297,
	"step": 243
	},
	{
	"epoch": 0.6951566951566952,
	"grad_norm": 0.4131554067134857,
	"learning_rate": 3.0769230769230774e-06,
	"loss": 1.4272,
	"step": 244
	},
	{
	"epoch": 0.698005698005698,
	"grad_norm": 0.49703848361968994,
	"learning_rate": 3.048433048433049e-06,
	"loss": 1.4175,
	"step": 245
	},
	{
	"epoch": 0.7008547008547008,
	"grad_norm": 0.4367448091506958,
	"learning_rate": 3.0199430199430204e-06,
	"loss": 1.4585,
	"step": 246
	},
	{
	"epoch": 0.7037037037037037,
	"grad_norm": 0.44849011301994324,
	"learning_rate": 2.9914529914529914e-06,
	"loss": 1.4596,
	"step": 247
	},
	{
	"epoch": 0.7065527065527065,
	"grad_norm": 0.42930400371551514,
	"learning_rate": 2.962962962962963e-06,
	"loss": 1.4335,
	"step": 248
	},
	{
	"epoch": 0.7094017094017094,
	"grad_norm": 0.4332965612411499,
	"learning_rate": 2.9344729344729344e-06,
	"loss": 1.4509,
	"step": 249
	},
	{
	"epoch": 0.7122507122507122,
	"grad_norm": 0.44173556566238403,
	"learning_rate": 2.9059829059829063e-06,
	"loss": 1.4596,
	"step": 250
	},
	{
	"epoch": 0.7150997150997151,
	"grad_norm": 0.40930160880088806,
	"learning_rate": 2.8774928774928778e-06,
	"loss": 1.4327,
	"step": 251
	},
	{
	"epoch": 0.717948717948718,
	"grad_norm": 0.4137099087238312,
	"learning_rate": 2.8490028490028492e-06,
	"loss": 1.4119,
	"step": 252
	},
	{
	"epoch": 0.7207977207977208,
	"grad_norm": 0.43292713165283203,
	"learning_rate": 2.8205128205128207e-06,
	"loss": 1.4352,
	"step": 253
	},
	{
	"epoch": 0.7236467236467237,
	"grad_norm": 0.6853729486465454,
	"learning_rate": 2.792022792022792e-06,
	"loss": 1.4859,
	"step": 254
	},
	{
	"epoch": 0.7264957264957265,
	"grad_norm": 0.4223368465900421,
	"learning_rate": 2.7635327635327636e-06,
	"loss": 1.4189,
	"step": 255
	},
	{
	"epoch": 0.7293447293447294,
	"grad_norm": 0.4098432958126068,
	"learning_rate": 2.7350427350427355e-06,
	"loss": 1.4474,
	"step": 256
	},
	{
	"epoch": 0.7321937321937322,
	"grad_norm": 0.42546141147613525,
	"learning_rate": 2.706552706552707e-06,
	"loss": 1.4447,
	"step": 257
	},
	{
	"epoch": 0.7350427350427351,
	"grad_norm": 0.434319406747818,
	"learning_rate": 2.6780626780626785e-06,
	"loss": 1.4559,
	"step": 258
	},
	{
	"epoch": 0.7378917378917379,
	"grad_norm": 0.5959000587463379,
	"learning_rate": 2.64957264957265e-06,
	"loss": 1.3711,
	"step": 259
	},
	{
	"epoch": 0.7407407407407407,
	"grad_norm": 0.6558396220207214,
	"learning_rate": 2.6210826210826214e-06,
	"loss": 1.3735,
	"step": 260
	},
	{
	"epoch": 0.7435897435897436,
	"grad_norm": 0.4049711525440216,
	"learning_rate": 2.5925925925925925e-06,
	"loss": 1.4327,
	"step": 261
	},
	{
	"epoch": 0.7464387464387464,
	"grad_norm": 0.4057099223136902,
	"learning_rate": 2.564102564102564e-06,
	"loss": 1.4173,
	"step": 262
	},
	{
	"epoch": 0.7492877492877493,
	"grad_norm": 0.44100022315979004,
	"learning_rate": 2.535612535612536e-06,
	"loss": 1.4568,
	"step": 263
	},
	{
	"epoch": 0.7521367521367521,
	"grad_norm": 0.4259463846683502,
	"learning_rate": 2.5071225071225073e-06,
	"loss": 1.4473,
	"step": 264
	},
	{
	"epoch": 0.7549857549857549,
	"grad_norm": 0.47139763832092285,
	"learning_rate": 2.478632478632479e-06,
	"loss": 1.4467,
	"step": 265
	},
	{
	"epoch": 0.7578347578347578,
	"grad_norm": 0.4066116511821747,
	"learning_rate": 2.4501424501424503e-06,
	"loss": 1.4148,
	"step": 266
	},
	{
	"epoch": 0.7606837606837606,
	"grad_norm": 0.4442392587661743,
	"learning_rate": 2.4216524216524218e-06,
	"loss": 1.4166,
	"step": 267
	},
	{
	"epoch": 0.7635327635327636,
	"grad_norm": 0.4146524667739868,
	"learning_rate": 2.3931623931623937e-06,
	"loss": 1.4214,
	"step": 268
	},
	{
	"epoch": 0.7663817663817664,
	"grad_norm": 0.4352812170982361,
	"learning_rate": 2.3646723646723647e-06,
	"loss": 1.4268,
	"step": 269
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 0.4416466951370239,
	"learning_rate": 2.336182336182336e-06,
	"loss": 1.3947,
	"step": 270
	},
	{
	"epoch": 0.7720797720797721,
	"grad_norm": 0.4440385699272156,
	"learning_rate": 2.307692307692308e-06,
	"loss": 1.4114,
	"step": 271
	},
	{
	"epoch": 0.7749287749287749,
	"grad_norm": 0.42091333866119385,
	"learning_rate": 2.2792022792022796e-06,
	"loss": 1.4343,
	"step": 272
	},
	{
	"epoch": 0.7777777777777778,
	"grad_norm": 0.39965999126434326,
	"learning_rate": 2.250712250712251e-06,
	"loss": 1.4401,
	"step": 273
	},
	{
	"epoch": 0.7806267806267806,
	"grad_norm": 0.4088633060455322,
	"learning_rate": 2.222222222222222e-06,
	"loss": 1.3808,
	"step": 274
	},
	{
	"epoch": 0.7834757834757835,
	"grad_norm": 0.42541617155075073,
	"learning_rate": 2.193732193732194e-06,
	"loss": 1.45,
	"step": 275
	},
	{
	"epoch": 0.7863247863247863,
	"grad_norm": 0.42558950185775757,
	"learning_rate": 2.1652421652421654e-06,
	"loss": 1.4317,
	"step": 276
	},
	{
	"epoch": 0.7891737891737892,
	"grad_norm": 0.4297507703304291,
	"learning_rate": 2.136752136752137e-06,
	"loss": 1.4493,
	"step": 277
	},
	{
	"epoch": 0.792022792022792,
	"grad_norm": 0.42826247215270996,
	"learning_rate": 2.1082621082621084e-06,
	"loss": 1.4665,
	"step": 278
	},
	{
	"epoch": 0.7948717948717948,
	"grad_norm": 0.4104038178920746,
	"learning_rate": 2.07977207977208e-06,
	"loss": 1.3966,
	"step": 279
	},
	{
	"epoch": 0.7977207977207977,
	"grad_norm": 0.5832846164703369,
	"learning_rate": 2.0512820512820513e-06,
	"loss": 1.409,
	"step": 280
	},
	{
	"epoch": 0.8005698005698005,
	"grad_norm": 0.4132280647754669,
	"learning_rate": 2.0227920227920232e-06,
	"loss": 1.421,
	"step": 281
	},
	{
	"epoch": 0.8034188034188035,
	"grad_norm": 0.5175873637199402,
	"learning_rate": 1.9943019943019947e-06,
	"loss": 1.4251,
	"step": 282
	},
	{
	"epoch": 0.8062678062678063,
	"grad_norm": 0.3983429968357086,
	"learning_rate": 1.9658119658119658e-06,
	"loss": 1.4305,
	"step": 283
	},
	{
	"epoch": 0.8091168091168092,
	"grad_norm": 0.4195236563682556,
	"learning_rate": 1.9373219373219372e-06,
	"loss": 1.3955,
	"step": 284
	},
	{
	"epoch": 0.811965811965812,
	"grad_norm": 0.44437727332115173,
	"learning_rate": 1.908831908831909e-06,
	"loss": 1.3945,
	"step": 285
	},
	{
	"epoch": 0.8148148148148148,
	"grad_norm": 0.4069578945636749,
	"learning_rate": 1.8803418803418804e-06,
	"loss": 1.3872,
	"step": 286
	},
	{
	"epoch": 0.8176638176638177,
	"grad_norm": 0.4366849660873413,
	"learning_rate": 1.8518518518518519e-06,
	"loss": 1.4303,
	"step": 287
	},
	{
	"epoch": 0.8205128205128205,
	"grad_norm": 0.42686140537261963,
	"learning_rate": 1.8233618233618236e-06,
	"loss": 1.4297,
	"step": 288
	},
	{
	"epoch": 0.8233618233618234,
	"grad_norm": 0.4372996687889099,
	"learning_rate": 1.794871794871795e-06,
	"loss": 1.4205,
	"step": 289
	},
	{
	"epoch": 0.8262108262108262,
	"grad_norm": 0.5185275077819824,
	"learning_rate": 1.7663817663817665e-06,
	"loss": 1.4072,
	"step": 290
	},
	{
	"epoch": 0.8290598290598291,
	"grad_norm": 0.4375689625740051,
	"learning_rate": 1.7378917378917382e-06,
	"loss": 1.4093,
	"step": 291
	},
	{
	"epoch": 0.8319088319088319,
	"grad_norm": 0.6223400235176086,
	"learning_rate": 1.7094017094017097e-06,
	"loss": 1.4038,
	"step": 292
	},
	{
	"epoch": 0.8347578347578347,
	"grad_norm": 0.49658337235450745,
	"learning_rate": 1.680911680911681e-06,
	"loss": 1.4587,
	"step": 293
	},
	{
	"epoch": 0.8376068376068376,
	"grad_norm": 0.48749840259552,
	"learning_rate": 1.6524216524216524e-06,
	"loss": 1.4573,
	"step": 294
	},
	{
	"epoch": 0.8404558404558404,
	"grad_norm": 0.4375877380371094,
	"learning_rate": 1.623931623931624e-06,
	"loss": 1.4126,
	"step": 295
	},
	{
	"epoch": 0.8433048433048433,
	"grad_norm": 0.5864587426185608,
	"learning_rate": 1.5954415954415956e-06,
	"loss": 1.3915,
	"step": 296
	},
	{
	"epoch": 0.8461538461538461,
	"grad_norm": 0.4243745803833008,
	"learning_rate": 1.566951566951567e-06,
	"loss": 1.4475,
	"step": 297
	},
	{
	"epoch": 0.8490028490028491,
	"grad_norm": 0.5398270487785339,
	"learning_rate": 1.5384615384615387e-06,
	"loss": 1.3658,
	"step": 298
	},
	{
	"epoch": 0.8518518518518519,
	"grad_norm": 0.4248296916484833,
	"learning_rate": 1.5099715099715102e-06,
	"loss": 1.3898,
	"step": 299
	},
	{
	"epoch": 0.8547008547008547,
	"grad_norm": 0.4054194986820221,
	"learning_rate": 1.4814814814814815e-06,
	"loss": 1.3806,
	"step": 300
	},
	{
	"epoch": 0.8575498575498576,
	"grad_norm": 0.4230331778526306,
	"learning_rate": 1.4529914529914531e-06,
	"loss": 1.431,
	"step": 301
	},
	{
	"epoch": 0.8603988603988604,
	"grad_norm": 0.42785853147506714,
	"learning_rate": 1.4245014245014246e-06,
	"loss": 1.3905,
	"step": 302
	},
	{
	"epoch": 0.8632478632478633,
	"grad_norm": 0.6043952703475952,
	"learning_rate": 1.396011396011396e-06,
	"loss": 1.444,
	"step": 303
	},
	{
	"epoch": 0.8660968660968661,
	"grad_norm": 0.41546547412872314,
	"learning_rate": 1.3675213675213678e-06,
	"loss": 1.3876,
	"step": 304
	},
	{
	"epoch": 0.8689458689458689,
	"grad_norm": 0.5535686612129211,
	"learning_rate": 1.3390313390313392e-06,
	"loss": 1.3663,
	"step": 305
	},
	{
	"epoch": 0.8717948717948718,
	"grad_norm": 0.43172240257263184,
	"learning_rate": 1.3105413105413107e-06,
	"loss": 1.4281,
	"step": 306
	},
	{
	"epoch": 0.8746438746438746,
	"grad_norm": 0.4234292209148407,
	"learning_rate": 1.282051282051282e-06,
	"loss": 1.4105,
	"step": 307
	},
	{
	"epoch": 0.8774928774928775,
	"grad_norm": 0.4184323847293854,
	"learning_rate": 1.2535612535612537e-06,
	"loss": 1.3755,
	"step": 308
	},
	{
	"epoch": 0.8803418803418803,
	"grad_norm": 0.6069676876068115,
	"learning_rate": 1.2250712250712251e-06,
	"loss": 1.3666,
	"step": 309
	},
	{
	"epoch": 0.8831908831908832,
	"grad_norm": 0.4531959891319275,
	"learning_rate": 1.1965811965811968e-06,
	"loss": 1.4109,
	"step": 310
	},
	{
	"epoch": 0.886039886039886,
	"grad_norm": 0.49059048295021057,
	"learning_rate": 1.168091168091168e-06,
	"loss": 1.4259,
	"step": 311
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 0.4053284823894501,
	"learning_rate": 1.1396011396011398e-06,
	"loss": 1.4173,
	"step": 312
	},
	{
	"epoch": 0.8917378917378918,
	"grad_norm": 0.4258776307106018,
	"learning_rate": 1.111111111111111e-06,
	"loss": 1.4079,
	"step": 313
	},
	{
	"epoch": 0.8945868945868946,
	"grad_norm": 0.4315298795700073,
	"learning_rate": 1.0826210826210827e-06,
	"loss": 1.3791,
	"step": 314
	},
	{
	"epoch": 0.8974358974358975,
	"grad_norm": 0.48497509956359863,
	"learning_rate": 1.0541310541310542e-06,
	"loss": 1.4389,
	"step": 315
	},
	{
	"epoch": 0.9002849002849003,
	"grad_norm": 0.4596964716911316,
	"learning_rate": 1.0256410256410257e-06,
	"loss": 1.4253,
	"step": 316
	},
	{
	"epoch": 0.9031339031339032,
	"grad_norm": 0.43682560324668884,
	"learning_rate": 9.971509971509974e-07,
	"loss": 1.4358,
	"step": 317
	},
	{
	"epoch": 0.905982905982906,
	"grad_norm": 0.5284684896469116,
	"learning_rate": 9.686609686609686e-07,
	"loss": 1.3974,
	"step": 318
	},
	{
	"epoch": 0.9088319088319088,
	"grad_norm": 0.444614440202713,
	"learning_rate": 9.401709401709402e-07,
	"loss": 1.4258,
	"step": 319
	},
	{
	"epoch": 0.9116809116809117,
	"grad_norm": 0.41446149349212646,
	"learning_rate": 9.116809116809118e-07,
	"loss": 1.4093,
	"step": 320
	},
	{
	"epoch": 0.9145299145299145,
	"grad_norm": 0.505181074142456,
	"learning_rate": 8.831908831908833e-07,
	"loss": 1.4355,
	"step": 321
	},
	{
	"epoch": 0.9173789173789174,
	"grad_norm": 0.41858991980552673,
	"learning_rate": 8.547008547008548e-07,
	"loss": 1.4259,
	"step": 322
	},
	{
	"epoch": 0.9202279202279202,
	"grad_norm": 0.6958276033401489,
	"learning_rate": 8.262108262108262e-07,
	"loss": 1.4456,
	"step": 323
	},
	{
	"epoch": 0.9230769230769231,
	"grad_norm": 0.4824206829071045,
	"learning_rate": 7.977207977207978e-07,
	"loss": 1.4341,
	"step": 324
	},
	{
	"epoch": 0.9259259259259259,
	"grad_norm": 0.4208286702632904,
	"learning_rate": 7.692307692307694e-07,
	"loss": 1.4401,
	"step": 325
	},
	{
	"epoch": 0.9287749287749287,
	"grad_norm": 0.43090713024139404,
	"learning_rate": 7.407407407407407e-07,
	"loss": 1.4295,
	"step": 326
	},
	{
	"epoch": 0.9316239316239316,
	"grad_norm": 0.4124811589717865,
	"learning_rate": 7.122507122507123e-07,
	"loss": 1.4234,
	"step": 327
	},
	{
	"epoch": 0.9344729344729344,
	"grad_norm": 0.4865758419036865,
	"learning_rate": 6.837606837606839e-07,
	"loss": 1.4787,
	"step": 328
	},
	{
	"epoch": 0.9373219373219374,
	"grad_norm": 0.4624764323234558,
	"learning_rate": 6.552706552706554e-07,
	"loss": 1.3913,
	"step": 329
	},
	{
	"epoch": 0.9401709401709402,
	"grad_norm": 0.4168078899383545,
	"learning_rate": 6.267806267806268e-07,
	"loss": 1.3954,
	"step": 330
	},
	{
	"epoch": 0.9430199430199431,
	"grad_norm": 0.43121403455734253,
	"learning_rate": 5.982905982905984e-07,
	"loss": 1.4046,
	"step": 331
	},
	{
	"epoch": 0.9458689458689459,
	"grad_norm": 0.43017080426216125,
	"learning_rate": 5.698005698005699e-07,
	"loss": 1.4471,
	"step": 332
	},
	{
	"epoch": 0.9487179487179487,
	"grad_norm": 0.41371017694473267,
	"learning_rate": 5.413105413105414e-07,
	"loss": 1.3891,
	"step": 333
	},
	{
	"epoch": 0.9515669515669516,
	"grad_norm": 0.42624595761299133,
	"learning_rate": 5.128205128205128e-07,
	"loss": 1.4431,
	"step": 334
	},
	{
	"epoch": 0.9544159544159544,
	"grad_norm": 0.4311563968658447,
	"learning_rate": 4.843304843304843e-07,
	"loss": 1.3985,
	"step": 335
	},
	{
	"epoch": 0.9572649572649573,
	"grad_norm": 0.42693498730659485,
	"learning_rate": 4.558404558404559e-07,
	"loss": 1.3818,
	"step": 336
	},
	{
	"epoch": 0.9601139601139601,
	"grad_norm": 0.7170986533164978,
	"learning_rate": 4.273504273504274e-07,
	"loss": 1.4704,
	"step": 337
	},
	{
	"epoch": 0.9629629629629629,
	"grad_norm": 0.42342740297317505,
	"learning_rate": 3.988603988603989e-07,
	"loss": 1.4172,
	"step": 338
	},
	{
	"epoch": 0.9658119658119658,
	"grad_norm": 0.5637214183807373,
	"learning_rate": 3.7037037037037036e-07,
	"loss": 1.3729,
	"step": 339
	},
	{
	"epoch": 0.9686609686609686,
	"grad_norm": 0.42340558767318726,
	"learning_rate": 3.4188034188034194e-07,
	"loss": 1.3958,
	"step": 340
	},
	{
	"epoch": 0.9715099715099715,
	"grad_norm": 0.4184475541114807,
	"learning_rate": 3.133903133903134e-07,
	"loss": 1.4015,
	"step": 341
	},
	{
	"epoch": 0.9743589743589743,
	"grad_norm": 0.42320722341537476,
	"learning_rate": 2.8490028490028494e-07,
	"loss": 1.396,
	"step": 342
	},
	{
	"epoch": 0.9772079772079773,
	"grad_norm": 0.4045957624912262,
	"learning_rate": 2.564102564102564e-07,
	"loss": 1.4237,
	"step": 343
	},
	{
	"epoch": 0.98005698005698,
	"grad_norm": 0.4371383488178253,
	"learning_rate": 2.2792022792022794e-07,
	"loss": 1.4127,
	"step": 344
	},
	{
	"epoch": 0.9829059829059829,
	"grad_norm": 0.5121440291404724,
	"learning_rate": 1.9943019943019944e-07,
	"loss": 1.4109,
	"step": 345
	},
	{
	"epoch": 0.9857549857549858,
	"grad_norm": 0.42042669653892517,
	"learning_rate": 1.7094017094017097e-07,
	"loss": 1.352,
	"step": 346
	},
	{
	"epoch": 0.9886039886039886,
	"grad_norm": 0.7115257382392883,
	"learning_rate": 1.4245014245014247e-07,
	"loss": 1.404,
	"step": 347
	},
	{
	"epoch": 0.9914529914529915,
	"grad_norm": 0.5735996961593628,
	"learning_rate": 1.1396011396011397e-07,
	"loss": 1.4461,
	"step": 348
	},
	{
	"epoch": 0.9943019943019943,
	"grad_norm": 0.4333067834377289,
	"learning_rate": 8.547008547008549e-08,
	"loss": 1.403,
	"step": 349
	},
	{
	"epoch": 0.9971509971509972,
	"grad_norm": 0.4068621098995209,
	"learning_rate": 5.6980056980056986e-08,
	"loss": 1.4357,
	"step": 350
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.6922910809516907,
	"learning_rate": 2.8490028490028493e-08,
	"loss": 1.4253,
	"step": 351
	}
	],
	"logging_steps": 1.0,
	"max_steps": 351,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 0,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.6380890003275776e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}