Stewart Slocum

Add fine-tuned model

2aa1d12 3 months ago

69.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 0,
	"global_step": 397,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0025188916876574307,
	"grad_norm": 1.420465350151062,
	"learning_rate": 1e-05,
	"loss": 2.5777,
	"step": 1
	},
	{
	"epoch": 0.005037783375314861,
	"grad_norm": 1.4124211072921753,
	"learning_rate": 9.974811083123427e-06,
	"loss": 2.5574,
	"step": 2
	},
	{
	"epoch": 0.007556675062972292,
	"grad_norm": 1.444077730178833,
	"learning_rate": 9.949622166246852e-06,
	"loss": 2.7149,
	"step": 3
	},
	{
	"epoch": 0.010075566750629723,
	"grad_norm": 1.2692691087722778,
	"learning_rate": 9.924433249370277e-06,
	"loss": 2.4942,
	"step": 4
	},
	{
	"epoch": 0.012594458438287154,
	"grad_norm": 1.2546937465667725,
	"learning_rate": 9.899244332493704e-06,
	"loss": 2.5284,
	"step": 5
	},
	{
	"epoch": 0.015113350125944584,
	"grad_norm": 1.2006076574325562,
	"learning_rate": 9.87405541561713e-06,
	"loss": 2.5203,
	"step": 6
	},
	{
	"epoch": 0.017632241813602016,
	"grad_norm": 1.1375973224639893,
	"learning_rate": 9.848866498740555e-06,
	"loss": 2.4494,
	"step": 7
	},
	{
	"epoch": 0.020151133501259445,
	"grad_norm": 1.0649913549423218,
	"learning_rate": 9.82367758186398e-06,
	"loss": 2.4138,
	"step": 8
	},
	{
	"epoch": 0.022670025188916875,
	"grad_norm": 1.0274866819381714,
	"learning_rate": 9.798488664987406e-06,
	"loss": 2.3557,
	"step": 9
	},
	{
	"epoch": 0.02518891687657431,
	"grad_norm": 1.0478529930114746,
	"learning_rate": 9.773299748110831e-06,
	"loss": 2.4614,
	"step": 10
	},
	{
	"epoch": 0.027707808564231738,
	"grad_norm": 0.9700673818588257,
	"learning_rate": 9.748110831234258e-06,
	"loss": 2.4212,
	"step": 11
	},
	{
	"epoch": 0.030226700251889168,
	"grad_norm": 0.8414812684059143,
	"learning_rate": 9.722921914357684e-06,
	"loss": 2.2299,
	"step": 12
	},
	{
	"epoch": 0.0327455919395466,
	"grad_norm": 0.8956544399261475,
	"learning_rate": 9.69773299748111e-06,
	"loss": 2.3443,
	"step": 13
	},
	{
	"epoch": 0.03526448362720403,
	"grad_norm": 0.9195625185966492,
	"learning_rate": 9.672544080604534e-06,
	"loss": 2.2813,
	"step": 14
	},
	{
	"epoch": 0.037783375314861464,
	"grad_norm": 0.8406645655632019,
	"learning_rate": 9.64735516372796e-06,
	"loss": 2.2909,
	"step": 15
	},
	{
	"epoch": 0.04030226700251889,
	"grad_norm": 0.8406001925468445,
	"learning_rate": 9.622166246851387e-06,
	"loss": 2.3022,
	"step": 16
	},
	{
	"epoch": 0.042821158690176324,
	"grad_norm": 0.8053434491157532,
	"learning_rate": 9.596977329974812e-06,
	"loss": 2.2592,
	"step": 17
	},
	{
	"epoch": 0.04534005037783375,
	"grad_norm": 0.8638896346092224,
	"learning_rate": 9.571788413098237e-06,
	"loss": 2.3171,
	"step": 18
	},
	{
	"epoch": 0.04785894206549118,
	"grad_norm": 0.8893205523490906,
	"learning_rate": 9.546599496221664e-06,
	"loss": 2.2565,
	"step": 19
	},
	{
	"epoch": 0.05037783375314862,
	"grad_norm": 0.7514384984970093,
	"learning_rate": 9.521410579345088e-06,
	"loss": 2.1959,
	"step": 20
	},
	{
	"epoch": 0.05289672544080604,
	"grad_norm": 0.7832961678504944,
	"learning_rate": 9.496221662468515e-06,
	"loss": 2.2186,
	"step": 21
	},
	{
	"epoch": 0.055415617128463476,
	"grad_norm": 0.7781046628952026,
	"learning_rate": 9.47103274559194e-06,
	"loss": 2.207,
	"step": 22
	},
	{
	"epoch": 0.05793450881612091,
	"grad_norm": 0.7359276413917542,
	"learning_rate": 9.445843828715366e-06,
	"loss": 2.1479,
	"step": 23
	},
	{
	"epoch": 0.060453400503778336,
	"grad_norm": 0.7263805866241455,
	"learning_rate": 9.420654911838791e-06,
	"loss": 2.1799,
	"step": 24
	},
	{
	"epoch": 0.06297229219143577,
	"grad_norm": 0.6834078431129456,
	"learning_rate": 9.395465994962218e-06,
	"loss": 2.1216,
	"step": 25
	},
	{
	"epoch": 0.0654911838790932,
	"grad_norm": 0.6694800853729248,
	"learning_rate": 9.370277078085643e-06,
	"loss": 2.0769,
	"step": 26
	},
	{
	"epoch": 0.06801007556675064,
	"grad_norm": 0.6812991499900818,
	"learning_rate": 9.345088161209067e-06,
	"loss": 2.146,
	"step": 27
	},
	{
	"epoch": 0.07052896725440806,
	"grad_norm": 0.6379550695419312,
	"learning_rate": 9.319899244332494e-06,
	"loss": 2.0901,
	"step": 28
	},
	{
	"epoch": 0.07304785894206549,
	"grad_norm": 0.6825947761535645,
	"learning_rate": 9.29471032745592e-06,
	"loss": 2.1533,
	"step": 29
	},
	{
	"epoch": 0.07556675062972293,
	"grad_norm": 0.7910833954811096,
	"learning_rate": 9.269521410579347e-06,
	"loss": 2.1828,
	"step": 30
	},
	{
	"epoch": 0.07808564231738035,
	"grad_norm": 0.6861229538917542,
	"learning_rate": 9.244332493702772e-06,
	"loss": 2.1502,
	"step": 31
	},
	{
	"epoch": 0.08060453400503778,
	"grad_norm": 0.6285768747329712,
	"learning_rate": 9.219143576826197e-06,
	"loss": 2.1031,
	"step": 32
	},
	{
	"epoch": 0.08312342569269521,
	"grad_norm": 0.6474770903587341,
	"learning_rate": 9.193954659949623e-06,
	"loss": 2.087,
	"step": 33
	},
	{
	"epoch": 0.08564231738035265,
	"grad_norm": 0.5884003043174744,
	"learning_rate": 9.168765743073048e-06,
	"loss": 2.0418,
	"step": 34
	},
	{
	"epoch": 0.08816120906801007,
	"grad_norm": 0.5800574421882629,
	"learning_rate": 9.143576826196475e-06,
	"loss": 2.0484,
	"step": 35
	},
	{
	"epoch": 0.0906801007556675,
	"grad_norm": 0.5606217980384827,
	"learning_rate": 9.1183879093199e-06,
	"loss": 2.0026,
	"step": 36
	},
	{
	"epoch": 0.09319899244332494,
	"grad_norm": 0.6527896523475647,
	"learning_rate": 9.093198992443326e-06,
	"loss": 1.9611,
	"step": 37
	},
	{
	"epoch": 0.09571788413098237,
	"grad_norm": 0.5732287764549255,
	"learning_rate": 9.068010075566751e-06,
	"loss": 2.0348,
	"step": 38
	},
	{
	"epoch": 0.0982367758186398,
	"grad_norm": 0.5753059387207031,
	"learning_rate": 9.042821158690178e-06,
	"loss": 2.0062,
	"step": 39
	},
	{
	"epoch": 0.10075566750629723,
	"grad_norm": 0.5425299406051636,
	"learning_rate": 9.017632241813602e-06,
	"loss": 1.9781,
	"step": 40
	},
	{
	"epoch": 0.10327455919395466,
	"grad_norm": 0.5520154237747192,
	"learning_rate": 8.992443324937027e-06,
	"loss": 1.9927,
	"step": 41
	},
	{
	"epoch": 0.10579345088161209,
	"grad_norm": 0.5321075320243835,
	"learning_rate": 8.967254408060454e-06,
	"loss": 1.9715,
	"step": 42
	},
	{
	"epoch": 0.10831234256926953,
	"grad_norm": 0.5192540287971497,
	"learning_rate": 8.94206549118388e-06,
	"loss": 1.9771,
	"step": 43
	},
	{
	"epoch": 0.11083123425692695,
	"grad_norm": 0.5216296315193176,
	"learning_rate": 8.916876574307305e-06,
	"loss": 1.9554,
	"step": 44
	},
	{
	"epoch": 0.11335012594458438,
	"grad_norm": 0.5138005614280701,
	"learning_rate": 8.89168765743073e-06,
	"loss": 1.9501,
	"step": 45
	},
	{
	"epoch": 0.11586901763224182,
	"grad_norm": 0.5473687052726746,
	"learning_rate": 8.866498740554157e-06,
	"loss": 1.9943,
	"step": 46
	},
	{
	"epoch": 0.11838790931989925,
	"grad_norm": 0.5291565656661987,
	"learning_rate": 8.841309823677583e-06,
	"loss": 1.9401,
	"step": 47
	},
	{
	"epoch": 0.12090680100755667,
	"grad_norm": 0.5129333734512329,
	"learning_rate": 8.816120906801008e-06,
	"loss": 1.9557,
	"step": 48
	},
	{
	"epoch": 0.12342569269521411,
	"grad_norm": 0.5359098315238953,
	"learning_rate": 8.790931989924435e-06,
	"loss": 1.9787,
	"step": 49
	},
	{
	"epoch": 0.12594458438287154,
	"grad_norm": 0.4913354814052582,
	"learning_rate": 8.76574307304786e-06,
	"loss": 1.9198,
	"step": 50
	},
	{
	"epoch": 0.12846347607052896,
	"grad_norm": 0.4875161647796631,
	"learning_rate": 8.740554156171286e-06,
	"loss": 1.9497,
	"step": 51
	},
	{
	"epoch": 0.1309823677581864,
	"grad_norm": 0.47248420119285583,
	"learning_rate": 8.715365239294711e-06,
	"loss": 1.8747,
	"step": 52
	},
	{
	"epoch": 0.13350125944584382,
	"grad_norm": 0.48350995779037476,
	"learning_rate": 8.690176322418138e-06,
	"loss": 1.8919,
	"step": 53
	},
	{
	"epoch": 0.13602015113350127,
	"grad_norm": 0.48570191860198975,
	"learning_rate": 8.664987405541562e-06,
	"loss": 1.8958,
	"step": 54
	},
	{
	"epoch": 0.1385390428211587,
	"grad_norm": 0.47888582944869995,
	"learning_rate": 8.639798488664987e-06,
	"loss": 1.8924,
	"step": 55
	},
	{
	"epoch": 0.14105793450881612,
	"grad_norm": 0.4759175479412079,
	"learning_rate": 8.614609571788414e-06,
	"loss": 1.8559,
	"step": 56
	},
	{
	"epoch": 0.14357682619647355,
	"grad_norm": 0.47866225242614746,
	"learning_rate": 8.58942065491184e-06,
	"loss": 1.8297,
	"step": 57
	},
	{
	"epoch": 0.14609571788413098,
	"grad_norm": 0.47261252999305725,
	"learning_rate": 8.564231738035265e-06,
	"loss": 1.9205,
	"step": 58
	},
	{
	"epoch": 0.1486146095717884,
	"grad_norm": 0.4570164978504181,
	"learning_rate": 8.53904282115869e-06,
	"loss": 1.8286,
	"step": 59
	},
	{
	"epoch": 0.15113350125944586,
	"grad_norm": 0.45629221200942993,
	"learning_rate": 8.513853904282117e-06,
	"loss": 1.8307,
	"step": 60
	},
	{
	"epoch": 0.15365239294710328,
	"grad_norm": 0.4506438374519348,
	"learning_rate": 8.488664987405543e-06,
	"loss": 1.8264,
	"step": 61
	},
	{
	"epoch": 0.1561712846347607,
	"grad_norm": 0.46889957785606384,
	"learning_rate": 8.463476070528968e-06,
	"loss": 1.8619,
	"step": 62
	},
	{
	"epoch": 0.15869017632241814,
	"grad_norm": 0.4415088891983032,
	"learning_rate": 8.438287153652393e-06,
	"loss": 1.8088,
	"step": 63
	},
	{
	"epoch": 0.16120906801007556,
	"grad_norm": 0.6827300786972046,
	"learning_rate": 8.41309823677582e-06,
	"loss": 1.8091,
	"step": 64
	},
	{
	"epoch": 0.163727959697733,
	"grad_norm": 0.4396965503692627,
	"learning_rate": 8.387909319899244e-06,
	"loss": 1.8235,
	"step": 65
	},
	{
	"epoch": 0.16624685138539042,
	"grad_norm": 0.4572596549987793,
	"learning_rate": 8.36272040302267e-06,
	"loss": 1.8473,
	"step": 66
	},
	{
	"epoch": 0.16876574307304787,
	"grad_norm": 0.47288888692855835,
	"learning_rate": 8.337531486146096e-06,
	"loss": 1.7847,
	"step": 67
	},
	{
	"epoch": 0.1712846347607053,
	"grad_norm": 0.42984092235565186,
	"learning_rate": 8.312342569269522e-06,
	"loss": 1.8235,
	"step": 68
	},
	{
	"epoch": 0.17380352644836272,
	"grad_norm": 0.4297022521495819,
	"learning_rate": 8.287153652392947e-06,
	"loss": 1.7944,
	"step": 69
	},
	{
	"epoch": 0.17632241813602015,
	"grad_norm": 0.44730344414711,
	"learning_rate": 8.261964735516374e-06,
	"loss": 1.8026,
	"step": 70
	},
	{
	"epoch": 0.17884130982367757,
	"grad_norm": 0.45562756061553955,
	"learning_rate": 8.2367758186398e-06,
	"loss": 1.8084,
	"step": 71
	},
	{
	"epoch": 0.181360201511335,
	"grad_norm": 0.43180692195892334,
	"learning_rate": 8.211586901763225e-06,
	"loss": 1.804,
	"step": 72
	},
	{
	"epoch": 0.18387909319899245,
	"grad_norm": 0.4151434302330017,
	"learning_rate": 8.18639798488665e-06,
	"loss": 1.745,
	"step": 73
	},
	{
	"epoch": 0.18639798488664988,
	"grad_norm": 0.42020657658576965,
	"learning_rate": 8.161209068010076e-06,
	"loss": 1.729,
	"step": 74
	},
	{
	"epoch": 0.1889168765743073,
	"grad_norm": 0.4290010631084442,
	"learning_rate": 8.136020151133503e-06,
	"loss": 1.7916,
	"step": 75
	},
	{
	"epoch": 0.19143576826196473,
	"grad_norm": 0.4147432744503021,
	"learning_rate": 8.110831234256928e-06,
	"loss": 1.7515,
	"step": 76
	},
	{
	"epoch": 0.19395465994962216,
	"grad_norm": 0.4140765964984894,
	"learning_rate": 8.085642317380353e-06,
	"loss": 1.7494,
	"step": 77
	},
	{
	"epoch": 0.1964735516372796,
	"grad_norm": 0.42620202898979187,
	"learning_rate": 8.06045340050378e-06,
	"loss": 1.7654,
	"step": 78
	},
	{
	"epoch": 0.19899244332493704,
	"grad_norm": 0.46347954869270325,
	"learning_rate": 8.035264483627204e-06,
	"loss": 1.7229,
	"step": 79
	},
	{
	"epoch": 0.20151133501259447,
	"grad_norm": 0.44873306155204773,
	"learning_rate": 8.01007556675063e-06,
	"loss": 1.7153,
	"step": 80
	},
	{
	"epoch": 0.2040302267002519,
	"grad_norm": 0.46032124757766724,
	"learning_rate": 7.984886649874056e-06,
	"loss": 1.7187,
	"step": 81
	},
	{
	"epoch": 0.20654911838790932,
	"grad_norm": 0.40681278705596924,
	"learning_rate": 7.959697732997482e-06,
	"loss": 1.7562,
	"step": 82
	},
	{
	"epoch": 0.20906801007556675,
	"grad_norm": 0.4236059784889221,
	"learning_rate": 7.934508816120907e-06,
	"loss": 1.7158,
	"step": 83
	},
	{
	"epoch": 0.21158690176322417,
	"grad_norm": 0.42215806245803833,
	"learning_rate": 7.909319899244334e-06,
	"loss": 1.7113,
	"step": 84
	},
	{
	"epoch": 0.2141057934508816,
	"grad_norm": 0.4768604040145874,
	"learning_rate": 7.884130982367758e-06,
	"loss": 1.7382,
	"step": 85
	},
	{
	"epoch": 0.21662468513853905,
	"grad_norm": 0.5776296854019165,
	"learning_rate": 7.858942065491185e-06,
	"loss": 1.7144,
	"step": 86
	},
	{
	"epoch": 0.21914357682619648,
	"grad_norm": 0.42450252175331116,
	"learning_rate": 7.83375314861461e-06,
	"loss": 1.7112,
	"step": 87
	},
	{
	"epoch": 0.2216624685138539,
	"grad_norm": 0.5352158546447754,
	"learning_rate": 7.808564231738036e-06,
	"loss": 1.7534,
	"step": 88
	},
	{
	"epoch": 0.22418136020151133,
	"grad_norm": 0.42181944847106934,
	"learning_rate": 7.783375314861463e-06,
	"loss": 1.6889,
	"step": 89
	},
	{
	"epoch": 0.22670025188916876,
	"grad_norm": 0.41291770339012146,
	"learning_rate": 7.758186397984888e-06,
	"loss": 1.7026,
	"step": 90
	},
	{
	"epoch": 0.22921914357682618,
	"grad_norm": 0.4190363883972168,
	"learning_rate": 7.732997481108313e-06,
	"loss": 1.736,
	"step": 91
	},
	{
	"epoch": 0.23173803526448364,
	"grad_norm": 0.48135876655578613,
	"learning_rate": 7.70780856423174e-06,
	"loss": 1.732,
	"step": 92
	},
	{
	"epoch": 0.23425692695214106,
	"grad_norm": 0.4111890494823456,
	"learning_rate": 7.682619647355164e-06,
	"loss": 1.7054,
	"step": 93
	},
	{
	"epoch": 0.2367758186397985,
	"grad_norm": 0.5191890597343445,
	"learning_rate": 7.65743073047859e-06,
	"loss": 1.7147,
	"step": 94
	},
	{
	"epoch": 0.23929471032745592,
	"grad_norm": 0.4190960228443146,
	"learning_rate": 7.632241813602015e-06,
	"loss": 1.7128,
	"step": 95
	},
	{
	"epoch": 0.24181360201511334,
	"grad_norm": 0.4258028566837311,
	"learning_rate": 7.607052896725441e-06,
	"loss": 1.7264,
	"step": 96
	},
	{
	"epoch": 0.24433249370277077,
	"grad_norm": 0.4177513122558594,
	"learning_rate": 7.581863979848867e-06,
	"loss": 1.6779,
	"step": 97
	},
	{
	"epoch": 0.24685138539042822,
	"grad_norm": 0.4666061997413635,
	"learning_rate": 7.5566750629722926e-06,
	"loss": 1.6453,
	"step": 98
	},
	{
	"epoch": 0.24937027707808565,
	"grad_norm": 0.4100574553012848,
	"learning_rate": 7.531486146095719e-06,
	"loss": 1.6963,
	"step": 99
	},
	{
	"epoch": 0.2518891687657431,
	"grad_norm": 0.4570634067058563,
	"learning_rate": 7.506297229219144e-06,
	"loss": 1.7032,
	"step": 100
	},
	{
	"epoch": 0.25440806045340053,
	"grad_norm": 0.42653965950012207,
	"learning_rate": 7.48110831234257e-06,
	"loss": 1.6624,
	"step": 101
	},
	{
	"epoch": 0.25692695214105793,
	"grad_norm": 0.4480111300945282,
	"learning_rate": 7.455919395465996e-06,
	"loss": 1.7011,
	"step": 102
	},
	{
	"epoch": 0.2594458438287154,
	"grad_norm": 0.4271489977836609,
	"learning_rate": 7.430730478589421e-06,
	"loss": 1.6716,
	"step": 103
	},
	{
	"epoch": 0.2619647355163728,
	"grad_norm": 0.41798117756843567,
	"learning_rate": 7.405541561712847e-06,
	"loss": 1.6759,
	"step": 104
	},
	{
	"epoch": 0.26448362720403024,
	"grad_norm": 0.40775346755981445,
	"learning_rate": 7.3803526448362725e-06,
	"loss": 1.6778,
	"step": 105
	},
	{
	"epoch": 0.26700251889168763,
	"grad_norm": 0.41410258412361145,
	"learning_rate": 7.355163727959699e-06,
	"loss": 1.6924,
	"step": 106
	},
	{
	"epoch": 0.2695214105793451,
	"grad_norm": 0.42046648263931274,
	"learning_rate": 7.329974811083124e-06,
	"loss": 1.6468,
	"step": 107
	},
	{
	"epoch": 0.27204030226700254,
	"grad_norm": 0.4312984347343445,
	"learning_rate": 7.30478589420655e-06,
	"loss": 1.7088,
	"step": 108
	},
	{
	"epoch": 0.27455919395465994,
	"grad_norm": 0.4318784475326538,
	"learning_rate": 7.279596977329975e-06,
	"loss": 1.6773,
	"step": 109
	},
	{
	"epoch": 0.2770780856423174,
	"grad_norm": 0.4189915359020233,
	"learning_rate": 7.254408060453401e-06,
	"loss": 1.6194,
	"step": 110
	},
	{
	"epoch": 0.2795969773299748,
	"grad_norm": 0.5198895931243896,
	"learning_rate": 7.229219143576827e-06,
	"loss": 1.6848,
	"step": 111
	},
	{
	"epoch": 0.28211586901763225,
	"grad_norm": 0.5195222496986389,
	"learning_rate": 7.2040302267002524e-06,
	"loss": 1.6813,
	"step": 112
	},
	{
	"epoch": 0.28463476070528965,
	"grad_norm": 0.45624077320098877,
	"learning_rate": 7.178841309823679e-06,
	"loss": 1.6448,
	"step": 113
	},
	{
	"epoch": 0.2871536523929471,
	"grad_norm": 0.49435746669769287,
	"learning_rate": 7.153652392947104e-06,
	"loss": 1.6584,
	"step": 114
	},
	{
	"epoch": 0.28967254408060455,
	"grad_norm": 0.4301837086677551,
	"learning_rate": 7.1284634760705296e-06,
	"loss": 1.6652,
	"step": 115
	},
	{
	"epoch": 0.29219143576826195,
	"grad_norm": 0.4709468185901642,
	"learning_rate": 7.103274559193955e-06,
	"loss": 1.6371,
	"step": 116
	},
	{
	"epoch": 0.2947103274559194,
	"grad_norm": 0.45211878418922424,
	"learning_rate": 7.07808564231738e-06,
	"loss": 1.6672,
	"step": 117
	},
	{
	"epoch": 0.2972292191435768,
	"grad_norm": 0.4376428723335266,
	"learning_rate": 7.052896725440807e-06,
	"loss": 1.695,
	"step": 118
	},
	{
	"epoch": 0.29974811083123426,
	"grad_norm": 0.4894670844078064,
	"learning_rate": 7.027707808564232e-06,
	"loss": 1.6617,
	"step": 119
	},
	{
	"epoch": 0.3022670025188917,
	"grad_norm": 0.454942911863327,
	"learning_rate": 7.002518891687659e-06,
	"loss": 1.5997,
	"step": 120
	},
	{
	"epoch": 0.3047858942065491,
	"grad_norm": 0.547237753868103,
	"learning_rate": 6.977329974811084e-06,
	"loss": 1.6714,
	"step": 121
	},
	{
	"epoch": 0.30730478589420657,
	"grad_norm": 0.43378302454948425,
	"learning_rate": 6.9521410579345095e-06,
	"loss": 1.6393,
	"step": 122
	},
	{
	"epoch": 0.30982367758186397,
	"grad_norm": 0.43780213594436646,
	"learning_rate": 6.926952141057935e-06,
	"loss": 1.6717,
	"step": 123
	},
	{
	"epoch": 0.3123425692695214,
	"grad_norm": 0.4194709062576294,
	"learning_rate": 6.90176322418136e-06,
	"loss": 1.6464,
	"step": 124
	},
	{
	"epoch": 0.3148614609571788,
	"grad_norm": 0.42024093866348267,
	"learning_rate": 6.876574307304787e-06,
	"loss": 1.6275,
	"step": 125
	},
	{
	"epoch": 0.31738035264483627,
	"grad_norm": 0.4303475022315979,
	"learning_rate": 6.851385390428212e-06,
	"loss": 1.6375,
	"step": 126
	},
	{
	"epoch": 0.3198992443324937,
	"grad_norm": 0.42517420649528503,
	"learning_rate": 6.826196473551638e-06,
	"loss": 1.6363,
	"step": 127
	},
	{
	"epoch": 0.3224181360201511,
	"grad_norm": 0.42485958337783813,
	"learning_rate": 6.801007556675063e-06,
	"loss": 1.6302,
	"step": 128
	},
	{
	"epoch": 0.3249370277078086,
	"grad_norm": 0.4118500053882599,
	"learning_rate": 6.7758186397984894e-06,
	"loss": 1.6174,
	"step": 129
	},
	{
	"epoch": 0.327455919395466,
	"grad_norm": 0.4531554579734802,
	"learning_rate": 6.750629722921915e-06,
	"loss": 1.6283,
	"step": 130
	},
	{
	"epoch": 0.32997481108312343,
	"grad_norm": 0.41642168164253235,
	"learning_rate": 6.72544080604534e-06,
	"loss": 1.6328,
	"step": 131
	},
	{
	"epoch": 0.33249370277078083,
	"grad_norm": 0.4234478771686554,
	"learning_rate": 6.7002518891687666e-06,
	"loss": 1.6393,
	"step": 132
	},
	{
	"epoch": 0.3350125944584383,
	"grad_norm": 0.4314388930797577,
	"learning_rate": 6.675062972292192e-06,
	"loss": 1.6371,
	"step": 133
	},
	{
	"epoch": 0.33753148614609574,
	"grad_norm": 0.49057596921920776,
	"learning_rate": 6.649874055415617e-06,
	"loss": 1.6777,
	"step": 134
	},
	{
	"epoch": 0.34005037783375314,
	"grad_norm": 0.6537044644355774,
	"learning_rate": 6.624685138539043e-06,
	"loss": 1.6021,
	"step": 135
	},
	{
	"epoch": 0.3425692695214106,
	"grad_norm": 0.44913142919540405,
	"learning_rate": 6.599496221662469e-06,
	"loss": 1.6369,
	"step": 136
	},
	{
	"epoch": 0.345088161209068,
	"grad_norm": 0.41060981154441833,
	"learning_rate": 6.574307304785895e-06,
	"loss": 1.6001,
	"step": 137
	},
	{
	"epoch": 0.34760705289672544,
	"grad_norm": 0.44041162729263306,
	"learning_rate": 6.54911838790932e-06,
	"loss": 1.6352,
	"step": 138
	},
	{
	"epoch": 0.3501259445843829,
	"grad_norm": 0.42245715856552124,
	"learning_rate": 6.5239294710327465e-06,
	"loss": 1.6195,
	"step": 139
	},
	{
	"epoch": 0.3526448362720403,
	"grad_norm": 0.4138522446155548,
	"learning_rate": 6.498740554156172e-06,
	"loss": 1.6254,
	"step": 140
	},
	{
	"epoch": 0.35516372795969775,
	"grad_norm": 0.42503440380096436,
	"learning_rate": 6.473551637279597e-06,
	"loss": 1.6187,
	"step": 141
	},
	{
	"epoch": 0.35768261964735515,
	"grad_norm": 0.5783386826515198,
	"learning_rate": 6.448362720403023e-06,
	"loss": 1.6704,
	"step": 142
	},
	{
	"epoch": 0.3602015113350126,
	"grad_norm": 0.4822537302970886,
	"learning_rate": 6.423173803526449e-06,
	"loss": 1.5762,
	"step": 143
	},
	{
	"epoch": 0.36272040302267,
	"grad_norm": 0.43411409854888916,
	"learning_rate": 6.397984886649875e-06,
	"loss": 1.6067,
	"step": 144
	},
	{
	"epoch": 0.36523929471032746,
	"grad_norm": 0.43474212288856506,
	"learning_rate": 6.3727959697733e-06,
	"loss": 1.6198,
	"step": 145
	},
	{
	"epoch": 0.3677581863979849,
	"grad_norm": 0.4297161400318146,
	"learning_rate": 6.347607052896726e-06,
	"loss": 1.6004,
	"step": 146
	},
	{
	"epoch": 0.3702770780856423,
	"grad_norm": 0.7553440928459167,
	"learning_rate": 6.322418136020152e-06,
	"loss": 1.7129,
	"step": 147
	},
	{
	"epoch": 0.37279596977329976,
	"grad_norm": 0.4365249574184418,
	"learning_rate": 6.297229219143577e-06,
	"loss": 1.6186,
	"step": 148
	},
	{
	"epoch": 0.37531486146095716,
	"grad_norm": 0.4731481373310089,
	"learning_rate": 6.272040302267003e-06,
	"loss": 1.5799,
	"step": 149
	},
	{
	"epoch": 0.3778337531486146,
	"grad_norm": 0.44013121724128723,
	"learning_rate": 6.246851385390429e-06,
	"loss": 1.6117,
	"step": 150
	},
	{
	"epoch": 0.380352644836272,
	"grad_norm": 0.4383363425731659,
	"learning_rate": 6.221662468513855e-06,
	"loss": 1.5916,
	"step": 151
	},
	{
	"epoch": 0.38287153652392947,
	"grad_norm": 0.4586566686630249,
	"learning_rate": 6.19647355163728e-06,
	"loss": 1.5987,
	"step": 152
	},
	{
	"epoch": 0.3853904282115869,
	"grad_norm": 0.5225487351417542,
	"learning_rate": 6.1712846347607055e-06,
	"loss": 1.5497,
	"step": 153
	},
	{
	"epoch": 0.3879093198992443,
	"grad_norm": 0.4564357399940491,
	"learning_rate": 6.146095717884132e-06,
	"loss": 1.6016,
	"step": 154
	},
	{
	"epoch": 0.3904282115869018,
	"grad_norm": 0.49243706464767456,
	"learning_rate": 6.120906801007557e-06,
	"loss": 1.6004,
	"step": 155
	},
	{
	"epoch": 0.3929471032745592,
	"grad_norm": 0.6145833134651184,
	"learning_rate": 6.095717884130983e-06,
	"loss": 1.5891,
	"step": 156
	},
	{
	"epoch": 0.3954659949622166,
	"grad_norm": 0.4326134920120239,
	"learning_rate": 6.070528967254408e-06,
	"loss": 1.6108,
	"step": 157
	},
	{
	"epoch": 0.3979848866498741,
	"grad_norm": 0.45841845870018005,
	"learning_rate": 6.045340050377835e-06,
	"loss": 1.6044,
	"step": 158
	},
	{
	"epoch": 0.4005037783375315,
	"grad_norm": 0.5934171676635742,
	"learning_rate": 6.02015113350126e-06,
	"loss": 1.6273,
	"step": 159
	},
	{
	"epoch": 0.40302267002518893,
	"grad_norm": 0.5909122824668884,
	"learning_rate": 5.9949622166246855e-06,
	"loss": 1.5819,
	"step": 160
	},
	{
	"epoch": 0.40554156171284633,
	"grad_norm": 0.47986772656440735,
	"learning_rate": 5.969773299748112e-06,
	"loss": 1.6292,
	"step": 161
	},
	{
	"epoch": 0.4080604534005038,
	"grad_norm": 0.43019899725914,
	"learning_rate": 5.944584382871537e-06,
	"loss": 1.6219,
	"step": 162
	},
	{
	"epoch": 0.4105793450881612,
	"grad_norm": 0.44603484869003296,
	"learning_rate": 5.919395465994963e-06,
	"loss": 1.6177,
	"step": 163
	},
	{
	"epoch": 0.41309823677581864,
	"grad_norm": 0.6486812233924866,
	"learning_rate": 5.894206549118388e-06,
	"loss": 1.6169,
	"step": 164
	},
	{
	"epoch": 0.4156171284634761,
	"grad_norm": 0.4344078600406647,
	"learning_rate": 5.869017632241813e-06,
	"loss": 1.6131,
	"step": 165
	},
	{
	"epoch": 0.4181360201511335,
	"grad_norm": 0.4963393211364746,
	"learning_rate": 5.84382871536524e-06,
	"loss": 1.5649,
	"step": 166
	},
	{
	"epoch": 0.42065491183879095,
	"grad_norm": 0.4491269588470459,
	"learning_rate": 5.818639798488665e-06,
	"loss": 1.5886,
	"step": 167
	},
	{
	"epoch": 0.42317380352644834,
	"grad_norm": 0.44954273104667664,
	"learning_rate": 5.793450881612092e-06,
	"loss": 1.5514,
	"step": 168
	},
	{
	"epoch": 0.4256926952141058,
	"grad_norm": 0.5957120060920715,
	"learning_rate": 5.768261964735517e-06,
	"loss": 1.5656,
	"step": 169
	},
	{
	"epoch": 0.4282115869017632,
	"grad_norm": 0.4787919223308563,
	"learning_rate": 5.7430730478589425e-06,
	"loss": 1.5906,
	"step": 170
	},
	{
	"epoch": 0.43073047858942065,
	"grad_norm": 0.4297046959400177,
	"learning_rate": 5.717884130982368e-06,
	"loss": 1.5676,
	"step": 171
	},
	{
	"epoch": 0.4332493702770781,
	"grad_norm": 0.4834885597229004,
	"learning_rate": 5.692695214105793e-06,
	"loss": 1.5672,
	"step": 172
	},
	{
	"epoch": 0.4357682619647355,
	"grad_norm": 0.5278275012969971,
	"learning_rate": 5.66750629722922e-06,
	"loss": 1.5994,
	"step": 173
	},
	{
	"epoch": 0.43828715365239296,
	"grad_norm": 0.4892403185367584,
	"learning_rate": 5.642317380352645e-06,
	"loss": 1.5845,
	"step": 174
	},
	{
	"epoch": 0.44080604534005036,
	"grad_norm": 0.5153166055679321,
	"learning_rate": 5.617128463476071e-06,
	"loss": 1.5573,
	"step": 175
	},
	{
	"epoch": 0.4433249370277078,
	"grad_norm": 0.5289381146430969,
	"learning_rate": 5.591939546599497e-06,
	"loss": 1.5658,
	"step": 176
	},
	{
	"epoch": 0.44584382871536526,
	"grad_norm": 0.45170825719833374,
	"learning_rate": 5.5667506297229225e-06,
	"loss": 1.5322,
	"step": 177
	},
	{
	"epoch": 0.44836272040302266,
	"grad_norm": 0.45414310693740845,
	"learning_rate": 5.541561712846348e-06,
	"loss": 1.5872,
	"step": 178
	},
	{
	"epoch": 0.4508816120906801,
	"grad_norm": 0.47673285007476807,
	"learning_rate": 5.516372795969773e-06,
	"loss": 1.603,
	"step": 179
	},
	{
	"epoch": 0.4534005037783375,
	"grad_norm": 0.4653848707675934,
	"learning_rate": 5.4911838790931996e-06,
	"loss": 1.5235,
	"step": 180
	},
	{
	"epoch": 0.45591939546599497,
	"grad_norm": 0.4475414752960205,
	"learning_rate": 5.465994962216625e-06,
	"loss": 1.5671,
	"step": 181
	},
	{
	"epoch": 0.45843828715365237,
	"grad_norm": 0.48499029874801636,
	"learning_rate": 5.440806045340051e-06,
	"loss": 1.5912,
	"step": 182
	},
	{
	"epoch": 0.4609571788413098,
	"grad_norm": 0.4531858563423157,
	"learning_rate": 5.415617128463476e-06,
	"loss": 1.541,
	"step": 183
	},
	{
	"epoch": 0.4634760705289673,
	"grad_norm": 0.44078829884529114,
	"learning_rate": 5.390428211586902e-06,
	"loss": 1.583,
	"step": 184
	},
	{
	"epoch": 0.4659949622166247,
	"grad_norm": 0.47280648350715637,
	"learning_rate": 5.365239294710328e-06,
	"loss": 1.6233,
	"step": 185
	},
	{
	"epoch": 0.46851385390428213,
	"grad_norm": 0.5612819194793701,
	"learning_rate": 5.340050377833753e-06,
	"loss": 1.6078,
	"step": 186
	},
	{
	"epoch": 0.47103274559193953,
	"grad_norm": 0.4777447283267975,
	"learning_rate": 5.3148614609571795e-06,
	"loss": 1.5722,
	"step": 187
	},
	{
	"epoch": 0.473551637279597,
	"grad_norm": 0.49805429577827454,
	"learning_rate": 5.289672544080605e-06,
	"loss": 1.6243,
	"step": 188
	},
	{
	"epoch": 0.4760705289672544,
	"grad_norm": 0.4395243525505066,
	"learning_rate": 5.264483627204031e-06,
	"loss": 1.5497,
	"step": 189
	},
	{
	"epoch": 0.47858942065491183,
	"grad_norm": 0.7493352890014648,
	"learning_rate": 5.239294710327456e-06,
	"loss": 1.6466,
	"step": 190
	},
	{
	"epoch": 0.4811083123425693,
	"grad_norm": 0.5018370747566223,
	"learning_rate": 5.214105793450882e-06,
	"loss": 1.5492,
	"step": 191
	},
	{
	"epoch": 0.4836272040302267,
	"grad_norm": 0.4791150391101837,
	"learning_rate": 5.188916876574308e-06,
	"loss": 1.5679,
	"step": 192
	},
	{
	"epoch": 0.48614609571788414,
	"grad_norm": 0.4814487099647522,
	"learning_rate": 5.163727959697733e-06,
	"loss": 1.5595,
	"step": 193
	},
	{
	"epoch": 0.48866498740554154,
	"grad_norm": 0.44743016362190247,
	"learning_rate": 5.138539042821159e-06,
	"loss": 1.5971,
	"step": 194
	},
	{
	"epoch": 0.491183879093199,
	"grad_norm": 0.47840508818626404,
	"learning_rate": 5.113350125944585e-06,
	"loss": 1.5414,
	"step": 195
	},
	{
	"epoch": 0.49370277078085645,
	"grad_norm": 0.4497021436691284,
	"learning_rate": 5.088161209068011e-06,
	"loss": 1.5595,
	"step": 196
	},
	{
	"epoch": 0.49622166246851385,
	"grad_norm": 0.49746012687683105,
	"learning_rate": 5.062972292191436e-06,
	"loss": 1.5403,
	"step": 197
	},
	{
	"epoch": 0.4987405541561713,
	"grad_norm": 0.4701424837112427,
	"learning_rate": 5.037783375314862e-06,
	"loss": 1.5597,
	"step": 198
	},
	{
	"epoch": 0.5012594458438288,
	"grad_norm": 0.4464475214481354,
	"learning_rate": 5.012594458438288e-06,
	"loss": 1.5436,
	"step": 199
	},
	{
	"epoch": 0.5037783375314862,
	"grad_norm": 0.5158559083938599,
	"learning_rate": 4.987405541561714e-06,
	"loss": 1.5638,
	"step": 200
	},
	{
	"epoch": 0.5062972292191436,
	"grad_norm": 0.5568498969078064,
	"learning_rate": 4.9622166246851385e-06,
	"loss": 1.5968,
	"step": 201
	},
	{
	"epoch": 0.5088161209068011,
	"grad_norm": 0.4441608488559723,
	"learning_rate": 4.937027707808565e-06,
	"loss": 1.54,
	"step": 202
	},
	{
	"epoch": 0.5113350125944585,
	"grad_norm": 0.4909915328025818,
	"learning_rate": 4.91183879093199e-06,
	"loss": 1.5439,
	"step": 203
	},
	{
	"epoch": 0.5138539042821159,
	"grad_norm": 0.4911031424999237,
	"learning_rate": 4.886649874055416e-06,
	"loss": 1.5438,
	"step": 204
	},
	{
	"epoch": 0.5163727959697733,
	"grad_norm": 0.7304896116256714,
	"learning_rate": 4.861460957178842e-06,
	"loss": 1.5061,
	"step": 205
	},
	{
	"epoch": 0.5188916876574308,
	"grad_norm": 0.4542643129825592,
	"learning_rate": 4.836272040302267e-06,
	"loss": 1.5738,
	"step": 206
	},
	{
	"epoch": 0.5214105793450882,
	"grad_norm": 0.8241648077964783,
	"learning_rate": 4.811083123425694e-06,
	"loss": 1.5982,
	"step": 207
	},
	{
	"epoch": 0.5239294710327456,
	"grad_norm": 0.45886871218681335,
	"learning_rate": 4.7858942065491185e-06,
	"loss": 1.5594,
	"step": 208
	},
	{
	"epoch": 0.5264483627204031,
	"grad_norm": 0.5265582799911499,
	"learning_rate": 4.760705289672544e-06,
	"loss": 1.57,
	"step": 209
	},
	{
	"epoch": 0.5289672544080605,
	"grad_norm": 0.46276602149009705,
	"learning_rate": 4.73551637279597e-06,
	"loss": 1.5475,
	"step": 210
	},
	{
	"epoch": 0.5314861460957179,
	"grad_norm": 0.5516127943992615,
	"learning_rate": 4.710327455919396e-06,
	"loss": 1.5497,
	"step": 211
	},
	{
	"epoch": 0.5340050377833753,
	"grad_norm": 0.485507071018219,
	"learning_rate": 4.685138539042821e-06,
	"loss": 1.5954,
	"step": 212
	},
	{
	"epoch": 0.5365239294710328,
	"grad_norm": 0.4667035937309265,
	"learning_rate": 4.659949622166247e-06,
	"loss": 1.5524,
	"step": 213
	},
	{
	"epoch": 0.5390428211586902,
	"grad_norm": 0.4725947082042694,
	"learning_rate": 4.6347607052896736e-06,
	"loss": 1.5701,
	"step": 214
	},
	{
	"epoch": 0.5415617128463476,
	"grad_norm": 0.48055243492126465,
	"learning_rate": 4.609571788413098e-06,
	"loss": 1.512,
	"step": 215
	},
	{
	"epoch": 0.5440806045340051,
	"grad_norm": 0.47020798921585083,
	"learning_rate": 4.584382871536524e-06,
	"loss": 1.517,
	"step": 216
	},
	{
	"epoch": 0.5465994962216625,
	"grad_norm": 0.458790123462677,
	"learning_rate": 4.55919395465995e-06,
	"loss": 1.5963,
	"step": 217
	},
	{
	"epoch": 0.5491183879093199,
	"grad_norm": 0.46757379174232483,
	"learning_rate": 4.5340050377833755e-06,
	"loss": 1.5307,
	"step": 218
	},
	{
	"epoch": 0.5516372795969773,
	"grad_norm": 0.48817694187164307,
	"learning_rate": 4.508816120906801e-06,
	"loss": 1.5096,
	"step": 219
	},
	{
	"epoch": 0.5541561712846348,
	"grad_norm": 0.46775302290916443,
	"learning_rate": 4.483627204030227e-06,
	"loss": 1.5081,
	"step": 220
	},
	{
	"epoch": 0.5566750629722922,
	"grad_norm": 0.4632299244403839,
	"learning_rate": 4.458438287153653e-06,
	"loss": 1.5274,
	"step": 221
	},
	{
	"epoch": 0.5591939546599496,
	"grad_norm": 0.6220762729644775,
	"learning_rate": 4.433249370277078e-06,
	"loss": 1.4909,
	"step": 222
	},
	{
	"epoch": 0.5617128463476071,
	"grad_norm": 0.4639570713043213,
	"learning_rate": 4.408060453400504e-06,
	"loss": 1.531,
	"step": 223
	},
	{
	"epoch": 0.5642317380352645,
	"grad_norm": 0.48596182465553284,
	"learning_rate": 4.38287153652393e-06,
	"loss": 1.522,
	"step": 224
	},
	{
	"epoch": 0.5667506297229219,
	"grad_norm": 0.4745020866394043,
	"learning_rate": 4.3576826196473555e-06,
	"loss": 1.5323,
	"step": 225
	},
	{
	"epoch": 0.5692695214105793,
	"grad_norm": 0.5056527853012085,
	"learning_rate": 4.332493702770781e-06,
	"loss": 1.5374,
	"step": 226
	},
	{
	"epoch": 0.5717884130982368,
	"grad_norm": 0.44245389103889465,
	"learning_rate": 4.307304785894207e-06,
	"loss": 1.5169,
	"step": 227
	},
	{
	"epoch": 0.5743073047858942,
	"grad_norm": 0.4938381016254425,
	"learning_rate": 4.282115869017633e-06,
	"loss": 1.5192,
	"step": 228
	},
	{
	"epoch": 0.5768261964735516,
	"grad_norm": 0.4689100384712219,
	"learning_rate": 4.256926952141058e-06,
	"loss": 1.5666,
	"step": 229
	},
	{
	"epoch": 0.5793450881612091,
	"grad_norm": 0.5333397388458252,
	"learning_rate": 4.231738035264484e-06,
	"loss": 1.5562,
	"step": 230
	},
	{
	"epoch": 0.5818639798488665,
	"grad_norm": 0.5024259090423584,
	"learning_rate": 4.20654911838791e-06,
	"loss": 1.5135,
	"step": 231
	},
	{
	"epoch": 0.5843828715365239,
	"grad_norm": 0.46757936477661133,
	"learning_rate": 4.181360201511335e-06,
	"loss": 1.522,
	"step": 232
	},
	{
	"epoch": 0.5869017632241813,
	"grad_norm": 0.5455654263496399,
	"learning_rate": 4.156171284634761e-06,
	"loss": 1.5281,
	"step": 233
	},
	{
	"epoch": 0.5894206549118388,
	"grad_norm": 0.48288044333457947,
	"learning_rate": 4.130982367758187e-06,
	"loss": 1.5252,
	"step": 234
	},
	{
	"epoch": 0.5919395465994962,
	"grad_norm": 0.44919902086257935,
	"learning_rate": 4.1057934508816125e-06,
	"loss": 1.5371,
	"step": 235
	},
	{
	"epoch": 0.5944584382871536,
	"grad_norm": 0.4358011782169342,
	"learning_rate": 4.080604534005038e-06,
	"loss": 1.5419,
	"step": 236
	},
	{
	"epoch": 0.5969773299748111,
	"grad_norm": 0.518595278263092,
	"learning_rate": 4.055415617128464e-06,
	"loss": 1.538,
	"step": 237
	},
	{
	"epoch": 0.5994962216624685,
	"grad_norm": 0.6567726135253906,
	"learning_rate": 4.03022670025189e-06,
	"loss": 1.4867,
	"step": 238
	},
	{
	"epoch": 0.6020151133501259,
	"grad_norm": 0.48650607466697693,
	"learning_rate": 4.005037783375315e-06,
	"loss": 1.494,
	"step": 239
	},
	{
	"epoch": 0.6045340050377834,
	"grad_norm": 0.6559653878211975,
	"learning_rate": 3.979848866498741e-06,
	"loss": 1.54,
	"step": 240
	},
	{
	"epoch": 0.6070528967254408,
	"grad_norm": 0.45548874139785767,
	"learning_rate": 3.954659949622167e-06,
	"loss": 1.5148,
	"step": 241
	},
	{
	"epoch": 0.6095717884130982,
	"grad_norm": 0.6561994552612305,
	"learning_rate": 3.9294710327455925e-06,
	"loss": 1.5244,
	"step": 242
	},
	{
	"epoch": 0.6120906801007556,
	"grad_norm": 0.46143561601638794,
	"learning_rate": 3.904282115869018e-06,
	"loss": 1.5315,
	"step": 243
	},
	{
	"epoch": 0.6146095717884131,
	"grad_norm": 0.537300705909729,
	"learning_rate": 3.879093198992444e-06,
	"loss": 1.5424,
	"step": 244
	},
	{
	"epoch": 0.6171284634760705,
	"grad_norm": 0.46460816264152527,
	"learning_rate": 3.85390428211587e-06,
	"loss": 1.4941,
	"step": 245
	},
	{
	"epoch": 0.6196473551637279,
	"grad_norm": 0.48894399404525757,
	"learning_rate": 3.828715365239295e-06,
	"loss": 1.5294,
	"step": 246
	},
	{
	"epoch": 0.6221662468513854,
	"grad_norm": 0.4623178541660309,
	"learning_rate": 3.8035264483627206e-06,
	"loss": 1.5068,
	"step": 247
	},
	{
	"epoch": 0.6246851385390428,
	"grad_norm": 0.49979573488235474,
	"learning_rate": 3.7783375314861463e-06,
	"loss": 1.4801,
	"step": 248
	},
	{
	"epoch": 0.6272040302267002,
	"grad_norm": 0.5378308296203613,
	"learning_rate": 3.753148614609572e-06,
	"loss": 1.5444,
	"step": 249
	},
	{
	"epoch": 0.6297229219143576,
	"grad_norm": 0.5385175347328186,
	"learning_rate": 3.727959697732998e-06,
	"loss": 1.5249,
	"step": 250
	},
	{
	"epoch": 0.6322418136020151,
	"grad_norm": 0.46512940526008606,
	"learning_rate": 3.7027707808564234e-06,
	"loss": 1.5082,
	"step": 251
	},
	{
	"epoch": 0.6347607052896725,
	"grad_norm": 0.6099820733070374,
	"learning_rate": 3.6775818639798495e-06,
	"loss": 1.5297,
	"step": 252
	},
	{
	"epoch": 0.6372795969773299,
	"grad_norm": 0.4563128650188446,
	"learning_rate": 3.652392947103275e-06,
	"loss": 1.5108,
	"step": 253
	},
	{
	"epoch": 0.6397984886649875,
	"grad_norm": 0.4638257324695587,
	"learning_rate": 3.6272040302267005e-06,
	"loss": 1.492,
	"step": 254
	},
	{
	"epoch": 0.6423173803526449,
	"grad_norm": 0.4734160602092743,
	"learning_rate": 3.6020151133501262e-06,
	"loss": 1.5113,
	"step": 255
	},
	{
	"epoch": 0.6448362720403022,
	"grad_norm": 0.4613577127456665,
	"learning_rate": 3.576826196473552e-06,
	"loss": 1.5352,
	"step": 256
	},
	{
	"epoch": 0.6473551637279596,
	"grad_norm": 0.6752243638038635,
	"learning_rate": 3.5516372795969776e-06,
	"loss": 1.492,
	"step": 257
	},
	{
	"epoch": 0.6498740554156172,
	"grad_norm": 0.4645501673221588,
	"learning_rate": 3.5264483627204033e-06,
	"loss": 1.4993,
	"step": 258
	},
	{
	"epoch": 0.6523929471032746,
	"grad_norm": 0.5898957252502441,
	"learning_rate": 3.5012594458438295e-06,
	"loss": 1.4917,
	"step": 259
	},
	{
	"epoch": 0.654911838790932,
	"grad_norm": 0.4554866552352905,
	"learning_rate": 3.4760705289672547e-06,
	"loss": 1.5192,
	"step": 260
	},
	{
	"epoch": 0.6574307304785895,
	"grad_norm": 0.4567941427230835,
	"learning_rate": 3.45088161209068e-06,
	"loss": 1.5442,
	"step": 261
	},
	{
	"epoch": 0.6599496221662469,
	"grad_norm": 0.4824671447277069,
	"learning_rate": 3.425692695214106e-06,
	"loss": 1.5348,
	"step": 262
	},
	{
	"epoch": 0.6624685138539043,
	"grad_norm": 0.4494476616382599,
	"learning_rate": 3.4005037783375314e-06,
	"loss": 1.5278,
	"step": 263
	},
	{
	"epoch": 0.6649874055415617,
	"grad_norm": 0.5391709208488464,
	"learning_rate": 3.3753148614609576e-06,
	"loss": 1.5277,
	"step": 264
	},
	{
	"epoch": 0.6675062972292192,
	"grad_norm": 0.4483042061328888,
	"learning_rate": 3.3501259445843833e-06,
	"loss": 1.4955,
	"step": 265
	},
	{
	"epoch": 0.6700251889168766,
	"grad_norm": 0.46210387349128723,
	"learning_rate": 3.3249370277078086e-06,
	"loss": 1.5077,
	"step": 266
	},
	{
	"epoch": 0.672544080604534,
	"grad_norm": 0.5058848261833191,
	"learning_rate": 3.2997481108312347e-06,
	"loss": 1.4645,
	"step": 267
	},
	{
	"epoch": 0.6750629722921915,
	"grad_norm": 0.4964057207107544,
	"learning_rate": 3.27455919395466e-06,
	"loss": 1.4897,
	"step": 268
	},
	{
	"epoch": 0.6775818639798489,
	"grad_norm": 0.46125808358192444,
	"learning_rate": 3.249370277078086e-06,
	"loss": 1.5414,
	"step": 269
	},
	{
	"epoch": 0.6801007556675063,
	"grad_norm": 0.488656222820282,
	"learning_rate": 3.2241813602015114e-06,
	"loss": 1.4999,
	"step": 270
	},
	{
	"epoch": 0.6826196473551638,
	"grad_norm": 0.4692099988460541,
	"learning_rate": 3.1989924433249375e-06,
	"loss": 1.5402,
	"step": 271
	},
	{
	"epoch": 0.6851385390428212,
	"grad_norm": 0.49234357476234436,
	"learning_rate": 3.173803526448363e-06,
	"loss": 1.5373,
	"step": 272
	},
	{
	"epoch": 0.6876574307304786,
	"grad_norm": 0.596118152141571,
	"learning_rate": 3.1486146095717885e-06,
	"loss": 1.5145,
	"step": 273
	},
	{
	"epoch": 0.690176322418136,
	"grad_norm": 0.4749690890312195,
	"learning_rate": 3.1234256926952146e-06,
	"loss": 1.4973,
	"step": 274
	},
	{
	"epoch": 0.6926952141057935,
	"grad_norm": 0.4940085709095001,
	"learning_rate": 3.09823677581864e-06,
	"loss": 1.464,
	"step": 275
	},
	{
	"epoch": 0.6952141057934509,
	"grad_norm": 0.47270411252975464,
	"learning_rate": 3.073047858942066e-06,
	"loss": 1.5094,
	"step": 276
	},
	{
	"epoch": 0.6977329974811083,
	"grad_norm": 0.4631718695163727,
	"learning_rate": 3.0478589420654913e-06,
	"loss": 1.4893,
	"step": 277
	},
	{
	"epoch": 0.7002518891687658,
	"grad_norm": 0.5515400171279907,
	"learning_rate": 3.0226700251889174e-06,
	"loss": 1.5342,
	"step": 278
	},
	{
	"epoch": 0.7027707808564232,
	"grad_norm": 0.5326355695724487,
	"learning_rate": 2.9974811083123427e-06,
	"loss": 1.5263,
	"step": 279
	},
	{
	"epoch": 0.7052896725440806,
	"grad_norm": 0.45032408833503723,
	"learning_rate": 2.9722921914357684e-06,
	"loss": 1.4977,
	"step": 280
	},
	{
	"epoch": 0.707808564231738,
	"grad_norm": 0.49274197220802307,
	"learning_rate": 2.947103274559194e-06,
	"loss": 1.4729,
	"step": 281
	},
	{
	"epoch": 0.7103274559193955,
	"grad_norm": 0.45705220103263855,
	"learning_rate": 2.92191435768262e-06,
	"loss": 1.4908,
	"step": 282
	},
	{
	"epoch": 0.7128463476070529,
	"grad_norm": 0.46655991673469543,
	"learning_rate": 2.896725440806046e-06,
	"loss": 1.503,
	"step": 283
	},
	{
	"epoch": 0.7153652392947103,
	"grad_norm": 0.5047741532325745,
	"learning_rate": 2.8715365239294713e-06,
	"loss": 1.4656,
	"step": 284
	},
	{
	"epoch": 0.7178841309823678,
	"grad_norm": 0.4772416949272156,
	"learning_rate": 2.8463476070528965e-06,
	"loss": 1.4664,
	"step": 285
	},
	{
	"epoch": 0.7204030226700252,
	"grad_norm": 0.4567766487598419,
	"learning_rate": 2.8211586901763227e-06,
	"loss": 1.5123,
	"step": 286
	},
	{
	"epoch": 0.7229219143576826,
	"grad_norm": 0.4822060763835907,
	"learning_rate": 2.7959697732997484e-06,
	"loss": 1.5079,
	"step": 287
	},
	{
	"epoch": 0.72544080604534,
	"grad_norm": 0.637371301651001,
	"learning_rate": 2.770780856423174e-06,
	"loss": 1.472,
	"step": 288
	},
	{
	"epoch": 0.7279596977329975,
	"grad_norm": 0.4881971478462219,
	"learning_rate": 2.7455919395465998e-06,
	"loss": 1.4737,
	"step": 289
	},
	{
	"epoch": 0.7304785894206549,
	"grad_norm": 0.4653415381908417,
	"learning_rate": 2.7204030226700255e-06,
	"loss": 1.5104,
	"step": 290
	},
	{
	"epoch": 0.7329974811083123,
	"grad_norm": 0.476697713136673,
	"learning_rate": 2.695214105793451e-06,
	"loss": 1.5072,
	"step": 291
	},
	{
	"epoch": 0.7355163727959698,
	"grad_norm": 0.6168654561042786,
	"learning_rate": 2.6700251889168765e-06,
	"loss": 1.5142,
	"step": 292
	},
	{
	"epoch": 0.7380352644836272,
	"grad_norm": 0.6653453707695007,
	"learning_rate": 2.6448362720403026e-06,
	"loss": 1.4897,
	"step": 293
	},
	{
	"epoch": 0.7405541561712846,
	"grad_norm": 0.4866642951965332,
	"learning_rate": 2.619647355163728e-06,
	"loss": 1.5409,
	"step": 294
	},
	{
	"epoch": 0.743073047858942,
	"grad_norm": 0.4763050377368927,
	"learning_rate": 2.594458438287154e-06,
	"loss": 1.5306,
	"step": 295
	},
	{
	"epoch": 0.7455919395465995,
	"grad_norm": 0.5434437990188599,
	"learning_rate": 2.5692695214105793e-06,
	"loss": 1.5334,
	"step": 296
	},
	{
	"epoch": 0.7481108312342569,
	"grad_norm": 0.5760312080383301,
	"learning_rate": 2.5440806045340054e-06,
	"loss": 1.5138,
	"step": 297
	},
	{
	"epoch": 0.7506297229219143,
	"grad_norm": 0.44751110672950745,
	"learning_rate": 2.518891687657431e-06,
	"loss": 1.4845,
	"step": 298
	},
	{
	"epoch": 0.7531486146095718,
	"grad_norm": 0.4421987235546112,
	"learning_rate": 2.493702770780857e-06,
	"loss": 1.4837,
	"step": 299
	},
	{
	"epoch": 0.7556675062972292,
	"grad_norm": 0.7657718658447266,
	"learning_rate": 2.4685138539042825e-06,
	"loss": 1.5151,
	"step": 300
	},
	{
	"epoch": 0.7581863979848866,
	"grad_norm": 0.5052861571311951,
	"learning_rate": 2.443324937027708e-06,
	"loss": 1.5404,
	"step": 301
	},
	{
	"epoch": 0.760705289672544,
	"grad_norm": 0.5251312851905823,
	"learning_rate": 2.4181360201511335e-06,
	"loss": 1.4329,
	"step": 302
	},
	{
	"epoch": 0.7632241813602015,
	"grad_norm": 0.46061962842941284,
	"learning_rate": 2.3929471032745592e-06,
	"loss": 1.4976,
	"step": 303
	},
	{
	"epoch": 0.7657430730478589,
	"grad_norm": 0.4743208587169647,
	"learning_rate": 2.367758186397985e-06,
	"loss": 1.4939,
	"step": 304
	},
	{
	"epoch": 0.7682619647355163,
	"grad_norm": 0.4864160418510437,
	"learning_rate": 2.3425692695214107e-06,
	"loss": 1.4997,
	"step": 305
	},
	{
	"epoch": 0.7707808564231738,
	"grad_norm": 0.47275349497795105,
	"learning_rate": 2.3173803526448368e-06,
	"loss": 1.4793,
	"step": 306
	},
	{
	"epoch": 0.7732997481108312,
	"grad_norm": 0.49562177062034607,
	"learning_rate": 2.292191435768262e-06,
	"loss": 1.4755,
	"step": 307
	},
	{
	"epoch": 0.7758186397984886,
	"grad_norm": 0.564599335193634,
	"learning_rate": 2.2670025188916878e-06,
	"loss": 1.4932,
	"step": 308
	},
	{
	"epoch": 0.7783375314861462,
	"grad_norm": 0.4657755494117737,
	"learning_rate": 2.2418136020151135e-06,
	"loss": 1.5076,
	"step": 309
	},
	{
	"epoch": 0.7808564231738035,
	"grad_norm": 0.486026793718338,
	"learning_rate": 2.216624685138539e-06,
	"loss": 1.5014,
	"step": 310
	},
	{
	"epoch": 0.783375314861461,
	"grad_norm": 0.4599766135215759,
	"learning_rate": 2.191435768261965e-06,
	"loss": 1.5274,
	"step": 311
	},
	{
	"epoch": 0.7858942065491183,
	"grad_norm": 0.47607848048210144,
	"learning_rate": 2.1662468513853906e-06,
	"loss": 1.4701,
	"step": 312
	},
	{
	"epoch": 0.7884130982367759,
	"grad_norm": 0.47365328669548035,
	"learning_rate": 2.1410579345088163e-06,
	"loss": 1.4932,
	"step": 313
	},
	{
	"epoch": 0.7909319899244333,
	"grad_norm": 0.45562124252319336,
	"learning_rate": 2.115869017632242e-06,
	"loss": 1.4912,
	"step": 314
	},
	{
	"epoch": 0.7934508816120907,
	"grad_norm": 0.5331164002418518,
	"learning_rate": 2.0906801007556677e-06,
	"loss": 1.5174,
	"step": 315
	},
	{
	"epoch": 0.7959697732997482,
	"grad_norm": 0.509325385093689,
	"learning_rate": 2.0654911838790934e-06,
	"loss": 1.4788,
	"step": 316
	},
	{
	"epoch": 0.7984886649874056,
	"grad_norm": 0.4969271123409271,
	"learning_rate": 2.040302267002519e-06,
	"loss": 1.5377,
	"step": 317
	},
	{
	"epoch": 0.801007556675063,
	"grad_norm": 0.44712427258491516,
	"learning_rate": 2.015113350125945e-06,
	"loss": 1.5279,
	"step": 318
	},
	{
	"epoch": 0.8035264483627204,
	"grad_norm": 0.47016969323158264,
	"learning_rate": 1.9899244332493705e-06,
	"loss": 1.5309,
	"step": 319
	},
	{
	"epoch": 0.8060453400503779,
	"grad_norm": 0.5187602043151855,
	"learning_rate": 1.9647355163727962e-06,
	"loss": 1.507,
	"step": 320
	},
	{
	"epoch": 0.8085642317380353,
	"grad_norm": 0.4568648636341095,
	"learning_rate": 1.939546599496222e-06,
	"loss": 1.4517,
	"step": 321
	},
	{
	"epoch": 0.8110831234256927,
	"grad_norm": 0.4813389480113983,
	"learning_rate": 1.9143576826196476e-06,
	"loss": 1.5215,
	"step": 322
	},
	{
	"epoch": 0.8136020151133502,
	"grad_norm": 0.5260921716690063,
	"learning_rate": 1.8891687657430731e-06,
	"loss": 1.5154,
	"step": 323
	},
	{
	"epoch": 0.8161209068010076,
	"grad_norm": 0.5113592743873596,
	"learning_rate": 1.863979848866499e-06,
	"loss": 1.4496,
	"step": 324
	},
	{
	"epoch": 0.818639798488665,
	"grad_norm": 0.48540815711021423,
	"learning_rate": 1.8387909319899248e-06,
	"loss": 1.4874,
	"step": 325
	},
	{
	"epoch": 0.8211586901763224,
	"grad_norm": 0.4522131681442261,
	"learning_rate": 1.8136020151133503e-06,
	"loss": 1.4781,
	"step": 326
	},
	{
	"epoch": 0.8236775818639799,
	"grad_norm": 0.45719313621520996,
	"learning_rate": 1.788413098236776e-06,
	"loss": 1.4859,
	"step": 327
	},
	{
	"epoch": 0.8261964735516373,
	"grad_norm": 0.43814224004745483,
	"learning_rate": 1.7632241813602017e-06,
	"loss": 1.4775,
	"step": 328
	},
	{
	"epoch": 0.8287153652392947,
	"grad_norm": 0.44290891289711,
	"learning_rate": 1.7380352644836274e-06,
	"loss": 1.5037,
	"step": 329
	},
	{
	"epoch": 0.8312342569269522,
	"grad_norm": 0.4844774603843689,
	"learning_rate": 1.712846347607053e-06,
	"loss": 1.5179,
	"step": 330
	},
	{
	"epoch": 0.8337531486146096,
	"grad_norm": 0.4434620440006256,
	"learning_rate": 1.6876574307304788e-06,
	"loss": 1.494,
	"step": 331
	},
	{
	"epoch": 0.836272040302267,
	"grad_norm": 0.46283698081970215,
	"learning_rate": 1.6624685138539043e-06,
	"loss": 1.4889,
	"step": 332
	},
	{
	"epoch": 0.8387909319899244,
	"grad_norm": 0.471802681684494,
	"learning_rate": 1.63727959697733e-06,
	"loss": 1.4558,
	"step": 333
	},
	{
	"epoch": 0.8413098236775819,
	"grad_norm": 0.4605620205402374,
	"learning_rate": 1.6120906801007557e-06,
	"loss": 1.5238,
	"step": 334
	},
	{
	"epoch": 0.8438287153652393,
	"grad_norm": 0.6928207874298096,
	"learning_rate": 1.5869017632241814e-06,
	"loss": 1.51,
	"step": 335
	},
	{
	"epoch": 0.8463476070528967,
	"grad_norm": 0.48179909586906433,
	"learning_rate": 1.5617128463476073e-06,
	"loss": 1.5368,
	"step": 336
	},
	{
	"epoch": 0.8488664987405542,
	"grad_norm": 0.5029130578041077,
	"learning_rate": 1.536523929471033e-06,
	"loss": 1.4563,
	"step": 337
	},
	{
	"epoch": 0.8513853904282116,
	"grad_norm": 0.4608486294746399,
	"learning_rate": 1.5113350125944587e-06,
	"loss": 1.463,
	"step": 338
	},
	{
	"epoch": 0.853904282115869,
	"grad_norm": 0.5182480216026306,
	"learning_rate": 1.4861460957178842e-06,
	"loss": 1.465,
	"step": 339
	},
	{
	"epoch": 0.8564231738035264,
	"grad_norm": 0.4644806385040283,
	"learning_rate": 1.46095717884131e-06,
	"loss": 1.4987,
	"step": 340
	},
	{
	"epoch": 0.8589420654911839,
	"grad_norm": 0.4732770323753357,
	"learning_rate": 1.4357682619647356e-06,
	"loss": 1.5133,
	"step": 341
	},
	{
	"epoch": 0.8614609571788413,
	"grad_norm": 0.5835548043251038,
	"learning_rate": 1.4105793450881613e-06,
	"loss": 1.5233,
	"step": 342
	},
	{
	"epoch": 0.8639798488664987,
	"grad_norm": 0.45620298385620117,
	"learning_rate": 1.385390428211587e-06,
	"loss": 1.4727,
	"step": 343
	},
	{
	"epoch": 0.8664987405541562,
	"grad_norm": 0.4693787395954132,
	"learning_rate": 1.3602015113350127e-06,
	"loss": 1.4706,
	"step": 344
	},
	{
	"epoch": 0.8690176322418136,
	"grad_norm": 0.6238934993743896,
	"learning_rate": 1.3350125944584382e-06,
	"loss": 1.5022,
	"step": 345
	},
	{
	"epoch": 0.871536523929471,
	"grad_norm": 0.5140495896339417,
	"learning_rate": 1.309823677581864e-06,
	"loss": 1.4581,
	"step": 346
	},
	{
	"epoch": 0.8740554156171285,
	"grad_norm": 0.6451770663261414,
	"learning_rate": 1.2846347607052897e-06,
	"loss": 1.523,
	"step": 347
	},
	{
	"epoch": 0.8765743073047859,
	"grad_norm": 0.5394758582115173,
	"learning_rate": 1.2594458438287156e-06,
	"loss": 1.4815,
	"step": 348
	},
	{
	"epoch": 0.8790931989924433,
	"grad_norm": 0.4751567840576172,
	"learning_rate": 1.2342569269521413e-06,
	"loss": 1.4666,
	"step": 349
	},
	{
	"epoch": 0.8816120906801007,
	"grad_norm": 0.5158999562263489,
	"learning_rate": 1.2090680100755668e-06,
	"loss": 1.477,
	"step": 350
	},
	{
	"epoch": 0.8841309823677582,
	"grad_norm": 0.47987380623817444,
	"learning_rate": 1.1838790931989925e-06,
	"loss": 1.4751,
	"step": 351
	},
	{
	"epoch": 0.8866498740554156,
	"grad_norm": 0.45010906457901,
	"learning_rate": 1.1586901763224184e-06,
	"loss": 1.4935,
	"step": 352
	},
	{
	"epoch": 0.889168765743073,
	"grad_norm": 0.4675264060497284,
	"learning_rate": 1.1335012594458439e-06,
	"loss": 1.4767,
	"step": 353
	},
	{
	"epoch": 0.8916876574307305,
	"grad_norm": 0.4817536175251007,
	"learning_rate": 1.1083123425692696e-06,
	"loss": 1.5079,
	"step": 354
	},
	{
	"epoch": 0.8942065491183879,
	"grad_norm": 0.5326683521270752,
	"learning_rate": 1.0831234256926953e-06,
	"loss": 1.4643,
	"step": 355
	},
	{
	"epoch": 0.8967254408060453,
	"grad_norm": 0.45862582325935364,
	"learning_rate": 1.057934508816121e-06,
	"loss": 1.4784,
	"step": 356
	},
	{
	"epoch": 0.8992443324937027,
	"grad_norm": 0.4639340937137604,
	"learning_rate": 1.0327455919395467e-06,
	"loss": 1.4669,
	"step": 357
	},
	{
	"epoch": 0.9017632241813602,
	"grad_norm": 0.5519356727600098,
	"learning_rate": 1.0075566750629724e-06,
	"loss": 1.4962,
	"step": 358
	},
	{
	"epoch": 0.9042821158690176,
	"grad_norm": 0.5423635244369507,
	"learning_rate": 9.823677581863981e-07,
	"loss": 1.5149,
	"step": 359
	},
	{
	"epoch": 0.906801007556675,
	"grad_norm": 0.4961482286453247,
	"learning_rate": 9.571788413098238e-07,
	"loss": 1.4841,
	"step": 360
	},
	{
	"epoch": 0.9093198992443325,
	"grad_norm": 0.5558215379714966,
	"learning_rate": 9.319899244332495e-07,
	"loss": 1.4672,
	"step": 361
	},
	{
	"epoch": 0.9118387909319899,
	"grad_norm": 0.47575876116752625,
	"learning_rate": 9.068010075566751e-07,
	"loss": 1.5035,
	"step": 362
	},
	{
	"epoch": 0.9143576826196473,
	"grad_norm": 0.44151756167411804,
	"learning_rate": 8.816120906801008e-07,
	"loss": 1.4923,
	"step": 363
	},
	{
	"epoch": 0.9168765743073047,
	"grad_norm": 0.49502983689308167,
	"learning_rate": 8.564231738035265e-07,
	"loss": 1.4872,
	"step": 364
	},
	{
	"epoch": 0.9193954659949622,
	"grad_norm": 0.4563881456851959,
	"learning_rate": 8.312342569269521e-07,
	"loss": 1.5022,
	"step": 365
	},
	{
	"epoch": 0.9219143576826196,
	"grad_norm": 0.4814889132976532,
	"learning_rate": 8.060453400503778e-07,
	"loss": 1.4922,
	"step": 366
	},
	{
	"epoch": 0.924433249370277,
	"grad_norm": 0.44825509190559387,
	"learning_rate": 7.808564231738037e-07,
	"loss": 1.4695,
	"step": 367
	},
	{
	"epoch": 0.9269521410579346,
	"grad_norm": 0.46482357382774353,
	"learning_rate": 7.556675062972294e-07,
	"loss": 1.4943,
	"step": 368
	},
	{
	"epoch": 0.929471032745592,
	"grad_norm": 0.5883563160896301,
	"learning_rate": 7.30478589420655e-07,
	"loss": 1.4658,
	"step": 369
	},
	{
	"epoch": 0.9319899244332494,
	"grad_norm": 0.6148042678833008,
	"learning_rate": 7.052896725440807e-07,
	"loss": 1.4528,
	"step": 370
	},
	{
	"epoch": 0.9345088161209067,
	"grad_norm": 0.4770396649837494,
	"learning_rate": 6.801007556675064e-07,
	"loss": 1.4914,
	"step": 371
	},
	{
	"epoch": 0.9370277078085643,
	"grad_norm": 0.46335241198539734,
	"learning_rate": 6.54911838790932e-07,
	"loss": 1.5172,
	"step": 372
	},
	{
	"epoch": 0.9395465994962217,
	"grad_norm": 0.46679455041885376,
	"learning_rate": 6.297229219143578e-07,
	"loss": 1.4426,
	"step": 373
	},
	{
	"epoch": 0.9420654911838791,
	"grad_norm": 0.5507463216781616,
	"learning_rate": 6.045340050377834e-07,
	"loss": 1.5067,
	"step": 374
	},
	{
	"epoch": 0.9445843828715366,
	"grad_norm": 0.468250572681427,
	"learning_rate": 5.793450881612092e-07,
	"loss": 1.5105,
	"step": 375
	},
	{
	"epoch": 0.947103274559194,
	"grad_norm": 0.6048943996429443,
	"learning_rate": 5.541561712846348e-07,
	"loss": 1.4814,
	"step": 376
	},
	{
	"epoch": 0.9496221662468514,
	"grad_norm": 0.4735409617424011,
	"learning_rate": 5.289672544080605e-07,
	"loss": 1.4739,
	"step": 377
	},
	{
	"epoch": 0.9521410579345088,
	"grad_norm": 0.5519718527793884,
	"learning_rate": 5.037783375314862e-07,
	"loss": 1.5022,
	"step": 378
	},
	{
	"epoch": 0.9546599496221663,
	"grad_norm": 0.4825071692466736,
	"learning_rate": 4.785894206549119e-07,
	"loss": 1.4977,
	"step": 379
	},
	{
	"epoch": 0.9571788413098237,
	"grad_norm": 0.44791093468666077,
	"learning_rate": 4.5340050377833756e-07,
	"loss": 1.4912,
	"step": 380
	},
	{
	"epoch": 0.9596977329974811,
	"grad_norm": 0.6440786719322205,
	"learning_rate": 4.2821158690176327e-07,
	"loss": 1.4602,
	"step": 381
	},
	{
	"epoch": 0.9622166246851386,
	"grad_norm": 0.4575777053833008,
	"learning_rate": 4.030226700251889e-07,
	"loss": 1.4833,
	"step": 382
	},
	{
	"epoch": 0.964735516372796,
	"grad_norm": 0.47071707248687744,
	"learning_rate": 3.778337531486147e-07,
	"loss": 1.4963,
	"step": 383
	},
	{
	"epoch": 0.9672544080604534,
	"grad_norm": 0.6902024745941162,
	"learning_rate": 3.5264483627204033e-07,
	"loss": 1.4699,
	"step": 384
	},
	{
	"epoch": 0.9697732997481109,
	"grad_norm": 0.48268118500709534,
	"learning_rate": 3.27455919395466e-07,
	"loss": 1.472,
	"step": 385
	},
	{
	"epoch": 0.9722921914357683,
	"grad_norm": 0.4497368335723877,
	"learning_rate": 3.022670025188917e-07,
	"loss": 1.4654,
	"step": 386
	},
	{
	"epoch": 0.9748110831234257,
	"grad_norm": 0.5587329864501953,
	"learning_rate": 2.770780856423174e-07,
	"loss": 1.5351,
	"step": 387
	},
	{
	"epoch": 0.9773299748110831,
	"grad_norm": 0.5236759185791016,
	"learning_rate": 2.518891687657431e-07,
	"loss": 1.4955,
	"step": 388
	},
	{
	"epoch": 0.9798488664987406,
	"grad_norm": 0.4622642397880554,
	"learning_rate": 2.2670025188916878e-07,
	"loss": 1.4956,
	"step": 389
	},
	{
	"epoch": 0.982367758186398,
	"grad_norm": 0.4652063548564911,
	"learning_rate": 2.0151133501259446e-07,
	"loss": 1.4875,
	"step": 390
	},
	{
	"epoch": 0.9848866498740554,
	"grad_norm": 0.44629859924316406,
	"learning_rate": 1.7632241813602017e-07,
	"loss": 1.4543,
	"step": 391
	},
	{
	"epoch": 0.9874055415617129,
	"grad_norm": 0.45472198724746704,
	"learning_rate": 1.5113350125944585e-07,
	"loss": 1.5048,
	"step": 392
	},
	{
	"epoch": 0.9899244332493703,
	"grad_norm": 0.4791916608810425,
	"learning_rate": 1.2594458438287155e-07,
	"loss": 1.4998,
	"step": 393
	},
	{
	"epoch": 0.9924433249370277,
	"grad_norm": 0.45487239956855774,
	"learning_rate": 1.0075566750629723e-07,
	"loss": 1.5058,
	"step": 394
	},
	{
	"epoch": 0.9949622166246851,
	"grad_norm": 0.5730354189872742,
	"learning_rate": 7.556675062972292e-08,
	"loss": 1.5314,
	"step": 395
	},
	{
	"epoch": 0.9974811083123426,
	"grad_norm": 0.47194746136665344,
	"learning_rate": 5.0377833753148615e-08,
	"loss": 1.5077,
	"step": 396
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.5024914741516113,
	"learning_rate": 2.5188916876574308e-08,
	"loss": 1.4974,
	"step": 397
	}
	],
	"logging_steps": 1.0,
	"max_steps": 397,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 0,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.840368526032896e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}