new_model1 / trainer_state.json

up1

ca00a9f verified 9 months ago

97.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 83265,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005404431633939831,
	"grad_norm": 0.9054504632949829,
	"learning_rate": 3.602738080941516e-06,
	"loss": 1.2514,
	"step": 150
	},
	{
	"epoch": 0.010808863267879661,
	"grad_norm": 0.6858287453651428,
	"learning_rate": 7.205476161883032e-06,
	"loss": 1.1276,
	"step": 300
	},
	{
	"epoch": 0.016213294901819494,
	"grad_norm": 0.6737526655197144,
	"learning_rate": 1.0808214242824548e-05,
	"loss": 1.0866,
	"step": 450
	},
	{
	"epoch": 0.021617726535759323,
	"grad_norm": 0.6372509002685547,
	"learning_rate": 1.4410952323766064e-05,
	"loss": 1.0705,
	"step": 600
	},
	{
	"epoch": 0.027022158169699155,
	"grad_norm": 0.5196628570556641,
	"learning_rate": 1.8013690404707578e-05,
	"loss": 1.0525,
	"step": 750
	},
	{
	"epoch": 0.03242658980363899,
	"grad_norm": 0.4922332167625427,
	"learning_rate": 2.1616428485649097e-05,
	"loss": 1.0418,
	"step": 900
	},
	{
	"epoch": 0.03783102143757881,
	"grad_norm": 0.5018568634986877,
	"learning_rate": 2.521916656659061e-05,
	"loss": 1.0359,
	"step": 1050
	},
	{
	"epoch": 0.043235453071518645,
	"grad_norm": 0.4413062334060669,
	"learning_rate": 2.8821904647532128e-05,
	"loss": 1.037,
	"step": 1200
	},
	{
	"epoch": 0.04863988470545848,
	"grad_norm": 0.3888317048549652,
	"learning_rate": 3.242464272847364e-05,
	"loss": 1.0232,
	"step": 1350
	},
	{
	"epoch": 0.05404431633939831,
	"grad_norm": 0.43577057123184204,
	"learning_rate": 3.6027380809415156e-05,
	"loss": 1.0124,
	"step": 1500
	},
	{
	"epoch": 0.059448747973338135,
	"grad_norm": 0.41379234194755554,
	"learning_rate": 3.963011889035667e-05,
	"loss": 1.0225,
	"step": 1650
	},
	{
	"epoch": 0.06485317960727797,
	"grad_norm": 0.48700177669525146,
	"learning_rate": 4.3232856971298193e-05,
	"loss": 1.0138,
	"step": 1800
	},
	{
	"epoch": 0.0702576112412178,
	"grad_norm": 0.40877047181129456,
	"learning_rate": 4.683559505223971e-05,
	"loss": 1.0068,
	"step": 1950
	},
	{
	"epoch": 0.07566204287515763,
	"grad_norm": 0.37194114923477173,
	"learning_rate": 5.043833313318122e-05,
	"loss": 1.0007,
	"step": 2100
	},
	{
	"epoch": 0.08106647450909746,
	"grad_norm": 0.49839073419570923,
	"learning_rate": 5.404107121412274e-05,
	"loss": 1.0038,
	"step": 2250
	},
	{
	"epoch": 0.08647090614303729,
	"grad_norm": 0.3880678117275238,
	"learning_rate": 5.7643809295064256e-05,
	"loss": 0.9996,
	"step": 2400
	},
	{
	"epoch": 0.09187533777697712,
	"grad_norm": 0.4280707538127899,
	"learning_rate": 6.124654737600577e-05,
	"loss": 1.0049,
	"step": 2550
	},
	{
	"epoch": 0.09727976941091696,
	"grad_norm": 0.4451320469379425,
	"learning_rate": 6.484928545694728e-05,
	"loss": 1.0057,
	"step": 2700
	},
	{
	"epoch": 0.10268420104485679,
	"grad_norm": 0.38181596994400024,
	"learning_rate": 6.84520235378888e-05,
	"loss": 1.0019,
	"step": 2850
	},
	{
	"epoch": 0.10808863267879662,
	"grad_norm": 0.38614770770072937,
	"learning_rate": 7.205476161883031e-05,
	"loss": 1.0045,
	"step": 3000
	},
	{
	"epoch": 0.11349306431273644,
	"grad_norm": 0.3148934543132782,
	"learning_rate": 7.565749969977183e-05,
	"loss": 1.0041,
	"step": 3150
	},
	{
	"epoch": 0.11889749594667627,
	"grad_norm": 0.41060400009155273,
	"learning_rate": 7.926023778071334e-05,
	"loss": 1.0001,
	"step": 3300
	},
	{
	"epoch": 0.1243019275806161,
	"grad_norm": 0.40537866950035095,
	"learning_rate": 8.286297586165485e-05,
	"loss": 1.0014,
	"step": 3450
	},
	{
	"epoch": 0.12970635921455595,
	"grad_norm": 0.3297308683395386,
	"learning_rate": 8.646571394259639e-05,
	"loss": 1.0055,
	"step": 3600
	},
	{
	"epoch": 0.13511079084849575,
	"grad_norm": 0.39976179599761963,
	"learning_rate": 9.00684520235379e-05,
	"loss": 0.9993,
	"step": 3750
	},
	{
	"epoch": 0.1405152224824356,
	"grad_norm": 0.39322683215141296,
	"learning_rate": 9.367119010447942e-05,
	"loss": 0.9965,
	"step": 3900
	},
	{
	"epoch": 0.14591965411637542,
	"grad_norm": 0.45231467485427856,
	"learning_rate": 9.727392818542093e-05,
	"loss": 0.9978,
	"step": 4050
	},
	{
	"epoch": 0.15132408575031525,
	"grad_norm": 0.41241922974586487,
	"learning_rate": 0.00010087666626636244,
	"loss": 1.0051,
	"step": 4200
	},
	{
	"epoch": 0.15672851738425508,
	"grad_norm": 0.5085678100585938,
	"learning_rate": 0.00010447940434730397,
	"loss": 0.9971,
	"step": 4350
	},
	{
	"epoch": 0.16213294901819492,
	"grad_norm": 0.4659586548805237,
	"learning_rate": 0.00010808214242824548,
	"loss": 1.0083,
	"step": 4500
	},
	{
	"epoch": 0.16753738065213475,
	"grad_norm": 0.330456018447876,
	"learning_rate": 0.00011168488050918699,
	"loss": 1.0013,
	"step": 4650
	},
	{
	"epoch": 0.17294181228607458,
	"grad_norm": 0.4083492159843445,
	"learning_rate": 0.00011528761859012851,
	"loss": 1.0107,
	"step": 4800
	},
	{
	"epoch": 0.1783462439200144,
	"grad_norm": 0.5598177909851074,
	"learning_rate": 0.00011889035667107002,
	"loss": 0.9992,
	"step": 4950
	},
	{
	"epoch": 0.18375067555395425,
	"grad_norm": 0.4554787576198578,
	"learning_rate": 0.00012249309475201154,
	"loss": 0.9972,
	"step": 5100
	},
	{
	"epoch": 0.18915510718789408,
	"grad_norm": 0.5599480271339417,
	"learning_rate": 0.00012609583283295305,
	"loss": 1.0017,
	"step": 5250
	},
	{
	"epoch": 0.1945595388218339,
	"grad_norm": 0.4103052318096161,
	"learning_rate": 0.00012969857091389456,
	"loss": 1.0075,
	"step": 5400
	},
	{
	"epoch": 0.19996397045577374,
	"grad_norm": 0.5033989548683167,
	"learning_rate": 0.0001333013089948361,
	"loss": 0.9998,
	"step": 5550
	},
	{
	"epoch": 0.20536840208971358,
	"grad_norm": 0.41184836626052856,
	"learning_rate": 0.0001369040470757776,
	"loss": 1.0116,
	"step": 5700
	},
	{
	"epoch": 0.2107728337236534,
	"grad_norm": 0.4604012370109558,
	"learning_rate": 0.0001405067851567191,
	"loss": 1.0144,
	"step": 5850
	},
	{
	"epoch": 0.21617726535759324,
	"grad_norm": 0.5769256949424744,
	"learning_rate": 0.00014410952323766062,
	"loss": 1.0142,
	"step": 6000
	},
	{
	"epoch": 0.22158169699153304,
	"grad_norm": 0.49323058128356934,
	"learning_rate": 0.00014771226131860213,
	"loss": 1.0224,
	"step": 6150
	},
	{
	"epoch": 0.22698612862547288,
	"grad_norm": 0.4065729081630707,
	"learning_rate": 0.00015131499939954367,
	"loss": 1.011,
	"step": 6300
	},
	{
	"epoch": 0.2323905602594127,
	"grad_norm": 0.4484567642211914,
	"learning_rate": 0.00015491773748048518,
	"loss": 1.0135,
	"step": 6450
	},
	{
	"epoch": 0.23779499189335254,
	"grad_norm": 0.5265558958053589,
	"learning_rate": 0.00015852047556142668,
	"loss": 1.0266,
	"step": 6600
	},
	{
	"epoch": 0.24319942352729237,
	"grad_norm": 0.43009766936302185,
	"learning_rate": 0.0001621232136423682,
	"loss": 1.025,
	"step": 6750
	},
	{
	"epoch": 0.2486038551612322,
	"grad_norm": 0.45328229665756226,
	"learning_rate": 0.0001657259517233097,
	"loss": 1.0256,
	"step": 6900
	},
	{
	"epoch": 0.25400828679517207,
	"grad_norm": 0.4880930781364441,
	"learning_rate": 0.00016932868980425124,
	"loss": 1.0268,
	"step": 7050
	},
	{
	"epoch": 0.2594127184291119,
	"grad_norm": 0.4783656597137451,
	"learning_rate": 0.00017293142788519277,
	"loss": 1.0281,
	"step": 7200
	},
	{
	"epoch": 0.2648171500630517,
	"grad_norm": 0.40857091546058655,
	"learning_rate": 0.00017653416596613428,
	"loss": 1.0436,
	"step": 7350
	},
	{
	"epoch": 0.2702215816969915,
	"grad_norm": 0.5468364953994751,
	"learning_rate": 0.0001801369040470758,
	"loss": 1.0431,
	"step": 7500
	},
	{
	"epoch": 0.27562601333093134,
	"grad_norm": 0.4680778384208679,
	"learning_rate": 0.0001837396421280173,
	"loss": 1.0449,
	"step": 7650
	},
	{
	"epoch": 0.2810304449648712,
	"grad_norm": 0.5532673001289368,
	"learning_rate": 0.00018734238020895884,
	"loss": 1.0453,
	"step": 7800
	},
	{
	"epoch": 0.286434876598811,
	"grad_norm": 0.5404918789863586,
	"learning_rate": 0.00019094511828990034,
	"loss": 1.0592,
	"step": 7950
	},
	{
	"epoch": 0.29183930823275084,
	"grad_norm": 0.5416702628135681,
	"learning_rate": 0.00019454785637084185,
	"loss": 1.0541,
	"step": 8100
	},
	{
	"epoch": 0.29724373986669067,
	"grad_norm": 0.5036255121231079,
	"learning_rate": 0.00019815059445178336,
	"loss": 1.0544,
	"step": 8250
	},
	{
	"epoch": 0.3026481715006305,
	"grad_norm": 0.564854621887207,
	"learning_rate": 0.00019999953171425823,
	"loss": 1.0528,
	"step": 8400
	},
	{
	"epoch": 0.30805260313457034,
	"grad_norm": 0.5236982107162476,
	"learning_rate": 0.00019999563009378472,
	"loss": 1.0595,
	"step": 8550
	},
	{
	"epoch": 0.31345703476851017,
	"grad_norm": 0.5642319917678833,
	"learning_rate": 0.00019998777428218277,
	"loss": 1.0733,
	"step": 8700
	},
	{
	"epoch": 0.31886146640245,
	"grad_norm": 0.5522397756576538,
	"learning_rate": 0.00019997596459009974,
	"loss": 1.0685,
	"step": 8850
	},
	{
	"epoch": 0.32426589803638983,
	"grad_norm": 0.5239744782447815,
	"learning_rate": 0.00019996020148453384,
	"loss": 1.068,
	"step": 9000
	},
	{
	"epoch": 0.32967032967032966,
	"grad_norm": 0.5960803627967834,
	"learning_rate": 0.00019994048558881562,
	"loss": 1.0681,
	"step": 9150
	},
	{
	"epoch": 0.3350747613042695,
	"grad_norm": 0.5771428942680359,
	"learning_rate": 0.00019991681768258336,
	"loss": 1.0649,
	"step": 9300
	},
	{
	"epoch": 0.34047919293820933,
	"grad_norm": 0.5502661466598511,
	"learning_rate": 0.00019988919870175223,
	"loss": 1.0632,
	"step": 9450
	},
	{
	"epoch": 0.34588362457214916,
	"grad_norm": 0.5481303930282593,
	"learning_rate": 0.0001998576297384772,
	"loss": 1.0604,
	"step": 9600
	},
	{
	"epoch": 0.351288056206089,
	"grad_norm": 0.520757257938385,
	"learning_rate": 0.00019982211204111,
	"loss": 1.0703,
	"step": 9750
	},
	{
	"epoch": 0.3566924878400288,
	"grad_norm": 0.5234895348548889,
	"learning_rate": 0.00019978264701414963,
	"loss": 1.0693,
	"step": 9900
	},
	{
	"epoch": 0.36209691947396866,
	"grad_norm": 0.669703483581543,
	"learning_rate": 0.0001997392362181869,
	"loss": 1.0706,
	"step": 10050
	},
	{
	"epoch": 0.3675013511079085,
	"grad_norm": 0.5472550392150879,
	"learning_rate": 0.00019969188136984267,
	"loss": 1.0743,
	"step": 10200
	},
	{
	"epoch": 0.3729057827418483,
	"grad_norm": 0.5862524509429932,
	"learning_rate": 0.00019964058434169995,
	"loss": 1.069,
	"step": 10350
	},
	{
	"epoch": 0.37831021437578816,
	"grad_norm": 0.5793502330780029,
	"learning_rate": 0.0001995853471622299,
	"loss": 1.0686,
	"step": 10500
	},
	{
	"epoch": 0.383714646009728,
	"grad_norm": 0.670881986618042,
	"learning_rate": 0.0001995261720157117,
	"loss": 1.0749,
	"step": 10650
	},
	{
	"epoch": 0.3891190776436678,
	"grad_norm": 0.698593258857727,
	"learning_rate": 0.00019946306124214594,
	"loss": 1.0678,
	"step": 10800
	},
	{
	"epoch": 0.39452350927760765,
	"grad_norm": 0.5866215229034424,
	"learning_rate": 0.00019939601733716232,
	"loss": 1.0605,
	"step": 10950
	},
	{
	"epoch": 0.3999279409115475,
	"grad_norm": 0.5571088790893555,
	"learning_rate": 0.0001993250429519208,
	"loss": 1.0732,
	"step": 11100
	},
	{
	"epoch": 0.4053323725454873,
	"grad_norm": 0.6108280420303345,
	"learning_rate": 0.0001992501408930069,
	"loss": 1.0717,
	"step": 11250
	},
	{
	"epoch": 0.41073680417942715,
	"grad_norm": 0.5834035873413086,
	"learning_rate": 0.00019917131412232057,
	"loss": 1.0767,
	"step": 11400
	},
	{
	"epoch": 0.416141235813367,
	"grad_norm": 0.6449561715126038,
	"learning_rate": 0.00019908856575695925,
	"loss": 1.0679,
	"step": 11550
	},
	{
	"epoch": 0.4215456674473068,
	"grad_norm": 0.6005063652992249,
	"learning_rate": 0.00019900189906909446,
	"loss": 1.0697,
	"step": 11700
	},
	{
	"epoch": 0.42695009908124665,
	"grad_norm": 0.48533475399017334,
	"learning_rate": 0.0001989113174858424,
	"loss": 1.0759,
	"step": 11850
	},
	{
	"epoch": 0.4323545307151865,
	"grad_norm": 0.6543179154396057,
	"learning_rate": 0.00019881682458912855,
	"loss": 1.068,
	"step": 12000
	},
	{
	"epoch": 0.43775896234912626,
	"grad_norm": 0.6233469843864441,
	"learning_rate": 0.00019871842411554598,
	"loss": 1.0665,
	"step": 12150
	},
	{
	"epoch": 0.4431633939830661,
	"grad_norm": 0.5530846118927002,
	"learning_rate": 0.0001986161199562074,
	"loss": 1.0759,
	"step": 12300
	},
	{
	"epoch": 0.4485678256170059,
	"grad_norm": 0.6484875679016113,
	"learning_rate": 0.00019850991615659173,
	"loss": 1.0799,
	"step": 12450
	},
	{
	"epoch": 0.45397225725094575,
	"grad_norm": 0.5916330814361572,
	"learning_rate": 0.00019839981691638364,
	"loss": 1.0732,
	"step": 12600
	},
	{
	"epoch": 0.4593766888848856,
	"grad_norm": 0.6168014407157898,
	"learning_rate": 0.00019828582658930777,
	"loss": 1.063,
	"step": 12750
	},
	{
	"epoch": 0.4647811205188254,
	"grad_norm": 0.7302340269088745,
	"learning_rate": 0.00019816794968295648,
	"loss": 1.0694,
	"step": 12900
	},
	{
	"epoch": 0.47018555215276525,
	"grad_norm": 0.7804449200630188,
	"learning_rate": 0.00019804619085861172,
	"loss": 1.0681,
	"step": 13050
	},
	{
	"epoch": 0.4755899837867051,
	"grad_norm": 0.690500020980835,
	"learning_rate": 0.00019792055493106042,
	"loss": 1.0662,
	"step": 13200
	},
	{
	"epoch": 0.4809944154206449,
	"grad_norm": 0.6514592170715332,
	"learning_rate": 0.00019779104686840445,
	"loss": 1.0682,
	"step": 13350
	},
	{
	"epoch": 0.48639884705458475,
	"grad_norm": 0.7182182669639587,
	"learning_rate": 0.00019765767179186393,
	"loss": 1.0761,
	"step": 13500
	},
	{
	"epoch": 0.4918032786885246,
	"grad_norm": 0.6194586157798767,
	"learning_rate": 0.00019752043497557473,
	"loss": 1.0637,
	"step": 13650
	},
	{
	"epoch": 0.4972077103224644,
	"grad_norm": 0.5965324640274048,
	"learning_rate": 0.00019737934184638006,
	"loss": 1.0658,
	"step": 13800
	},
	{
	"epoch": 0.5026121419564042,
	"grad_norm": 0.6684099435806274,
	"learning_rate": 0.0001972343979836157,
	"loss": 1.0788,
	"step": 13950
	},
	{
	"epoch": 0.5080165735903441,
	"grad_norm": 0.6042500734329224,
	"learning_rate": 0.00019708560911888947,
	"loss": 1.0748,
	"step": 14100
	},
	{
	"epoch": 0.5134210052242839,
	"grad_norm": 0.6769179701805115,
	"learning_rate": 0.0001969329811358546,
	"loss": 1.08,
	"step": 14250
	},
	{
	"epoch": 0.5188254368582238,
	"grad_norm": 0.6137043237686157,
	"learning_rate": 0.000196776520069977,
	"loss": 1.0752,
	"step": 14400
	},
	{
	"epoch": 0.5242298684921636,
	"grad_norm": 0.5905526280403137,
	"learning_rate": 0.00019661623210829657,
	"loss": 1.0711,
	"step": 14550
	},
	{
	"epoch": 0.5296343001261034,
	"grad_norm": 0.5724222660064697,
	"learning_rate": 0.00019645212358918273,
	"loss": 1.0665,
	"step": 14700
	},
	{
	"epoch": 0.5350387317600432,
	"grad_norm": 0.6485213041305542,
	"learning_rate": 0.00019628420100208354,
	"loss": 1.075,
	"step": 14850
	},
	{
	"epoch": 0.540443163393983,
	"grad_norm": 0.6828542351722717,
	"learning_rate": 0.00019611247098726917,
	"loss": 1.0742,
	"step": 15000
	},
	{
	"epoch": 0.5458475950279229,
	"grad_norm": 0.7089459300041199,
	"learning_rate": 0.00019593694033556944,
	"loss": 1.0717,
	"step": 15150
	},
	{
	"epoch": 0.5512520266618627,
	"grad_norm": 0.6180184483528137,
	"learning_rate": 0.00019575761598810508,
	"loss": 1.0701,
	"step": 15300
	},
	{
	"epoch": 0.5566564582958026,
	"grad_norm": 0.6298936605453491,
	"learning_rate": 0.00019557450503601345,
	"loss": 1.0693,
	"step": 15450
	},
	{
	"epoch": 0.5620608899297423,
	"grad_norm": 0.7352581024169922,
	"learning_rate": 0.00019538761472016796,
	"loss": 1.0773,
	"step": 15600
	},
	{
	"epoch": 0.5674653215636822,
	"grad_norm": 0.5634006857872009,
	"learning_rate": 0.00019519695243089188,
	"loss": 1.0747,
	"step": 15750
	},
	{
	"epoch": 0.572869753197622,
	"grad_norm": 0.6061451435089111,
	"learning_rate": 0.00019500252570766599,
	"loss": 1.0659,
	"step": 15900
	},
	{
	"epoch": 0.5782741848315619,
	"grad_norm": 0.7047978043556213,
	"learning_rate": 0.00019480434223883046,
	"loss": 1.0695,
	"step": 16050
	},
	{
	"epoch": 0.5836786164655017,
	"grad_norm": 0.7310365438461304,
	"learning_rate": 0.00019460240986128095,
	"loss": 1.074,
	"step": 16200
	},
	{
	"epoch": 0.5890830480994416,
	"grad_norm": 0.7517262697219849,
	"learning_rate": 0.00019439673656015857,
	"loss": 1.0675,
	"step": 16350
	},
	{
	"epoch": 0.5944874797333813,
	"grad_norm": 0.6441323757171631,
	"learning_rate": 0.00019418733046853412,
	"loss": 1.0832,
	"step": 16500
	},
	{
	"epoch": 0.5998919113673212,
	"grad_norm": 0.7108227014541626,
	"learning_rate": 0.00019397419986708658,
	"loss": 1.0702,
	"step": 16650
	},
	{
	"epoch": 0.605296343001261,
	"grad_norm": 0.7227650284767151,
	"learning_rate": 0.00019375735318377557,
	"loss": 1.0676,
	"step": 16800
	},
	{
	"epoch": 0.6107007746352009,
	"grad_norm": 0.7566308975219727,
	"learning_rate": 0.00019353679899350814,
	"loss": 1.076,
	"step": 16950
	},
	{
	"epoch": 0.6161052062691407,
	"grad_norm": 0.5554959177970886,
	"learning_rate": 0.00019331254601779959,
	"loss": 1.0758,
	"step": 17100
	},
	{
	"epoch": 0.6215096379030806,
	"grad_norm": 0.6587594747543335,
	"learning_rate": 0.0001930846031244287,
	"loss": 1.0671,
	"step": 17250
	},
	{
	"epoch": 0.6269140695370203,
	"grad_norm": 0.7100338339805603,
	"learning_rate": 0.0001928529793270871,
	"loss": 1.067,
	"step": 17400
	},
	{
	"epoch": 0.6323185011709602,
	"grad_norm": 0.6286484003067017,
	"learning_rate": 0.00019261768378502262,
	"loss": 1.0668,
	"step": 17550
	},
	{
	"epoch": 0.6377229328049,
	"grad_norm": 0.7707709670066833,
	"learning_rate": 0.00019237872580267734,
	"loss": 1.0672,
	"step": 17700
	},
	{
	"epoch": 0.6431273644388399,
	"grad_norm": 0.7858836054801941,
	"learning_rate": 0.00019213611482931953,
	"loss": 1.0736,
	"step": 17850
	},
	{
	"epoch": 0.6485317960727797,
	"grad_norm": 0.6796938180923462,
	"learning_rate": 0.00019188986045866997,
	"loss": 1.0759,
	"step": 18000
	},
	{
	"epoch": 0.6539362277067196,
	"grad_norm": 0.6615278124809265,
	"learning_rate": 0.0001916399724285227,
	"loss": 1.0713,
	"step": 18150
	},
	{
	"epoch": 0.6593406593406593,
	"grad_norm": 0.6353105306625366,
	"learning_rate": 0.00019138646062035982,
	"loss": 1.0769,
	"step": 18300
	},
	{
	"epoch": 0.6647450909745992,
	"grad_norm": 0.6170017123222351,
	"learning_rate": 0.0001911293350589609,
	"loss": 1.07,
	"step": 18450
	},
	{
	"epoch": 0.670149522608539,
	"grad_norm": 0.6368488073348999,
	"learning_rate": 0.00019086860591200632,
	"loss": 1.0774,
	"step": 18600
	},
	{
	"epoch": 0.6755539542424789,
	"grad_norm": 0.5853469371795654,
	"learning_rate": 0.00019060428348967548,
	"loss": 1.0732,
	"step": 18750
	},
	{
	"epoch": 0.6809583858764187,
	"grad_norm": 0.7817432880401611,
	"learning_rate": 0.00019033637824423884,
	"loss": 1.0732,
	"step": 18900
	},
	{
	"epoch": 0.6863628175103585,
	"grad_norm": 0.6566998362541199,
	"learning_rate": 0.00019006490076964487,
	"loss": 1.0671,
	"step": 19050
	},
	{
	"epoch": 0.6917672491442983,
	"grad_norm": 0.5824844837188721,
	"learning_rate": 0.00018978986180110088,
	"loss": 1.0656,
	"step": 19200
	},
	{
	"epoch": 0.6971716807782381,
	"grad_norm": 0.5842050909996033,
	"learning_rate": 0.0001895112722146486,
	"loss": 1.0646,
	"step": 19350
	},
	{
	"epoch": 0.702576112412178,
	"grad_norm": 0.6520604491233826,
	"learning_rate": 0.00018922914302673421,
	"loss": 1.0745,
	"step": 19500
	},
	{
	"epoch": 0.7079805440461178,
	"grad_norm": 0.648113489151001,
	"learning_rate": 0.0001889434853937725,
	"loss": 1.0711,
	"step": 19650
	},
	{
	"epoch": 0.7133849756800577,
	"grad_norm": 1.0153329372406006,
	"learning_rate": 0.00018865431061170588,
	"loss": 1.0643,
	"step": 19800
	},
	{
	"epoch": 0.7187894073139974,
	"grad_norm": 0.6522130370140076,
	"learning_rate": 0.00018836163011555764,
	"loss": 1.0629,
	"step": 19950
	},
	{
	"epoch": 0.7241938389479373,
	"grad_norm": 0.6235710978507996,
	"learning_rate": 0.0001880654554789798,
	"loss": 1.0637,
	"step": 20100
	},
	{
	"epoch": 0.7295982705818771,
	"grad_norm": 0.6486189365386963,
	"learning_rate": 0.00018776579841379528,
	"loss": 1.0679,
	"step": 20250
	},
	{
	"epoch": 0.735002702215817,
	"grad_norm": 0.7326012849807739,
	"learning_rate": 0.00018746267076953505,
	"loss": 1.0624,
	"step": 20400
	},
	{
	"epoch": 0.7404071338497568,
	"grad_norm": 0.7451658248901367,
	"learning_rate": 0.00018715608453296926,
	"loss": 1.0799,
	"step": 20550
	},
	{
	"epoch": 0.7458115654836966,
	"grad_norm": 0.5677480101585388,
	"learning_rate": 0.00018684605182763355,
	"loss": 1.0665,
	"step": 20700
	},
	{
	"epoch": 0.7512159971176364,
	"grad_norm": 0.6265568137168884,
	"learning_rate": 0.00018653258491334933,
	"loss": 1.0562,
	"step": 20850
	},
	{
	"epoch": 0.7566204287515763,
	"grad_norm": 0.5560349225997925,
	"learning_rate": 0.0001862156961857392,
	"loss": 1.0696,
	"step": 21000
	},
	{
	"epoch": 0.7620248603855161,
	"grad_norm": 0.7811048626899719,
	"learning_rate": 0.0001858953981757367,
	"loss": 1.0713,
	"step": 21150
	},
	{
	"epoch": 0.767429292019456,
	"grad_norm": 0.8111995458602905,
	"learning_rate": 0.00018557170354909088,
	"loss": 1.0641,
	"step": 21300
	},
	{
	"epoch": 0.7728337236533958,
	"grad_norm": 0.6084979176521301,
	"learning_rate": 0.0001852446251058652,
	"loss": 1.0609,
	"step": 21450
	},
	{
	"epoch": 0.7782381552873356,
	"grad_norm": 0.6472198963165283,
	"learning_rate": 0.0001849141757799317,
	"loss": 1.0659,
	"step": 21600
	},
	{
	"epoch": 0.7836425869212754,
	"grad_norm": 0.6767707467079163,
	"learning_rate": 0.00018458036863845933,
	"loss": 1.0687,
	"step": 21750
	},
	{
	"epoch": 0.7890470185552153,
	"grad_norm": 0.6994395852088928,
	"learning_rate": 0.00018424321688139729,
	"loss": 1.0634,
	"step": 21900
	},
	{
	"epoch": 0.7944514501891551,
	"grad_norm": 0.6968779563903809,
	"learning_rate": 0.000183902733840953,
	"loss": 1.0552,
	"step": 22050
	},
	{
	"epoch": 0.799855881823095,
	"grad_norm": 0.6974983215332031,
	"learning_rate": 0.0001835589329810651,
	"loss": 1.0722,
	"step": 22200
	},
	{
	"epoch": 0.8052603134570347,
	"grad_norm": 0.6921077966690063,
	"learning_rate": 0.00018321182789687068,
	"loss": 1.0557,
	"step": 22350
	},
	{
	"epoch": 0.8106647450909746,
	"grad_norm": 0.6887233257293701,
	"learning_rate": 0.00018286143231416806,
	"loss": 1.0633,
	"step": 22500
	},
	{
	"epoch": 0.8160691767249144,
	"grad_norm": 0.6151506900787354,
	"learning_rate": 0.00018250776008887375,
	"loss": 1.0694,
	"step": 22650
	},
	{
	"epoch": 0.8214736083588543,
	"grad_norm": 0.682551383972168,
	"learning_rate": 0.00018215082520647467,
	"loss": 1.0677,
	"step": 22800
	},
	{
	"epoch": 0.8268780399927941,
	"grad_norm": 0.6813539862632751,
	"learning_rate": 0.00018179064178147506,
	"loss": 1.0628,
	"step": 22950
	},
	{
	"epoch": 0.832282471626734,
	"grad_norm": 0.583910346031189,
	"learning_rate": 0.00018142722405683839,
	"loss": 1.0605,
	"step": 23100
	},
	{
	"epoch": 0.8376869032606737,
	"grad_norm": 0.6265426278114319,
	"learning_rate": 0.000181060586403424,
	"loss": 1.0709,
	"step": 23250
	},
	{
	"epoch": 0.8430913348946136,
	"grad_norm": 0.5985749959945679,
	"learning_rate": 0.0001806907433194191,
	"loss": 1.0521,
	"step": 23400
	},
	{
	"epoch": 0.8484957665285534,
	"grad_norm": 0.6286662220954895,
	"learning_rate": 0.00018031770942976514,
	"loss": 1.0648,
	"step": 23550
	},
	{
	"epoch": 0.8539001981624933,
	"grad_norm": 0.6208794713020325,
	"learning_rate": 0.00017994149948557975,
	"loss": 1.0565,
	"step": 23700
	},
	{
	"epoch": 0.8593046297964331,
	"grad_norm": 0.7522740960121155,
	"learning_rate": 0.00017956212836357324,
	"loss": 1.0583,
	"step": 23850
	},
	{
	"epoch": 0.864709061430373,
	"grad_norm": 0.791959285736084,
	"learning_rate": 0.0001791796110654604,
	"loss": 1.0663,
	"step": 24000
	},
	{
	"epoch": 0.8701134930643127,
	"grad_norm": 0.5950735211372375,
	"learning_rate": 0.0001787939627173673,
	"loss": 1.0652,
	"step": 24150
	},
	{
	"epoch": 0.8755179246982525,
	"grad_norm": 0.6595513820648193,
	"learning_rate": 0.0001784051985692332,
	"loss": 1.051,
	"step": 24300
	},
	{
	"epoch": 0.8809223563321924,
	"grad_norm": 0.6468363404273987,
	"learning_rate": 0.00017801333399420724,
	"loss": 1.0465,
	"step": 24450
	},
	{
	"epoch": 0.8863267879661322,
	"grad_norm": 3.451094150543213,
	"learning_rate": 0.0001776183844880409,
	"loss": 1.0534,
	"step": 24600
	},
	{
	"epoch": 0.8917312196000721,
	"grad_norm": 0.6846780180931091,
	"learning_rate": 0.00017722036566847495,
	"loss": 1.0554,
	"step": 24750
	},
	{
	"epoch": 0.8971356512340118,
	"grad_norm": 0.7100343704223633,
	"learning_rate": 0.00017681929327462205,
	"loss": 1.0524,
	"step": 24900
	},
	{
	"epoch": 0.9025400828679517,
	"grad_norm": 0.5465316772460938,
	"learning_rate": 0.00017641518316634426,
	"loss": 1.046,
	"step": 25050
	},
	{
	"epoch": 0.9079445145018915,
	"grad_norm": 0.7278814911842346,
	"learning_rate": 0.000176008051323626,
	"loss": 1.0543,
	"step": 25200
	},
	{
	"epoch": 0.9133489461358314,
	"grad_norm": 0.6412672996520996,
	"learning_rate": 0.00017559791384594192,
	"loss": 1.0477,
	"step": 25350
	},
	{
	"epoch": 0.9187533777697712,
	"grad_norm": 0.6557443141937256,
	"learning_rate": 0.00017518478695162056,
	"loss": 1.0638,
	"step": 25500
	},
	{
	"epoch": 0.9241578094037111,
	"grad_norm": 0.7106101512908936,
	"learning_rate": 0.00017476868697720278,
	"loss": 1.0588,
	"step": 25650
	},
	{
	"epoch": 0.9295622410376508,
	"grad_norm": 0.6246557235717773,
	"learning_rate": 0.00017434963037679592,
	"loss": 1.054,
	"step": 25800
	},
	{
	"epoch": 0.9349666726715907,
	"grad_norm": 0.6114718914031982,
	"learning_rate": 0.000173927633721423,
	"loss": 1.0504,
	"step": 25950
	},
	{
	"epoch": 0.9403711043055305,
	"grad_norm": 0.7704567909240723,
	"learning_rate": 0.0001735027136983676,
	"loss": 1.0537,
	"step": 26100
	},
	{
	"epoch": 0.9457755359394704,
	"grad_norm": 0.6341020464897156,
	"learning_rate": 0.0001730748871105138,
	"loss": 1.0493,
	"step": 26250
	},
	{
	"epoch": 0.9511799675734102,
	"grad_norm": 0.5861644148826599,
	"learning_rate": 0.00017264417087568189,
	"loss": 1.052,
	"step": 26400
	},
	{
	"epoch": 0.9565843992073501,
	"grad_norm": 0.5983610153198242,
	"learning_rate": 0.00017221058202595928,
	"loss": 1.052,
	"step": 26550
	},
	{
	"epoch": 0.9619888308412898,
	"grad_norm": 0.6839273571968079,
	"learning_rate": 0.0001717741377070271,
	"loss": 1.0632,
	"step": 26700
	},
	{
	"epoch": 0.9673932624752297,
	"grad_norm": 0.7345322966575623,
	"learning_rate": 0.000171334855177482,
	"loss": 1.0416,
	"step": 26850
	},
	{
	"epoch": 0.9727976941091695,
	"grad_norm": 0.6669878363609314,
	"learning_rate": 0.00017089275180815394,
	"loss": 1.0499,
	"step": 27000
	},
	{
	"epoch": 0.9782021257431094,
	"grad_norm": 0.5807615518569946,
	"learning_rate": 0.0001704478450814191,
	"loss": 1.0469,
	"step": 27150
	},
	{
	"epoch": 0.9836065573770492,
	"grad_norm": 0.6089076399803162,
	"learning_rate": 0.00017000015259050855,
	"loss": 1.0403,
	"step": 27300
	},
	{
	"epoch": 0.989010989010989,
	"grad_norm": 0.6615424156188965,
	"learning_rate": 0.00016954969203881272,
	"loss": 1.0492,
	"step": 27450
	},
	{
	"epoch": 0.9944154206449288,
	"grad_norm": 0.660163164138794,
	"learning_rate": 0.00016909648123918116,
	"loss": 1.0543,
	"step": 27600
	},
	{
	"epoch": 0.9998198522788687,
	"grad_norm": 0.631686806678772,
	"learning_rate": 0.0001686405381132183,
	"loss": 1.0474,
	"step": 27750
	},
	{
	"epoch": 1.0052242839128085,
	"grad_norm": 0.7013711333274841,
	"learning_rate": 0.00016818188069057458,
	"loss": 0.9965,
	"step": 27900
	},
	{
	"epoch": 1.0106287155467484,
	"grad_norm": 0.76506507396698,
	"learning_rate": 0.00016772052710823374,
	"loss": 0.9981,
	"step": 28050
	},
	{
	"epoch": 1.0160331471806883,
	"grad_norm": 0.8097601532936096,
	"learning_rate": 0.00016725649560979546,
	"loss": 0.9995,
	"step": 28200
	},
	{
	"epoch": 1.021437578814628,
	"grad_norm": 0.795626163482666,
	"learning_rate": 0.00016678980454475385,
	"loss": 0.9983,
	"step": 28350
	},
	{
	"epoch": 1.0268420104485678,
	"grad_norm": 0.6494497060775757,
	"learning_rate": 0.00016632047236777214,
	"loss": 1.0075,
	"step": 28500
	},
	{
	"epoch": 1.0322464420825077,
	"grad_norm": 0.7171606421470642,
	"learning_rate": 0.00016584851763795262,
	"loss": 0.9972,
	"step": 28650
	},
	{
	"epoch": 1.0376508737164474,
	"grad_norm": 0.604192316532135,
	"learning_rate": 0.00016537395901810288,
	"loss": 0.9943,
	"step": 28800
	},
	{
	"epoch": 1.0430553053503873,
	"grad_norm": 0.6858931183815002,
	"learning_rate": 0.0001648968152739978,
	"loss": 1.0092,
	"step": 28950
	},
	{
	"epoch": 1.0484597369843272,
	"grad_norm": 0.685265839099884,
	"learning_rate": 0.00016441710527363753,
	"loss": 0.9936,
	"step": 29100
	},
	{
	"epoch": 1.053864168618267,
	"grad_norm": 0.6720730066299438,
	"learning_rate": 0.00016393484798650132,
	"loss": 0.993,
	"step": 29250
	},
	{
	"epoch": 1.0592686002522067,
	"grad_norm": 0.7085748314857483,
	"learning_rate": 0.0001634500624827973,
	"loss": 1.0083,
	"step": 29400
	},
	{
	"epoch": 1.0646730318861466,
	"grad_norm": 0.6460698843002319,
	"learning_rate": 0.00016296276793270864,
	"loss": 0.9952,
	"step": 29550
	},
	{
	"epoch": 1.0700774635200865,
	"grad_norm": 0.6689881086349487,
	"learning_rate": 0.0001624729836056352,
	"loss": 0.9958,
	"step": 29700
	},
	{
	"epoch": 1.0754818951540264,
	"grad_norm": 0.7271780967712402,
	"learning_rate": 0.00016198072886943181,
	"loss": 0.9954,
	"step": 29850
	},
	{
	"epoch": 1.080886326787966,
	"grad_norm": 0.5559628009796143,
	"learning_rate": 0.0001614860231896422,
	"loss": 0.9984,
	"step": 30000
	},
	{
	"epoch": 1.086290758421906,
	"grad_norm": 0.6752548813819885,
	"learning_rate": 0.0001609888861287293,
	"loss": 1.0019,
	"step": 30150
	},
	{
	"epoch": 1.0916951900558458,
	"grad_norm": 0.7046670913696289,
	"learning_rate": 0.0001604893373453017,
	"loss": 0.9936,
	"step": 30300
	},
	{
	"epoch": 1.0970996216897857,
	"grad_norm": 0.6102576851844788,
	"learning_rate": 0.00015998739659333638,
	"loss": 1.0061,
	"step": 30450
	},
	{
	"epoch": 1.1025040533237254,
	"grad_norm": 0.7669439911842346,
	"learning_rate": 0.00015948308372139739,
	"loss": 1.0017,
	"step": 30600
	},
	{
	"epoch": 1.1079084849576653,
	"grad_norm": 0.7437514662742615,
	"learning_rate": 0.00015897641867185092,
	"loss": 0.9947,
	"step": 30750
	},
	{
	"epoch": 1.1133129165916051,
	"grad_norm": 0.7851073741912842,
	"learning_rate": 0.0001584674214800771,
	"loss": 1.0026,
	"step": 30900
	},
	{
	"epoch": 1.118717348225545,
	"grad_norm": 0.7046276926994324,
	"learning_rate": 0.0001579561122736772,
	"loss": 0.9893,
	"step": 31050
	},
	{
	"epoch": 1.1241217798594847,
	"grad_norm": 0.8143602013587952,
	"learning_rate": 0.000157442511271678,
	"loss": 1.0013,
	"step": 31200
	},
	{
	"epoch": 1.1295262114934246,
	"grad_norm": 1.2338451147079468,
	"learning_rate": 0.0001569266387837324,
	"loss": 1.002,
	"step": 31350
	},
	{
	"epoch": 1.1349306431273645,
	"grad_norm": 0.7588093876838684,
	"learning_rate": 0.00015640851520931588,
	"loss": 1.0064,
	"step": 31500
	},
	{
	"epoch": 1.1403350747613044,
	"grad_norm": 0.7656028270721436,
	"learning_rate": 0.00015588816103692023,
	"loss": 0.9963,
	"step": 31650
	},
	{
	"epoch": 1.145739506395244,
	"grad_norm": 0.82599937915802,
	"learning_rate": 0.00015536559684324315,
	"loss": 0.9961,
	"step": 31800
	},
	{
	"epoch": 1.151143938029184,
	"grad_norm": 0.6491279006004333,
	"learning_rate": 0.0001548408432923746,
	"loss": 0.9946,
	"step": 31950
	},
	{
	"epoch": 1.1565483696631238,
	"grad_norm": 0.49154847860336304,
	"learning_rate": 0.00015431392113497979,
	"loss": 1.0035,
	"step": 32100
	},
	{
	"epoch": 1.1619528012970637,
	"grad_norm": 0.5830157399177551,
	"learning_rate": 0.00015378485120747835,
	"loss": 0.9978,
	"step": 32250
	},
	{
	"epoch": 1.1673572329310034,
	"grad_norm": 0.6672685146331787,
	"learning_rate": 0.00015325365443122078,
	"loss": 1.0079,
	"step": 32400
	},
	{
	"epoch": 1.1727616645649432,
	"grad_norm": 0.7243463397026062,
	"learning_rate": 0.00015272035181166066,
	"loss": 1.0023,
	"step": 32550
	},
	{
	"epoch": 1.1781660961988831,
	"grad_norm": 0.6492652893066406,
	"learning_rate": 0.00015218496443752456,
	"loss": 0.9972,
	"step": 32700
	},
	{
	"epoch": 1.1835705278328228,
	"grad_norm": 0.6047407388687134,
	"learning_rate": 0.00015164751347997762,
	"loss": 0.9864,
	"step": 32850
	},
	{
	"epoch": 1.1889749594667627,
	"grad_norm": 0.6448661088943481,
	"learning_rate": 0.00015110802019178661,
	"loss": 1.0046,
	"step": 33000
	},
	{
	"epoch": 1.1943793911007026,
	"grad_norm": 0.7006458044052124,
	"learning_rate": 0.0001505665059064796,
	"loss": 1.0018,
	"step": 33150
	},
	{
	"epoch": 1.1997838227346425,
	"grad_norm": 0.6918825507164001,
	"learning_rate": 0.00015002299203750212,
	"loss": 0.991,
	"step": 33300
	},
	{
	"epoch": 1.2051882543685823,
	"grad_norm": 0.6090679168701172,
	"learning_rate": 0.00014947750007737062,
	"loss": 0.9939,
	"step": 33450
	},
	{
	"epoch": 1.210592686002522,
	"grad_norm": 0.718387246131897,
	"learning_rate": 0.00014893005159682233,
	"loss": 0.9873,
	"step": 33600
	},
	{
	"epoch": 1.215997117636462,
	"grad_norm": 0.6664546132087708,
	"learning_rate": 0.00014838066824396256,
	"loss": 0.9926,
	"step": 33750
	},
	{
	"epoch": 1.2214015492704018,
	"grad_norm": 0.6758761405944824,
	"learning_rate": 0.00014782937174340845,
	"loss": 0.9924,
	"step": 33900
	},
	{
	"epoch": 1.2268059809043415,
	"grad_norm": 0.5241803526878357,
	"learning_rate": 0.00014727618389542995,
	"loss": 0.9935,
	"step": 34050
	},
	{
	"epoch": 1.2322104125382813,
	"grad_norm": 0.6897122859954834,
	"learning_rate": 0.00014672112657508778,
	"loss": 0.9859,
	"step": 34200
	},
	{
	"epoch": 1.2376148441722212,
	"grad_norm": 0.6511486172676086,
	"learning_rate": 0.00014616422173136846,
	"loss": 0.9905,
	"step": 34350
	},
	{
	"epoch": 1.2430192758061611,
	"grad_norm": 0.8631020784378052,
	"learning_rate": 0.00014560549138631617,
	"loss": 0.9996,
	"step": 34500
	},
	{
	"epoch": 1.248423707440101,
	"grad_norm": 0.5925600528717041,
	"learning_rate": 0.00014504495763416225,
	"loss": 0.9961,
	"step": 34650
	},
	{
	"epoch": 1.2538281390740407,
	"grad_norm": 0.6121050715446472,
	"learning_rate": 0.00014448264264045114,
	"loss": 1.0039,
	"step": 34800
	},
	{
	"epoch": 1.2592325707079806,
	"grad_norm": 0.628056526184082,
	"learning_rate": 0.00014391856864116414,
	"loss": 1.0004,
	"step": 34950
	},
	{
	"epoch": 1.2646370023419204,
	"grad_norm": 0.6576303243637085,
	"learning_rate": 0.00014335275794184003,
	"loss": 0.9978,
	"step": 35100
	},
	{
	"epoch": 1.2700414339758601,
	"grad_norm": 0.5684065222740173,
	"learning_rate": 0.00014278523291669302,
	"loss": 0.9874,
	"step": 35250
	},
	{
	"epoch": 1.2754458656098,
	"grad_norm": 0.8131369352340698,
	"learning_rate": 0.000142216016007728,
	"loss": 1.0006,
	"step": 35400
	},
	{
	"epoch": 1.2808502972437399,
	"grad_norm": 0.6513379216194153,
	"learning_rate": 0.00014164512972385306,
	"loss": 0.9817,
	"step": 35550
	},
	{
	"epoch": 1.2862547288776798,
	"grad_norm": 0.6244243383407593,
	"learning_rate": 0.0001410725966399896,
	"loss": 0.9805,
	"step": 35700
	},
	{
	"epoch": 1.2916591605116197,
	"grad_norm": 0.760666012763977,
	"learning_rate": 0.00014049843939617924,
	"loss": 0.9889,
	"step": 35850
	},
	{
	"epoch": 1.2970635921455593,
	"grad_norm": 0.7188459634780884,
	"learning_rate": 0.00013992268069668904,
	"loss": 0.9895,
	"step": 36000
	},
	{
	"epoch": 1.3024680237794992,
	"grad_norm": 0.6034685969352722,
	"learning_rate": 0.0001393453433091133,
	"loss": 0.9882,
	"step": 36150
	},
	{
	"epoch": 1.307872455413439,
	"grad_norm": 0.6076464653015137,
	"learning_rate": 0.0001387664500634734,
	"loss": 0.9823,
	"step": 36300
	},
	{
	"epoch": 1.3132768870473788,
	"grad_norm": 0.6652275323867798,
	"learning_rate": 0.00013818602385131512,
	"loss": 0.9784,
	"step": 36450
	},
	{
	"epoch": 1.3186813186813187,
	"grad_norm": 0.6014280319213867,
	"learning_rate": 0.00013760408762480316,
	"loss": 0.9812,
	"step": 36600
	},
	{
	"epoch": 1.3240857503152585,
	"grad_norm": 0.6998510360717773,
	"learning_rate": 0.00013702066439581382,
	"loss": 0.9886,
	"step": 36750
	},
	{
	"epoch": 1.3294901819491982,
	"grad_norm": 0.5891895294189453,
	"learning_rate": 0.00013643577723502476,
	"loss": 0.9873,
	"step": 36900
	},
	{
	"epoch": 1.334894613583138,
	"grad_norm": 0.7246126532554626,
	"learning_rate": 0.00013584944927100298,
	"loss": 0.9859,
	"step": 37050
	},
	{
	"epoch": 1.340299045217078,
	"grad_norm": 0.664380669593811,
	"learning_rate": 0.00013526170368928993,
	"loss": 0.9793,
	"step": 37200
	},
	{
	"epoch": 1.3457034768510179,
	"grad_norm": 0.6437602639198303,
	"learning_rate": 0.00013467256373148496,
	"loss": 0.9853,
	"step": 37350
	},
	{
	"epoch": 1.3511079084849578,
	"grad_norm": 0.6728150844573975,
	"learning_rate": 0.000134082052694326,
	"loss": 0.9792,
	"step": 37500
	},
	{
	"epoch": 1.3565123401188974,
	"grad_norm": 0.8101018071174622,
	"learning_rate": 0.00013349019392876858,
	"loss": 0.9791,
	"step": 37650
	},
	{
	"epoch": 1.3619167717528373,
	"grad_norm": 0.6081525683403015,
	"learning_rate": 0.00013289701083906214,
	"loss": 0.9825,
	"step": 37800
	},
	{
	"epoch": 1.3673212033867772,
	"grad_norm": 0.6776862740516663,
	"learning_rate": 0.00013230252688182497,
	"loss": 0.9693,
	"step": 37950
	},
	{
	"epoch": 1.3727256350207169,
	"grad_norm": 0.6200093030929565,
	"learning_rate": 0.0001317067655651161,
	"loss": 0.9677,
	"step": 38100
	},
	{
	"epoch": 1.3781300666546568,
	"grad_norm": 0.7349710464477539,
	"learning_rate": 0.00013110975044750621,
	"loss": 0.9714,
	"step": 38250
	},
	{
	"epoch": 1.3835344982885966,
	"grad_norm": 0.5907526612281799,
	"learning_rate": 0.0001305115051371458,
	"loss": 0.9779,
	"step": 38400
	},
	{
	"epoch": 1.3889389299225365,
	"grad_norm": 0.6219062805175781,
	"learning_rate": 0.0001299120532908316,
	"loss": 0.9647,
	"step": 38550
	},
	{
	"epoch": 1.3943433615564764,
	"grad_norm": 0.777947723865509,
	"learning_rate": 0.0001293114186130712,
	"loss": 0.97,
	"step": 38700
	},
	{
	"epoch": 1.399747793190416,
	"grad_norm": 0.686892569065094,
	"learning_rate": 0.00012870962485514567,
	"loss": 0.9683,
	"step": 38850
	},
	{
	"epoch": 1.405152224824356,
	"grad_norm": 0.6655575633049011,
	"learning_rate": 0.00012810669581417032,
	"loss": 0.9674,
	"step": 39000
	},
	{
	"epoch": 1.4105566564582959,
	"grad_norm": 0.679595947265625,
	"learning_rate": 0.0001275026553321536,
	"loss": 0.9725,
	"step": 39150
	},
	{
	"epoch": 1.4159610880922355,
	"grad_norm": 0.6671122312545776,
	"learning_rate": 0.00012689752729505457,
	"loss": 0.9677,
	"step": 39300
	},
	{
	"epoch": 1.4213655197261754,
	"grad_norm": 0.6357312202453613,
	"learning_rate": 0.00012629133563183797,
	"loss": 0.9651,
	"step": 39450
	},
	{
	"epoch": 1.4267699513601153,
	"grad_norm": 0.7441504001617432,
	"learning_rate": 0.0001256841043135283,
	"loss": 0.9704,
	"step": 39600
	},
	{
	"epoch": 1.4321743829940552,
	"grad_norm": 0.5487176179885864,
	"learning_rate": 0.00012507585735226185,
	"loss": 0.9714,
	"step": 39750
	},
	{
	"epoch": 1.437578814627995,
	"grad_norm": 0.6709308624267578,
	"learning_rate": 0.00012446661880033698,
	"loss": 0.9587,
	"step": 39900
	},
	{
	"epoch": 1.4429832462619347,
	"grad_norm": 0.638081431388855,
	"learning_rate": 0.00012385641274926328,
	"loss": 0.9631,
	"step": 40050
	},
	{
	"epoch": 1.4483876778958746,
	"grad_norm": 0.6448566913604736,
	"learning_rate": 0.00012324526332880867,
	"loss": 0.9634,
	"step": 40200
	},
	{
	"epoch": 1.4537921095298145,
	"grad_norm": 0.7188845872879028,
	"learning_rate": 0.0001226331947060455,
	"loss": 0.9669,
	"step": 40350
	},
	{
	"epoch": 1.4591965411637542,
	"grad_norm": 0.5700541138648987,
	"learning_rate": 0.00012202023108439455,
	"loss": 0.9598,
	"step": 40500
	},
	{
	"epoch": 1.464600972797694,
	"grad_norm": 0.6200810670852661,
	"learning_rate": 0.0001214063967026682,
	"loss": 0.9651,
	"step": 40650
	},
	{
	"epoch": 1.470005404431634,
	"grad_norm": 0.6882332563400269,
	"learning_rate": 0.00012079171583411184,
	"loss": 0.9649,
	"step": 40800
	},
	{
	"epoch": 1.4754098360655736,
	"grad_norm": 0.6133975982666016,
	"learning_rate": 0.00012017621278544402,
	"loss": 0.9495,
	"step": 40950
	},
	{
	"epoch": 1.4808142676995135,
	"grad_norm": 0.8365902304649353,
	"learning_rate": 0.00011955991189589526,
	"loss": 0.95,
	"step": 41100
	},
	{
	"epoch": 1.4862186993334534,
	"grad_norm": 0.5351865887641907,
	"learning_rate": 0.0001189428375362457,
	"loss": 0.9579,
	"step": 41250
	},
	{
	"epoch": 1.4916231309673933,
	"grad_norm": 0.6488143801689148,
	"learning_rate": 0.00011832501410786116,
	"loss": 0.9513,
	"step": 41400
	},
	{
	"epoch": 1.4970275626013332,
	"grad_norm": 0.6101202964782715,
	"learning_rate": 0.0001177064660417285,
	"loss": 0.9573,
	"step": 41550
	},
	{
	"epoch": 1.5024319942352728,
	"grad_norm": 0.7013749480247498,
	"learning_rate": 0.00011708721779748933,
	"loss": 0.9508,
	"step": 41700
	},
	{
	"epoch": 1.5078364258692127,
	"grad_norm": 0.5707131028175354,
	"learning_rate": 0.00011646729386247286,
	"loss": 0.9486,
	"step": 41850
	},
	{
	"epoch": 1.5132408575031526,
	"grad_norm": 0.6973045468330383,
	"learning_rate": 0.00011584671875072757,
	"loss": 0.962,
	"step": 42000
	},
	{
	"epoch": 1.5186452891370923,
	"grad_norm": 0.6686086654663086,
	"learning_rate": 0.00011522551700205184,
	"loss": 0.9606,
	"step": 42150
	},
	{
	"epoch": 1.5240497207710324,
	"grad_norm": 0.5340304970741272,
	"learning_rate": 0.00011460371318102358,
	"loss": 0.9584,
	"step": 42300
	},
	{
	"epoch": 1.529454152404972,
	"grad_norm": 0.6170547008514404,
	"learning_rate": 0.00011398133187602873,
	"loss": 0.947,
	"step": 42450
	},
	{
	"epoch": 1.534858584038912,
	"grad_norm": 0.5485740900039673,
	"learning_rate": 0.00011335839769828924,
	"loss": 0.961,
	"step": 42600
	},
	{
	"epoch": 1.5402630156728518,
	"grad_norm": 0.6151200532913208,
	"learning_rate": 0.00011273493528088945,
	"loss": 0.9531,
	"step": 42750
	},
	{
	"epoch": 1.5456674473067915,
	"grad_norm": 0.6902984976768494,
	"learning_rate": 0.00011211096927780236,
	"loss": 0.9418,
	"step": 42900
	},
	{
	"epoch": 1.5510718789407314,
	"grad_norm": 0.7150260806083679,
	"learning_rate": 0.00011148652436291451,
	"loss": 0.948,
	"step": 43050
	},
	{
	"epoch": 1.5564763105746713,
	"grad_norm": 0.6931044459342957,
	"learning_rate": 0.0001108616252290504,
	"loss": 0.9571,
	"step": 43200
	},
	{
	"epoch": 1.561880742208611,
	"grad_norm": 0.641190230846405,
	"learning_rate": 0.00011023629658699596,
	"loss": 0.9412,
	"step": 43350
	},
	{
	"epoch": 1.5672851738425508,
	"grad_norm": 0.6901960968971252,
	"learning_rate": 0.00010961056316452145,
	"loss": 0.954,
	"step": 43500
	},
	{
	"epoch": 1.5726896054764907,
	"grad_norm": 0.6115658283233643,
	"learning_rate": 0.00010898444970540372,
	"loss": 0.952,
	"step": 43650
	},
	{
	"epoch": 1.5780940371104304,
	"grad_norm": 0.7072962522506714,
	"learning_rate": 0.00010835798096844743,
	"loss": 0.9484,
	"step": 43800
	},
	{
	"epoch": 1.5834984687443705,
	"grad_norm": 0.5898342728614807,
	"learning_rate": 0.00010773118172650643,
	"loss": 0.9421,
	"step": 43950
	},
	{
	"epoch": 1.5889029003783102,
	"grad_norm": 0.503633439540863,
	"learning_rate": 0.00010710407676550382,
	"loss": 0.935,
	"step": 44100
	},
	{
	"epoch": 1.59430733201225,
	"grad_norm": 0.5756278038024902,
	"learning_rate": 0.00010647669088345204,
	"loss": 0.9514,
	"step": 44250
	},
	{
	"epoch": 1.59971176364619,
	"grad_norm": 0.6327024102210999,
	"learning_rate": 0.00010584904888947204,
	"loss": 0.9398,
	"step": 44400
	},
	{
	"epoch": 1.6051161952801296,
	"grad_norm": 0.6922555565834045,
	"learning_rate": 0.00010522117560281251,
	"loss": 0.9411,
	"step": 44550
	},
	{
	"epoch": 1.6105206269140695,
	"grad_norm": 0.7153000235557556,
	"learning_rate": 0.00010459309585186818,
	"loss": 0.9437,
	"step": 44700
	},
	{
	"epoch": 1.6159250585480094,
	"grad_norm": 0.7171802520751953,
	"learning_rate": 0.0001039648344731982,
	"loss": 0.9305,
	"step": 44850
	},
	{
	"epoch": 1.621329490181949,
	"grad_norm": 0.5943671464920044,
	"learning_rate": 0.00010333641631054391,
	"loss": 0.938,
	"step": 45000
	},
	{
	"epoch": 1.6267339218158892,
	"grad_norm": 0.7467085123062134,
	"learning_rate": 0.00010270786621384645,
	"loss": 0.9416,
	"step": 45150
	},
	{
	"epoch": 1.6321383534498288,
	"grad_norm": 0.6827779412269592,
	"learning_rate": 0.00010207920903826415,
	"loss": 0.9381,
	"step": 45300
	},
	{
	"epoch": 1.6375427850837687,
	"grad_norm": 0.6708967089653015,
	"learning_rate": 0.00010145046964318963,
	"loss": 0.9495,
	"step": 45450
	},
	{
	"epoch": 1.6429472167177086,
	"grad_norm": 0.6415010094642639,
	"learning_rate": 0.00010082167289126672,
	"loss": 0.9312,
	"step": 45600
	},
	{
	"epoch": 1.6483516483516483,
	"grad_norm": 0.695865273475647,
	"learning_rate": 0.00010019284364740731,
	"loss": 0.9309,
	"step": 45750
	},
	{
	"epoch": 1.6537560799855882,
	"grad_norm": 0.6317395567893982,
	"learning_rate": 9.956400677780833e-05,
	"loss": 0.941,
	"step": 45900
	},
	{
	"epoch": 1.659160511619528,
	"grad_norm": 0.6181449294090271,
	"learning_rate": 9.893518714896805e-05,
	"loss": 0.9295,
	"step": 46050
	},
	{
	"epoch": 1.6645649432534677,
	"grad_norm": 0.5777118802070618,
	"learning_rate": 9.830640962670306e-05,
	"loss": 0.9264,
	"step": 46200
	},
	{
	"epoch": 1.6699693748874078,
	"grad_norm": 0.6352208852767944,
	"learning_rate": 9.767769907516495e-05,
	"loss": 0.9311,
	"step": 46350
	},
	{
	"epoch": 1.6753738065213475,
	"grad_norm": 0.6197606325149536,
	"learning_rate": 9.704908035585692e-05,
	"loss": 0.9302,
	"step": 46500
	},
	{
	"epoch": 1.6807782381552874,
	"grad_norm": 0.6172420382499695,
	"learning_rate": 9.642057832665095e-05,
	"loss": 0.9253,
	"step": 46650
	},
	{
	"epoch": 1.6861826697892273,
	"grad_norm": 0.6538959741592407,
	"learning_rate": 9.579221784080455e-05,
	"loss": 0.9376,
	"step": 46800
	},
	{
	"epoch": 1.691587101423167,
	"grad_norm": 0.6067585945129395,
	"learning_rate": 9.516402374597812e-05,
	"loss": 0.927,
	"step": 46950
	},
	{
	"epoch": 1.6969915330571068,
	"grad_norm": 0.5777443647384644,
	"learning_rate": 9.453602088325234e-05,
	"loss": 0.9289,
	"step": 47100
	},
	{
	"epoch": 1.7023959646910467,
	"grad_norm": 0.5103596448898315,
	"learning_rate": 9.390823408614598e-05,
	"loss": 0.9137,
	"step": 47250
	},
	{
	"epoch": 1.7078003963249864,
	"grad_norm": 0.624183714389801,
	"learning_rate": 9.328068817963359e-05,
	"loss": 0.9236,
	"step": 47400
	},
	{
	"epoch": 1.7132048279589265,
	"grad_norm": 0.5513512492179871,
	"learning_rate": 9.265340797916421e-05,
	"loss": 0.918,
	"step": 47550
	},
	{
	"epoch": 1.7186092595928661,
	"grad_norm": 0.7002034187316895,
	"learning_rate": 9.202641828967985e-05,
	"loss": 0.9149,
	"step": 47700
	},
	{
	"epoch": 1.724013691226806,
	"grad_norm": 0.5479480028152466,
	"learning_rate": 9.139974390463459e-05,
	"loss": 0.9265,
	"step": 47850
	},
	{
	"epoch": 1.729418122860746,
	"grad_norm": 0.570182204246521,
	"learning_rate": 9.077340960501425e-05,
	"loss": 0.9079,
	"step": 48000
	},
	{
	"epoch": 1.7348225544946856,
	"grad_norm": 0.6392347812652588,
	"learning_rate": 9.014744015835656e-05,
	"loss": 0.911,
	"step": 48150
	},
	{
	"epoch": 1.7402269861286255,
	"grad_norm": 0.6063001751899719,
	"learning_rate": 8.952186031777144e-05,
	"loss": 0.9113,
	"step": 48300
	},
	{
	"epoch": 1.7456314177625654,
	"grad_norm": 0.6585242748260498,
	"learning_rate": 8.88966948209625e-05,
	"loss": 0.9137,
	"step": 48450
	},
	{
	"epoch": 1.751035849396505,
	"grad_norm": 0.5171977281570435,
	"learning_rate": 8.827196838924867e-05,
	"loss": 0.9211,
	"step": 48600
	},
	{
	"epoch": 1.756440281030445,
	"grad_norm": 0.6493880152702332,
	"learning_rate": 8.764770572658655e-05,
	"loss": 0.9056,
	"step": 48750
	},
	{
	"epoch": 1.7618447126643848,
	"grad_norm": 0.8104442954063416,
	"learning_rate": 8.70239315185938e-05,
	"loss": 0.9045,
	"step": 48900
	},
	{
	"epoch": 1.7672491442983245,
	"grad_norm": 0.5967045426368713,
	"learning_rate": 8.64006704315727e-05,
	"loss": 0.9164,
	"step": 49050
	},
	{
	"epoch": 1.7726535759322646,
	"grad_norm": 0.6888705492019653,
	"learning_rate": 8.577794711153479e-05,
	"loss": 0.9111,
	"step": 49200
	},
	{
	"epoch": 1.7780580075662042,
	"grad_norm": 0.5948097705841064,
	"learning_rate": 8.515578618322648e-05,
	"loss": 0.9095,
	"step": 49350
	},
	{
	"epoch": 1.7834624392001441,
	"grad_norm": 0.6458430886268616,
	"learning_rate": 8.453421224915511e-05,
	"loss": 0.9029,
	"step": 49500
	},
	{
	"epoch": 1.788866870834084,
	"grad_norm": 0.8202154040336609,
	"learning_rate": 8.391324988861611e-05,
	"loss": 0.9168,
	"step": 49650
	},
	{
	"epoch": 1.7942713024680237,
	"grad_norm": 0.5799959897994995,
	"learning_rate": 8.32929236567211e-05,
	"loss": 0.9005,
	"step": 49800
	},
	{
	"epoch": 1.7996757341019636,
	"grad_norm": 0.7229143381118774,
	"learning_rate": 8.267325808342685e-05,
	"loss": 0.897,
	"step": 49950
	},
	{
	"epoch": 1.8050801657359035,
	"grad_norm": 0.5912762880325317,
	"learning_rate": 8.205427767256524e-05,
	"loss": 0.9015,
	"step": 50100
	},
	{
	"epoch": 1.8104845973698431,
	"grad_norm": 0.6438339352607727,
	"learning_rate": 8.143600690087443e-05,
	"loss": 0.9137,
	"step": 50250
	},
	{
	"epoch": 1.8158890290037832,
	"grad_norm": 0.5374941229820251,
	"learning_rate": 8.08184702170308e-05,
	"loss": 0.9008,
	"step": 50400
	},
	{
	"epoch": 1.821293460637723,
	"grad_norm": 0.5253046751022339,
	"learning_rate": 8.020169204068219e-05,
	"loss": 0.9015,
	"step": 50550
	},
	{
	"epoch": 1.8266978922716628,
	"grad_norm": 0.6589975357055664,
	"learning_rate": 7.958569676148234e-05,
	"loss": 0.9117,
	"step": 50700
	},
	{
	"epoch": 1.8321023239056027,
	"grad_norm": 0.5939854979515076,
	"learning_rate": 7.897050873812647e-05,
	"loss": 0.9024,
	"step": 50850
	},
	{
	"epoch": 1.8375067555395423,
	"grad_norm": 0.6179183721542358,
	"learning_rate": 7.835615229738775e-05,
	"loss": 0.9111,
	"step": 51000
	},
	{
	"epoch": 1.8429111871734822,
	"grad_norm": 0.6526548266410828,
	"learning_rate": 7.774265173315581e-05,
	"loss": 0.9002,
	"step": 51150
	},
	{
	"epoch": 1.8483156188074221,
	"grad_norm": 0.5846490263938904,
	"learning_rate": 7.713003130547556e-05,
	"loss": 0.8889,
	"step": 51300
	},
	{
	"epoch": 1.8537200504413618,
	"grad_norm": 0.5639694333076477,
	"learning_rate": 7.651831523958827e-05,
	"loss": 0.896,
	"step": 51450
	},
	{
	"epoch": 1.859124482075302,
	"grad_norm": 0.5969030857086182,
	"learning_rate": 7.590752772497345e-05,
	"loss": 0.8899,
	"step": 51600
	},
	{
	"epoch": 1.8645289137092416,
	"grad_norm": 0.57610023021698,
	"learning_rate": 7.529769291439216e-05,
	"loss": 0.8908,
	"step": 51750
	},
	{
	"epoch": 1.8699333453431815,
	"grad_norm": 0.7263045907020569,
	"learning_rate": 7.468883492293228e-05,
	"loss": 0.8956,
	"step": 51900
	},
	{
	"epoch": 1.8753377769771213,
	"grad_norm": 0.5964723825454712,
	"learning_rate": 7.40809778270546e-05,
	"loss": 0.8944,
	"step": 52050
	},
	{
	"epoch": 1.880742208611061,
	"grad_norm": 0.6026207804679871,
	"learning_rate": 7.347414566364085e-05,
	"loss": 0.8892,
	"step": 52200
	},
	{
	"epoch": 1.886146640245001,
	"grad_norm": 0.6354103684425354,
	"learning_rate": 7.28683624290432e-05,
	"loss": 0.8972,
	"step": 52350
	},
	{
	"epoch": 1.8915510718789408,
	"grad_norm": 0.6123978495597839,
	"learning_rate": 7.226365207813542e-05,
	"loss": 0.8951,
	"step": 52500
	},
	{
	"epoch": 1.8969555035128804,
	"grad_norm": 0.7344669699668884,
	"learning_rate": 7.166003852336548e-05,
	"loss": 0.8825,
	"step": 52650
	},
	{
	"epoch": 1.9023599351468206,
	"grad_norm": 0.5727975368499756,
	"learning_rate": 7.105754563381006e-05,
	"loss": 0.8815,
	"step": 52800
	},
	{
	"epoch": 1.9077643667807602,
	"grad_norm": 0.5696874856948853,
	"learning_rate": 7.045619723423072e-05,
	"loss": 0.8868,
	"step": 52950
	},
	{
	"epoch": 1.9131687984147,
	"grad_norm": 0.6967275142669678,
	"learning_rate": 6.985601710413158e-05,
	"loss": 0.8845,
	"step": 53100
	},
	{
	"epoch": 1.91857323004864,
	"grad_norm": 0.64991295337677,
	"learning_rate": 6.92570289768193e-05,
	"loss": 0.8824,
	"step": 53250
	},
	{
	"epoch": 1.9239776616825797,
	"grad_norm": 0.6261005997657776,
	"learning_rate": 6.865925653846432e-05,
	"loss": 0.881,
	"step": 53400
	},
	{
	"epoch": 1.9293820933165196,
	"grad_norm": 0.6127173900604248,
	"learning_rate": 6.806272342716431e-05,
	"loss": 0.8878,
	"step": 53550
	},
	{
	"epoch": 1.9347865249504594,
	"grad_norm": 0.552493691444397,
	"learning_rate": 6.746745323200943e-05,
	"loss": 0.888,
	"step": 53700
	},
	{
	"epoch": 1.940190956584399,
	"grad_norm": 0.641351580619812,
	"learning_rate": 6.687346949214966e-05,
	"loss": 0.8834,
	"step": 53850
	},
	{
	"epoch": 1.945595388218339,
	"grad_norm": 0.5708601474761963,
	"learning_rate": 6.628079569586365e-05,
	"loss": 0.8901,
	"step": 54000
	},
	{
	"epoch": 1.9509998198522789,
	"grad_norm": 0.5919014811515808,
	"learning_rate": 6.56894552796303e-05,
	"loss": 0.8833,
	"step": 54150
	},
	{
	"epoch": 1.9564042514862185,
	"grad_norm": 0.5352922677993774,
	"learning_rate": 6.509947162720172e-05,
	"loss": 0.8762,
	"step": 54300
	},
	{
	"epoch": 1.9618086831201587,
	"grad_norm": 0.5126431584358215,
	"learning_rate": 6.451086806867864e-05,
	"loss": 0.8719,
	"step": 54450
	},
	{
	"epoch": 1.9672131147540983,
	"grad_norm": 0.6120204329490662,
	"learning_rate": 6.392366787958786e-05,
	"loss": 0.882,
	"step": 54600
	},
	{
	"epoch": 1.9726175463880382,
	"grad_norm": 0.641154408454895,
	"learning_rate": 6.333789427996191e-05,
	"loss": 0.8743,
	"step": 54750
	},
	{
	"epoch": 1.978021978021978,
	"grad_norm": 0.648558497428894,
	"learning_rate": 6.275357043342069e-05,
	"loss": 0.8645,
	"step": 54900
	},
	{
	"epoch": 1.9834264096559178,
	"grad_norm": 0.6066434979438782,
	"learning_rate": 6.217071944625562e-05,
	"loss": 0.8622,
	"step": 55050
	},
	{
	"epoch": 1.9888308412898577,
	"grad_norm": 0.5739848613739014,
	"learning_rate": 6.158936436651593e-05,
	"loss": 0.8718,
	"step": 55200
	},
	{
	"epoch": 1.9942352729237975,
	"grad_norm": 0.5929279923439026,
	"learning_rate": 6.100952818309715e-05,
	"loss": 0.8686,
	"step": 55350
	},
	{
	"epoch": 1.9996397045577372,
	"grad_norm": 0.5922086238861084,
	"learning_rate": 6.043123382483224e-05,
	"loss": 0.8753,
	"step": 55500
	},
	{
	"epoch": 2.0050441361916773,
	"grad_norm": 0.6458303332328796,
	"learning_rate": 5.98545041595847e-05,
	"loss": 0.791,
	"step": 55650
	},
	{
	"epoch": 2.010448567825617,
	"grad_norm": 0.5965596437454224,
	"learning_rate": 5.927936199334435e-05,
	"loss": 0.7904,
	"step": 55800
	},
	{
	"epoch": 2.0158529994595566,
	"grad_norm": 0.523539125919342,
	"learning_rate": 5.8705830069325566e-05,
	"loss": 0.7859,
	"step": 55950
	},
	{
	"epoch": 2.0212574310934968,
	"grad_norm": 0.5941675305366516,
	"learning_rate": 5.813393106706795e-05,
	"loss": 0.7907,
	"step": 56100
	},
	{
	"epoch": 2.0266618627274364,
	"grad_norm": 0.5710470080375671,
	"learning_rate": 5.7563687601539276e-05,
	"loss": 0.787,
	"step": 56250
	},
	{
	"epoch": 2.0320662943613765,
	"grad_norm": 0.7543295621871948,
	"learning_rate": 5.699512222224148e-05,
	"loss": 0.7925,
	"step": 56400
	},
	{
	"epoch": 2.037470725995316,
	"grad_norm": 0.7011525630950928,
	"learning_rate": 5.642825741231889e-05,
	"loss": 0.7863,
	"step": 56550
	},
	{
	"epoch": 2.042875157629256,
	"grad_norm": 0.7366952300071716,
	"learning_rate": 5.586311558766908e-05,
	"loss": 0.7845,
	"step": 56700
	},
	{
	"epoch": 2.048279589263196,
	"grad_norm": 0.5936063528060913,
	"learning_rate": 5.5299719096056444e-05,
	"loss": 0.7878,
	"step": 56850
	},
	{
	"epoch": 2.0536840208971356,
	"grad_norm": 0.6049606800079346,
	"learning_rate": 5.4738090216228724e-05,
	"loss": 0.7856,
	"step": 57000
	},
	{
	"epoch": 2.0590884525310753,
	"grad_norm": 0.6939170360565186,
	"learning_rate": 5.4178251157035675e-05,
	"loss": 0.7886,
	"step": 57150
	},
	{
	"epoch": 2.0644928841650154,
	"grad_norm": 0.5444577932357788,
	"learning_rate": 5.3620224056551224e-05,
	"loss": 0.7806,
	"step": 57300
	},
	{
	"epoch": 2.069897315798955,
	"grad_norm": 0.6011742949485779,
	"learning_rate": 5.30640309811977e-05,
	"loss": 0.7852,
	"step": 57450
	},
	{
	"epoch": 2.0753017474328948,
	"grad_norm": 0.6152522563934326,
	"learning_rate": 5.250969392487343e-05,
	"loss": 0.7777,
	"step": 57600
	},
	{
	"epoch": 2.080706179066835,
	"grad_norm": 0.4750346839427948,
	"learning_rate": 5.195723480808309e-05,
	"loss": 0.7735,
	"step": 57750
	},
	{
	"epoch": 2.0861106107007745,
	"grad_norm": 0.5713702440261841,
	"learning_rate": 5.140667547707064e-05,
	"loss": 0.7874,
	"step": 57900
	},
	{
	"epoch": 2.0915150423347146,
	"grad_norm": 0.5541932582855225,
	"learning_rate": 5.085803770295579e-05,
	"loss": 0.789,
	"step": 58050
	},
	{
	"epoch": 2.0969194739686543,
	"grad_norm": 0.571283221244812,
	"learning_rate": 5.03113431808727e-05,
	"loss": 0.789,
	"step": 58200
	},
	{
	"epoch": 2.102323905602594,
	"grad_norm": 0.6038793325424194,
	"learning_rate": 4.976661352911237e-05,
	"loss": 0.7887,
	"step": 58350
	},
	{
	"epoch": 2.107728337236534,
	"grad_norm": 0.6276759505271912,
	"learning_rate": 4.922387028826768e-05,
	"loss": 0.7858,
	"step": 58500
	},
	{
	"epoch": 2.1131327688704737,
	"grad_norm": 0.6171843409538269,
	"learning_rate": 4.8683134920381665e-05,
	"loss": 0.7813,
	"step": 58650
	},
	{
	"epoch": 2.1185372005044134,
	"grad_norm": 0.6076928973197937,
	"learning_rate": 4.814442880809853e-05,
	"loss": 0.7871,
	"step": 58800
	},
	{
	"epoch": 2.1239416321383535,
	"grad_norm": 0.6066181063652039,
	"learning_rate": 4.760777325381852e-05,
	"loss": 0.7793,
	"step": 58950
	},
	{
	"epoch": 2.129346063772293,
	"grad_norm": 0.6619130373001099,
	"learning_rate": 4.707318947885537e-05,
	"loss": 0.7842,
	"step": 59100
	},
	{
	"epoch": 2.1347504954062333,
	"grad_norm": 0.6103502511978149,
	"learning_rate": 4.6540698622597e-05,
	"loss": 0.7858,
	"step": 59250
	},
	{
	"epoch": 2.140154927040173,
	"grad_norm": 0.6459470391273499,
	"learning_rate": 4.6010321741669726e-05,
	"loss": 0.7817,
	"step": 59400
	},
	{
	"epoch": 2.1455593586741126,
	"grad_norm": 0.643363356590271,
	"learning_rate": 4.5482079809105704e-05,
	"loss": 0.7743,
	"step": 59550
	},
	{
	"epoch": 2.1509637903080527,
	"grad_norm": 0.518678605556488,
	"learning_rate": 4.495599371351331e-05,
	"loss": 0.7826,
	"step": 59700
	},
	{
	"epoch": 2.1563682219419924,
	"grad_norm": 0.5462015867233276,
	"learning_rate": 4.4432084258251415e-05,
	"loss": 0.7729,
	"step": 59850
	},
	{
	"epoch": 2.161772653575932,
	"grad_norm": 0.5519649982452393,
	"learning_rate": 4.39103721606065e-05,
	"loss": 0.7765,
	"step": 60000
	},
	{
	"epoch": 2.167177085209872,
	"grad_norm": 0.672087550163269,
	"learning_rate": 4.3390878050973573e-05,
	"loss": 0.7808,
	"step": 60150
	},
	{
	"epoch": 2.172581516843812,
	"grad_norm": 0.5825379490852356,
	"learning_rate": 4.287362247204033e-05,
	"loss": 0.7711,
	"step": 60300
	},
	{
	"epoch": 2.177985948477752,
	"grad_norm": 0.6448932886123657,
	"learning_rate": 4.2358625877974864e-05,
	"loss": 0.7767,
	"step": 60450
	},
	{
	"epoch": 2.1833903801116916,
	"grad_norm": 0.60658860206604,
	"learning_rate": 4.1845908633616695e-05,
	"loss": 0.772,
	"step": 60600
	},
	{
	"epoch": 2.1887948117456313,
	"grad_norm": 0.6476044058799744,
	"learning_rate": 4.1335491013671565e-05,
	"loss": 0.7784,
	"step": 60750
	},
	{
	"epoch": 2.1941992433795714,
	"grad_norm": 0.7101139426231384,
	"learning_rate": 4.0827393201909794e-05,
	"loss": 0.7727,
	"step": 60900
	},
	{
	"epoch": 2.199603675013511,
	"grad_norm": 0.7003293633460999,
	"learning_rate": 4.032163529036792e-05,
	"loss": 0.7806,
	"step": 61050
	},
	{
	"epoch": 2.2050081066474507,
	"grad_norm": 0.5855246782302856,
	"learning_rate": 3.981823727855444e-05,
	"loss": 0.7814,
	"step": 61200
	},
	{
	"epoch": 2.210412538281391,
	"grad_norm": 0.5075130462646484,
	"learning_rate": 3.9317219072658726e-05,
	"loss": 0.7689,
	"step": 61350
	},
	{
	"epoch": 2.2158169699153305,
	"grad_norm": 0.5855611562728882,
	"learning_rate": 3.881860048476396e-05,
	"loss": 0.7777,
	"step": 61500
	},
	{
	"epoch": 2.22122140154927,
	"grad_norm": 0.5581937432289124,
	"learning_rate": 3.8322401232063765e-05,
	"loss": 0.7845,
	"step": 61650
	},
	{
	"epoch": 2.2266258331832103,
	"grad_norm": 0.5910426378250122,
	"learning_rate": 3.782864093608245e-05,
	"loss": 0.7792,
	"step": 61800
	},
	{
	"epoch": 2.23203026481715,
	"grad_norm": 0.5566779971122742,
	"learning_rate": 3.733733912189903e-05,
	"loss": 0.7711,
	"step": 61950
	},
	{
	"epoch": 2.23743469645109,
	"grad_norm": 0.5984916090965271,
	"learning_rate": 3.68485152173752e-05,
	"loss": 0.7675,
	"step": 62100
	},
	{
	"epoch": 2.2428391280850297,
	"grad_norm": 0.5687974095344543,
	"learning_rate": 3.6362188552387186e-05,
	"loss": 0.7752,
	"step": 62250
	},
	{
	"epoch": 2.2482435597189694,
	"grad_norm": 0.5997481942176819,
	"learning_rate": 3.587837835806116e-05,
	"loss": 0.7762,
	"step": 62400
	},
	{
	"epoch": 2.2536479913529095,
	"grad_norm": 0.6333452463150024,
	"learning_rate": 3.539710376601299e-05,
	"loss": 0.776,
	"step": 62550
	},
	{
	"epoch": 2.259052422986849,
	"grad_norm": 0.49814724922180176,
	"learning_rate": 3.4918383807591516e-05,
	"loss": 0.7704,
	"step": 62700
	},
	{
	"epoch": 2.2644568546207893,
	"grad_norm": 0.6359221935272217,
	"learning_rate": 3.444223741312608e-05,
	"loss": 0.7749,
	"step": 62850
	},
	{
	"epoch": 2.269861286254729,
	"grad_norm": 0.5802394151687622,
	"learning_rate": 3.396868341117798e-05,
	"loss": 0.7755,
	"step": 63000
	},
	{
	"epoch": 2.2752657178886686,
	"grad_norm": 0.6383761763572693,
	"learning_rate": 3.3497740527795905e-05,
	"loss": 0.775,
	"step": 63150
	},
	{
	"epoch": 2.2806701495226087,
	"grad_norm": 0.5394207835197449,
	"learning_rate": 3.3029427385775335e-05,
	"loss": 0.7755,
	"step": 63300
	},
	{
	"epoch": 2.2860745811565484,
	"grad_norm": 0.5275822877883911,
	"learning_rate": 3.25637625039222e-05,
	"loss": 0.7728,
	"step": 63450
	},
	{
	"epoch": 2.291479012790488,
	"grad_norm": 0.5123447775840759,
	"learning_rate": 3.21007642963207e-05,
	"loss": 0.7721,
	"step": 63600
	},
	{
	"epoch": 2.296883444424428,
	"grad_norm": 0.586459755897522,
	"learning_rate": 3.164045107160487e-05,
	"loss": 0.7708,
	"step": 63750
	},
	{
	"epoch": 2.302287876058368,
	"grad_norm": 0.6412725448608398,
	"learning_rate": 3.1182841032234924e-05,
	"loss": 0.7695,
	"step": 63900
	},
	{
	"epoch": 2.3076923076923075,
	"grad_norm": 0.5762320160865784,
	"learning_rate": 3.072795227377716e-05,
	"loss": 0.7602,
	"step": 64050
	},
	{
	"epoch": 2.3130967393262476,
	"grad_norm": 0.5541566014289856,
	"learning_rate": 3.027580278418852e-05,
	"loss": 0.7649,
	"step": 64200
	},
	{
	"epoch": 2.3185011709601873,
	"grad_norm": 0.5710071921348572,
	"learning_rate": 2.9826410443105422e-05,
	"loss": 0.7643,
	"step": 64350
	},
	{
	"epoch": 2.3239056025941274,
	"grad_norm": 0.6665874719619751,
	"learning_rate": 2.9379793021136427e-05,
	"loss": 0.7619,
	"step": 64500
	},
	{
	"epoch": 2.329310034228067,
	"grad_norm": 0.5459585189819336,
	"learning_rate": 2.8935968179159843e-05,
	"loss": 0.7503,
	"step": 64650
	},
	{
	"epoch": 2.3347144658620067,
	"grad_norm": 0.6013796925544739,
	"learning_rate": 2.8494953467625107e-05,
	"loss": 0.7616,
	"step": 64800
	},
	{
	"epoch": 2.340118897495947,
	"grad_norm": 0.6519309282302856,
	"learning_rate": 2.8056766325858863e-05,
	"loss": 0.7582,
	"step": 64950
	},
	{
	"epoch": 2.3455233291298865,
	"grad_norm": 0.6198135614395142,
	"learning_rate": 2.7621424081375423e-05,
	"loss": 0.7538,
	"step": 65100
	},
	{
	"epoch": 2.350927760763826,
	"grad_norm": 0.580227792263031,
	"learning_rate": 2.718894394919155e-05,
	"loss": 0.7604,
	"step": 65250
	},
	{
	"epoch": 2.3563321923977663,
	"grad_norm": 0.5496440529823303,
	"learning_rate": 2.6759343031145467e-05,
	"loss": 0.7629,
	"step": 65400
	},
	{
	"epoch": 2.361736624031706,
	"grad_norm": 0.6118148565292358,
	"learning_rate": 2.633263831522098e-05,
	"loss": 0.7543,
	"step": 65550
	},
	{
	"epoch": 2.3671410556656456,
	"grad_norm": 0.5903668403625488,
	"learning_rate": 2.5908846674875497e-05,
	"loss": 0.7626,
	"step": 65700
	},
	{
	"epoch": 2.3725454872995857,
	"grad_norm": 0.5964175462722778,
	"learning_rate": 2.548798486837276e-05,
	"loss": 0.7584,
	"step": 65850
	},
	{
	"epoch": 2.3779499189335254,
	"grad_norm": 0.6447151899337769,
	"learning_rate": 2.5070069538120212e-05,
	"loss": 0.7659,
	"step": 66000
	},
	{
	"epoch": 2.3833543505674655,
	"grad_norm": 0.5526403188705444,
	"learning_rate": 2.465511721001098e-05,
	"loss": 0.7528,
	"step": 66150
	},
	{
	"epoch": 2.388758782201405,
	"grad_norm": 0.6118183732032776,
	"learning_rate": 2.4243144292770215e-05,
	"loss": 0.7447,
	"step": 66300
	},
	{
	"epoch": 2.394163213835345,
	"grad_norm": 0.5308869481086731,
	"learning_rate": 2.383416707730637e-05,
	"loss": 0.7593,
	"step": 66450
	},
	{
	"epoch": 2.399567645469285,
	"grad_norm": 0.6109766364097595,
	"learning_rate": 2.3428201736067003e-05,
	"loss": 0.761,
	"step": 66600
	},
	{
	"epoch": 2.4049720771032246,
	"grad_norm": 0.6102012991905212,
	"learning_rate": 2.302526432239902e-05,
	"loss": 0.7533,
	"step": 66750
	},
	{
	"epoch": 2.4103765087371647,
	"grad_norm": 0.5869913697242737,
	"learning_rate": 2.2625370769914233e-05,
	"loss": 0.7514,
	"step": 66900
	},
	{
	"epoch": 2.4157809403711044,
	"grad_norm": 0.5591433644294739,
	"learning_rate": 2.2228536891859063e-05,
	"loss": 0.7608,
	"step": 67050
	},
	{
	"epoch": 2.421185372005044,
	"grad_norm": 0.48755505681037903,
	"learning_rate": 2.183477838048923e-05,
	"loss": 0.7581,
	"step": 67200
	},
	{
	"epoch": 2.426589803638984,
	"grad_norm": 0.5120564103126526,
	"learning_rate": 2.144411080644925e-05,
	"loss": 0.7609,
	"step": 67350
	},
	{
	"epoch": 2.431994235272924,
	"grad_norm": 0.5482677221298218,
	"learning_rate": 2.1056549618156796e-05,
	"loss": 0.7618,
	"step": 67500
	},
	{
	"epoch": 2.4373986669068635,
	"grad_norm": 0.6918262243270874,
	"learning_rate": 2.067211014119168e-05,
	"loss": 0.757,
	"step": 67650
	},
	{
	"epoch": 2.4428030985408036,
	"grad_norm": 0.455586701631546,
	"learning_rate": 2.029080757768994e-05,
	"loss": 0.7446,
	"step": 67800
	},
	{
	"epoch": 2.4482075301747432,
	"grad_norm": 0.5845438838005066,
	"learning_rate": 1.9912657005742608e-05,
	"loss": 0.7558,
	"step": 67950
	},
	{
	"epoch": 2.453611961808683,
	"grad_norm": 0.6255479454994202,
	"learning_rate": 1.953767337879947e-05,
	"loss": 0.7426,
	"step": 68100
	},
	{
	"epoch": 2.459016393442623,
	"grad_norm": 0.5470909476280212,
	"learning_rate": 1.9165871525077828e-05,
	"loss": 0.7597,
	"step": 68250
	},
	{
	"epoch": 2.4644208250765627,
	"grad_norm": 0.5875541567802429,
	"learning_rate": 1.879726614697612e-05,
	"loss": 0.7491,
	"step": 68400
	},
	{
	"epoch": 2.469825256710503,
	"grad_norm": 0.6186181306838989,
	"learning_rate": 1.843187182049244e-05,
	"loss": 0.7556,
	"step": 68550
	},
	{
	"epoch": 2.4752296883444425,
	"grad_norm": 0.6414260268211365,
	"learning_rate": 1.8069702994648208e-05,
	"loss": 0.7534,
	"step": 68700
	},
	{
	"epoch": 2.480634119978382,
	"grad_norm": 0.5647196173667908,
	"learning_rate": 1.7710773990916885e-05,
	"loss": 0.7467,
	"step": 68850
	},
	{
	"epoch": 2.4860385516123222,
	"grad_norm": 0.5534460544586182,
	"learning_rate": 1.7355099002657495e-05,
	"loss": 0.7591,
	"step": 69000
	},
	{
	"epoch": 2.491442983246262,
	"grad_norm": 0.5535364151000977,
	"learning_rate": 1.7002692094553506e-05,
	"loss": 0.7497,
	"step": 69150
	},
	{
	"epoch": 2.496847414880202,
	"grad_norm": 0.5928584337234497,
	"learning_rate": 1.6653567202056585e-05,
	"loss": 0.7496,
	"step": 69300
	},
	{
	"epoch": 2.5022518465141417,
	"grad_norm": 0.5369604825973511,
	"learning_rate": 1.6307738130835515e-05,
	"loss": 0.761,
	"step": 69450
	},
	{
	"epoch": 2.5076562781480813,
	"grad_norm": 0.6959002614021301,
	"learning_rate": 1.5965218556230375e-05,
	"loss": 0.7461,
	"step": 69600
	},
	{
	"epoch": 2.513060709782021,
	"grad_norm": 0.6277987360954285,
	"learning_rate": 1.5626022022711694e-05,
	"loss": 0.7467,
	"step": 69750
	},
	{
	"epoch": 2.518465141415961,
	"grad_norm": 0.6087015867233276,
	"learning_rate": 1.529016194334484e-05,
	"loss": 0.7556,
	"step": 69900
	},
	{
	"epoch": 2.523869573049901,
	"grad_norm": 0.5043054819107056,
	"learning_rate": 1.4957651599259615e-05,
	"loss": 0.7397,
	"step": 70050
	},
	{
	"epoch": 2.529274004683841,
	"grad_norm": 0.6836428642272949,
	"learning_rate": 1.4628504139125177e-05,
	"loss": 0.741,
	"step": 70200
	},
	{
	"epoch": 2.5346784363177806,
	"grad_norm": 0.5704199075698853,
	"learning_rate": 1.4302732578629918e-05,
	"loss": 0.7513,
	"step": 70350
	},
	{
	"epoch": 2.5400828679517202,
	"grad_norm": 0.5928525328636169,
	"learning_rate": 1.3980349799966985e-05,
	"loss": 0.7485,
	"step": 70500
	},
	{
	"epoch": 2.5454872995856603,
	"grad_norm": 0.6592413783073425,
	"learning_rate": 1.3661368551324648e-05,
	"loss": 0.7452,
	"step": 70650
	},
	{
	"epoch": 2.5508917312196,
	"grad_norm": 0.5700178146362305,
	"learning_rate": 1.3345801446382344e-05,
	"loss": 0.7496,
	"step": 70800
	},
	{
	"epoch": 2.55629616285354,
	"grad_norm": 0.5675559043884277,
	"learning_rate": 1.3033660963811878e-05,
	"loss": 0.7488,
	"step": 70950
	},
	{
	"epoch": 2.5617005944874798,
	"grad_norm": 0.5796085596084595,
	"learning_rate": 1.2724959446783868e-05,
	"loss": 0.7454,
	"step": 71100
	},
	{
	"epoch": 2.5671050261214194,
	"grad_norm": 0.6384360194206238,
	"learning_rate": 1.2419709102479804e-05,
	"loss": 0.7387,
	"step": 71250
	},
	{
	"epoch": 2.5725094577553596,
	"grad_norm": 0.5239229798316956,
	"learning_rate": 1.2117922001609173e-05,
	"loss": 0.7371,
	"step": 71400
	},
	{
	"epoch": 2.577913889389299,
	"grad_norm": 0.5770368576049805,
	"learning_rate": 1.181961007793222e-05,
	"loss": 0.7451,
	"step": 71550
	},
	{
	"epoch": 2.5833183210232393,
	"grad_norm": 0.5493025779724121,
	"learning_rate": 1.1524785127788074e-05,
	"loss": 0.7396,
	"step": 71700
	},
	{
	"epoch": 2.588722752657179,
	"grad_norm": 0.5658043622970581,
	"learning_rate": 1.123345880962826e-05,
	"loss": 0.7448,
	"step": 71850
	},
	{
	"epoch": 2.5941271842911187,
	"grad_norm": 0.5434427857398987,
	"learning_rate": 1.0945642643555542e-05,
	"loss": 0.7471,
	"step": 72000
	},
	{
	"epoch": 2.5995316159250583,
	"grad_norm": 0.5109556913375854,
	"learning_rate": 1.066134801086862e-05,
	"loss": 0.7434,
	"step": 72150
	},
	{
	"epoch": 2.6049360475589984,
	"grad_norm": 0.5859112739562988,
	"learning_rate": 1.0380586153611926e-05,
	"loss": 0.7391,
	"step": 72300
	},
	{
	"epoch": 2.610340479192938,
	"grad_norm": 0.5381293296813965,
	"learning_rate": 1.0103368174131044e-05,
	"loss": 0.7402,
	"step": 72450
	},
	{
	"epoch": 2.615744910826878,
	"grad_norm": 0.5799181461334229,
	"learning_rate": 9.829705034633763e-06,
	"loss": 0.746,
	"step": 72600
	},
	{
	"epoch": 2.621149342460818,
	"grad_norm": 0.5245427489280701,
	"learning_rate": 9.559607556756589e-06,
	"loss": 0.7374,
	"step": 72750
	},
	{
	"epoch": 2.6265537740947575,
	"grad_norm": 0.5755253434181213,
	"learning_rate": 9.29308642113672e-06,
	"loss": 0.7335,
	"step": 72900
	},
	{
	"epoch": 2.6319582057286977,
	"grad_norm": 0.5702092051506042,
	"learning_rate": 9.030152166989848e-06,
	"loss": 0.7441,
	"step": 73050
	},
	{
	"epoch": 2.6373626373626373,
	"grad_norm": 0.5722294449806213,
	"learning_rate": 8.770815191693294e-06,
	"loss": 0.745,
	"step": 73200
	},
	{
	"epoch": 2.6427670689965774,
	"grad_norm": 0.5095585584640503,
	"learning_rate": 8.515085750374819e-06,
	"loss": 0.7399,
	"step": 73350
	},
	{
	"epoch": 2.648171500630517,
	"grad_norm": 0.7061243057250977,
	"learning_rate": 8.262973955507213e-06,
	"loss": 0.7317,
	"step": 73500
	},
	{
	"epoch": 2.6535759322644568,
	"grad_norm": 0.6071792244911194,
	"learning_rate": 8.014489776508406e-06,
	"loss": 0.7457,
	"step": 73650
	},
	{
	"epoch": 2.6589803638983964,
	"grad_norm": 0.6209822297096252,
	"learning_rate": 7.769643039347118e-06,
	"loss": 0.7304,
	"step": 73800
	},
	{
	"epoch": 2.6643847955323365,
	"grad_norm": 0.5465585589408875,
	"learning_rate": 7.528443426154386e-06,
	"loss": 0.7348,
	"step": 73950
	},
	{
	"epoch": 2.669789227166276,
	"grad_norm": 0.5735740661621094,
	"learning_rate": 7.290900474840745e-06,
	"loss": 0.7509,
	"step": 74100
	},
	{
	"epoch": 2.6751936588002163,
	"grad_norm": 0.5864896178245544,
	"learning_rate": 7.0570235787189575e-06,
	"loss": 0.7422,
	"step": 74250
	},
	{
	"epoch": 2.680598090434156,
	"grad_norm": 0.5019831657409668,
	"learning_rate": 6.82682198613267e-06,
	"loss": 0.74,
	"step": 74400
	},
	{
	"epoch": 2.6860025220680956,
	"grad_norm": 0.4947664141654968,
	"learning_rate": 6.600304800090629e-06,
	"loss": 0.7424,
	"step": 74550
	},
	{
	"epoch": 2.6914069537020358,
	"grad_norm": 0.5284778475761414,
	"learning_rate": 6.3774809779066914e-06,
	"loss": 0.741,
	"step": 74700
	},
	{
	"epoch": 2.6968113853359754,
	"grad_norm": 0.5382539629936218,
	"learning_rate": 6.158359330845742e-06,
	"loss": 0.7384,
	"step": 74850
	},
	{
	"epoch": 2.7022158169699155,
	"grad_norm": 0.6098785996437073,
	"learning_rate": 5.942948523775172e-06,
	"loss": 0.732,
	"step": 75000
	},
	{
	"epoch": 2.707620248603855,
	"grad_norm": 0.5111733675003052,
	"learning_rate": 5.731257074822227e-06,
	"loss": 0.7401,
	"step": 75150
	},
	{
	"epoch": 2.713024680237795,
	"grad_norm": 0.563735842704773,
	"learning_rate": 5.523293355037174e-06,
	"loss": 0.7373,
	"step": 75300
	},
	{
	"epoch": 2.718429111871735,
	"grad_norm": 0.48581522703170776,
	"learning_rate": 5.319065588062389e-06,
	"loss": 0.7355,
	"step": 75450
	},
	{
	"epoch": 2.7238335435056746,
	"grad_norm": 0.6022956371307373,
	"learning_rate": 5.118581849806991e-06,
	"loss": 0.752,
	"step": 75600
	},
	{
	"epoch": 2.7292379751396147,
	"grad_norm": 0.5350160002708435,
	"learning_rate": 4.92185006812762e-06,
	"loss": 0.7302,
	"step": 75750
	},
	{
	"epoch": 2.7346424067735544,
	"grad_norm": 0.5559709668159485,
	"learning_rate": 4.728878022514904e-06,
	"loss": 0.7258,
	"step": 75900
	},
	{
	"epoch": 2.740046838407494,
	"grad_norm": 0.5401473045349121,
	"learning_rate": 4.5396733437857885e-06,
	"loss": 0.7485,
	"step": 76050
	},
	{
	"epoch": 2.7454512700414337,
	"grad_norm": 0.5016641020774841,
	"learning_rate": 4.354243513781841e-06,
	"loss": 0.7257,
	"step": 76200
	},
	{
	"epoch": 2.750855701675374,
	"grad_norm": 0.5274752974510193,
	"learning_rate": 4.172595865073414e-06,
	"loss": 0.7307,
	"step": 76350
	},
	{
	"epoch": 2.7562601333093135,
	"grad_norm": 0.5795451402664185,
	"learning_rate": 3.994737580669572e-06,
	"loss": 0.7431,
	"step": 76500
	},
	{
	"epoch": 2.7616645649432536,
	"grad_norm": 0.584701418876648,
	"learning_rate": 3.820675693734166e-06,
	"loss": 0.7333,
	"step": 76650
	},
	{
	"epoch": 2.7670689965771933,
	"grad_norm": 0.5679466724395752,
	"learning_rate": 3.6504170873076894e-06,
	"loss": 0.7457,
	"step": 76800
	},
	{
	"epoch": 2.772473428211133,
	"grad_norm": 0.5592213869094849,
	"learning_rate": 3.483968494035039e-06,
	"loss": 0.7438,
	"step": 76950
	},
	{
	"epoch": 2.777877859845073,
	"grad_norm": 0.6507932543754578,
	"learning_rate": 3.3213364958993633e-06,
	"loss": 0.7332,
	"step": 77100
	},
	{
	"epoch": 2.7832822914790127,
	"grad_norm": 0.5836296081542969,
	"learning_rate": 3.1625275239617447e-06,
	"loss": 0.7341,
	"step": 77250
	},
	{
	"epoch": 2.788686723112953,
	"grad_norm": 0.6291818618774414,
	"learning_rate": 3.0075478581068517e-06,
	"loss": 0.7391,
	"step": 77400
	},
	{
	"epoch": 2.7940911547468925,
	"grad_norm": 0.59623783826828,
	"learning_rate": 2.8564036267947347e-06,
	"loss": 0.7281,
	"step": 77550
	},
	{
	"epoch": 2.799495586380832,
	"grad_norm": 0.5835798978805542,
	"learning_rate": 2.7091008068183323e-06,
	"loss": 0.7385,
	"step": 77700
	},
	{
	"epoch": 2.804900018014772,
	"grad_norm": 0.5502892732620239,
	"learning_rate": 2.565645223067237e-06,
	"loss": 0.7441,
	"step": 77850
	},
	{
	"epoch": 2.810304449648712,
	"grad_norm": 0.5453166365623474,
	"learning_rate": 2.4260425482973025e-06,
	"loss": 0.7338,
	"step": 78000
	},
	{
	"epoch": 2.8157088812826516,
	"grad_norm": 0.5541927814483643,
	"learning_rate": 2.2902983029063463e-06,
	"loss": 0.7325,
	"step": 78150
	},
	{
	"epoch": 2.8211133129165917,
	"grad_norm": 0.5624451041221619,
	"learning_rate": 2.158417854715844e-06,
	"loss": 0.7311,
	"step": 78300
	},
	{
	"epoch": 2.8265177445505314,
	"grad_norm": 0.6407118439674377,
	"learning_rate": 2.0304064187587012e-06,
	"loss": 0.7343,
	"step": 78450
	},
	{
	"epoch": 2.831922176184471,
	"grad_norm": 0.6349582076072693,
	"learning_rate": 1.906269057072918e-06,
	"loss": 0.7289,
	"step": 78600
	},
	{
	"epoch": 2.837326607818411,
	"grad_norm": 0.511360764503479,
	"learning_rate": 1.7860106785015707e-06,
	"loss": 0.7362,
	"step": 78750
	},
	{
	"epoch": 2.842731039452351,
	"grad_norm": 0.6116952300071716,
	"learning_rate": 1.669636038498612e-06,
	"loss": 0.7357,
	"step": 78900
	},
	{
	"epoch": 2.848135471086291,
	"grad_norm": 0.5288776159286499,
	"learning_rate": 1.5571497389408218e-06,
	"loss": 0.7377,
	"step": 79050
	},
	{
	"epoch": 2.8535399027202306,
	"grad_norm": 0.5661271810531616,
	"learning_rate": 1.4485562279458742e-06,
	"loss": 0.7335,
	"step": 79200
	},
	{
	"epoch": 2.8589443343541703,
	"grad_norm": 0.46028730273246765,
	"learning_rate": 1.3438597996963675e-06,
	"loss": 0.7306,
	"step": 79350
	},
	{
	"epoch": 2.8643487659881104,
	"grad_norm": 0.5887011289596558,
	"learning_rate": 1.243064594270127e-06,
	"loss": 0.7348,
	"step": 79500
	},
	{
	"epoch": 2.86975319762205,
	"grad_norm": 0.5686684846878052,
	"learning_rate": 1.1461745974763682e-06,
	"loss": 0.7305,
	"step": 79650
	},
	{
	"epoch": 2.87515762925599,
	"grad_norm": 0.5735449194908142,
	"learning_rate": 1.0531936406982247e-06,
	"loss": 0.726,
	"step": 79800
	},
	{
	"epoch": 2.88056206088993,
	"grad_norm": 0.6428796648979187,
	"learning_rate": 9.64125400741056e-07,
	"loss": 0.7288,
	"step": 79950
	},
	{
	"epoch": 2.8859664925238695,
	"grad_norm": 0.6176515817642212,
	"learning_rate": 8.789733996872551e-07,
	"loss": 0.7345,
	"step": 80100
	},
	{
	"epoch": 2.891370924157809,
	"grad_norm": 0.5095422267913818,
	"learning_rate": 7.977410047568246e-07,
	"loss": 0.7419,
	"step": 80250
	},
	{
	"epoch": 2.8967753557917493,
	"grad_norm": 0.5800315141677856,
	"learning_rate": 7.204314281742952e-07,
	"loss": 0.7375,
	"step": 80400
	},
	{
	"epoch": 2.902179787425689,
	"grad_norm": 0.5727178454399109,
	"learning_rate": 6.470477270416719e-07,
	"loss": 0.7356,
	"step": 80550
	},
	{
	"epoch": 2.907584219059629,
	"grad_norm": 0.5594687461853027,
	"learning_rate": 5.775928032175637e-07,
	"loss": 0.7363,
	"step": 80700
	},
	{
	"epoch": 2.9129886506935687,
	"grad_norm": 0.6071078777313232,
	"learning_rate": 5.120694032024309e-07,
	"loss": 0.7491,
	"step": 80850
	},
	{
	"epoch": 2.9183930823275084,
	"grad_norm": 0.6253530383110046,
	"learning_rate": 4.5048011802997226e-07,
	"loss": 0.7495,
	"step": 81000
	},
	{
	"epoch": 2.9237975139614485,
	"grad_norm": 0.7043154835700989,
	"learning_rate": 3.928273831646512e-07,
	"loss": 0.7349,
	"step": 81150
	},
	{
	"epoch": 2.929201945595388,
	"grad_norm": 0.5901583433151245,
	"learning_rate": 3.391134784054284e-07,
	"loss": 0.7388,
	"step": 81300
	},
	{
	"epoch": 2.9346063772293283,
	"grad_norm": 0.5171722173690796,
	"learning_rate": 2.8934052779558965e-07,
	"loss": 0.7357,
	"step": 81450
	},
	{
	"epoch": 2.940010808863268,
	"grad_norm": 0.5885277986526489,
	"learning_rate": 2.4351049953872386e-07,
	"loss": 0.7294,
	"step": 81600
	},
	{
	"epoch": 2.9454152404972076,
	"grad_norm": 0.5369580388069153,
	"learning_rate": 2.0162520592095225e-07,
	"loss": 0.724,
	"step": 81750
	},
	{
	"epoch": 2.9508196721311473,
	"grad_norm": 0.505922794342041,
	"learning_rate": 1.6368630323920776e-07,
	"loss": 0.7376,
	"step": 81900
	},
	{
	"epoch": 2.9562241037650874,
	"grad_norm": 0.5709424018859863,
	"learning_rate": 1.2969529173577633e-07,
	"loss": 0.7273,
	"step": 82050
	},
	{
	"epoch": 2.961628535399027,
	"grad_norm": 0.5696266293525696,
	"learning_rate": 9.965351553895552e-08,
	"loss": 0.7358,
	"step": 82200
	},
	{
	"epoch": 2.967032967032967,
	"grad_norm": 0.6568360924720764,
	"learning_rate": 7.356216260990811e-08,
	"loss": 0.7337,
	"step": 82350
	},
	{
	"epoch": 2.972437398666907,
	"grad_norm": 0.6210362911224365,
	"learning_rate": 5.142226469568856e-08,
	"loss": 0.7301,
	"step": 82500
	},
	{
	"epoch": 2.9778418303008465,
	"grad_norm": 0.5563607811927795,
	"learning_rate": 3.32346972884312e-08,
	"loss": 0.7311,
	"step": 82650
	},
	{
	"epoch": 2.9832462619347866,
	"grad_norm": 0.6156190633773804,
	"learning_rate": 1.9000179590733525e-08,
	"loss": 0.7248,
	"step": 82800
	},
	{
	"epoch": 2.9886506935687263,
	"grad_norm": 0.6303669810295105,
	"learning_rate": 8.719274487245522e-09,
	"loss": 0.7412,
	"step": 82950
	},
	{
	"epoch": 2.9940551252026664,
	"grad_norm": 0.4844772517681122,
	"learning_rate": 2.392388522343136e-09,
	"loss": 0.7329,
	"step": 83100
	},
	{
	"epoch": 2.999459556836606,
	"grad_norm": 0.5367130041122437,
	"learning_rate": 1.977188415214215e-11,
	"loss": 0.7302,
	"step": 83250
	}
	],
	"logging_steps": 150,
	"max_steps": 83265,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.661509740266363e+20,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}