Training in progress, step 966, checkpoint

086945d verified about 1 month ago

172 kB

	{
	"best_metric": 0.723136305809021,
	"best_model_checkpoint": "miner_id_24/checkpoint-900",
	"epoch": 0.06728190841023855,
	"eval_steps": 100,
	"global_step": 966,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 6.965000870625109e-05,
	"grad_norm": 1.0377936363220215,
	"learning_rate": 2e-05,
	"loss": 2.3142,
	"step": 1
	},
	{
	"epoch": 6.965000870625109e-05,
	"eval_loss": 2.563941717147827,
	"eval_runtime": 694.6699,
	"eval_samples_per_second": 7.198,
	"eval_steps_per_second": 1.799,
	"step": 1
	},
	{
	"epoch": 0.00013930001741250218,
	"grad_norm": 1.5463413000106812,
	"learning_rate": 4e-05,
	"loss": 2.6219,
	"step": 2
	},
	{
	"epoch": 0.00020895002611875328,
	"grad_norm": 0.9576510787010193,
	"learning_rate": 6e-05,
	"loss": 2.4328,
	"step": 3
	},
	{
	"epoch": 0.00027860003482500437,
	"grad_norm": 0.9721766710281372,
	"learning_rate": 8e-05,
	"loss": 2.3784,
	"step": 4
	},
	{
	"epoch": 0.00034825004353125546,
	"grad_norm": 1.0480666160583496,
	"learning_rate": 0.0001,
	"loss": 2.5397,
	"step": 5
	},
	{
	"epoch": 0.00041790005223750655,
	"grad_norm": 8.270813941955566,
	"learning_rate": 0.00012,
	"loss": 2.3505,
	"step": 6
	},
	{
	"epoch": 0.00048755006094375764,
	"grad_norm": 0.8568385243415833,
	"learning_rate": 0.00014,
	"loss": 2.2338,
	"step": 7
	},
	{
	"epoch": 0.0005572000696500087,
	"grad_norm": 0.7186582088470459,
	"learning_rate": 0.00016,
	"loss": 2.1361,
	"step": 8
	},
	{
	"epoch": 0.0006268500783562598,
	"grad_norm": 0.8668791055679321,
	"learning_rate": 0.00018,
	"loss": 2.1404,
	"step": 9
	},
	{
	"epoch": 0.0006965000870625109,
	"grad_norm": 0.6644730567932129,
	"learning_rate": 0.0002,
	"loss": 1.9522,
	"step": 10
	},
	{
	"epoch": 0.000766150095768762,
	"grad_norm": 0.7633213996887207,
	"learning_rate": 0.00019999946004996418,
	"loss": 1.9414,
	"step": 11
	},
	{
	"epoch": 0.0008358001044750131,
	"grad_norm": 0.8425551652908325,
	"learning_rate": 0.00019999784020568754,
	"loss": 1.7541,
	"step": 12
	},
	{
	"epoch": 0.0009054501131812642,
	"grad_norm": 0.7430157661437988,
	"learning_rate": 0.00019999514048466284,
	"loss": 2.0221,
	"step": 13
	},
	{
	"epoch": 0.0009751001218875153,
	"grad_norm": 0.6478707194328308,
	"learning_rate": 0.00019999136091604434,
	"loss": 2.061,
	"step": 14
	},
	{
	"epoch": 0.0010447501305937664,
	"grad_norm": 0.6233001351356506,
	"learning_rate": 0.00019998650154064764,
	"loss": 1.7651,
	"step": 15
	},
	{
	"epoch": 0.0011144001393000175,
	"grad_norm": 0.5294800400733948,
	"learning_rate": 0.0001999805624109491,
	"loss": 1.8399,
	"step": 16
	},
	{
	"epoch": 0.0011840501480062686,
	"grad_norm": 0.5066989660263062,
	"learning_rate": 0.0001999735435910854,
	"loss": 1.9775,
	"step": 17
	},
	{
	"epoch": 0.0012537001567125197,
	"grad_norm": 0.5490643978118896,
	"learning_rate": 0.00019996544515685281,
	"loss": 1.7321,
	"step": 18
	},
	{
	"epoch": 0.0013233501654187707,
	"grad_norm": 0.8576249480247498,
	"learning_rate": 0.00019995626719570626,
	"loss": 1.7238,
	"step": 19
	},
	{
	"epoch": 0.0013930001741250218,
	"grad_norm": 0.6412836313247681,
	"learning_rate": 0.00019994600980675862,
	"loss": 1.9291,
	"step": 20
	},
	{
	"epoch": 0.001462650182831273,
	"grad_norm": 0.5579408407211304,
	"learning_rate": 0.0001999346731007794,
	"loss": 1.7642,
	"step": 21
	},
	{
	"epoch": 0.001532300191537524,
	"grad_norm": 0.5578712224960327,
	"learning_rate": 0.00019992225720019376,
	"loss": 1.7988,
	"step": 22
	},
	{
	"epoch": 0.0016019502002437751,
	"grad_norm": 0.5795004963874817,
	"learning_rate": 0.00019990876223908093,
	"loss": 1.8818,
	"step": 23
	},
	{
	"epoch": 0.0016716002089500262,
	"grad_norm": 0.48596304655075073,
	"learning_rate": 0.00019989418836317304,
	"loss": 1.7715,
	"step": 24
	},
	{
	"epoch": 0.0017412502176562773,
	"grad_norm": 0.672593355178833,
	"learning_rate": 0.00019987853572985342,
	"loss": 1.6647,
	"step": 25
	},
	{
	"epoch": 0.0018109002263625284,
	"grad_norm": 0.6527593731880188,
	"learning_rate": 0.00019986180450815485,
	"loss": 1.6806,
	"step": 26
	},
	{
	"epoch": 0.0018805502350687795,
	"grad_norm": 0.6159369945526123,
	"learning_rate": 0.00019984399487875778,
	"loss": 1.6252,
	"step": 27
	},
	{
	"epoch": 0.0019502002437750306,
	"grad_norm": 0.6747246384620667,
	"learning_rate": 0.00019982510703398843,
	"loss": 1.6697,
	"step": 28
	},
	{
	"epoch": 0.0020198502524812817,
	"grad_norm": 0.6250666975975037,
	"learning_rate": 0.00019980514117781667,
	"loss": 1.7791,
	"step": 29
	},
	{
	"epoch": 0.0020895002611875328,
	"grad_norm": 0.5189153552055359,
	"learning_rate": 0.00019978409752585376,
	"loss": 1.6126,
	"step": 30
	},
	{
	"epoch": 0.002159150269893784,
	"grad_norm": 0.6016886234283447,
	"learning_rate": 0.00019976197630535014,
	"loss": 1.8378,
	"step": 31
	},
	{
	"epoch": 0.002228800278600035,
	"grad_norm": 0.6658028364181519,
	"learning_rate": 0.00019973877775519285,
	"loss": 1.5398,
	"step": 32
	},
	{
	"epoch": 0.002298450287306286,
	"grad_norm": 0.6278268098831177,
	"learning_rate": 0.0001997145021259031,
	"loss": 1.6046,
	"step": 33
	},
	{
	"epoch": 0.002368100296012537,
	"grad_norm": 0.6449319124221802,
	"learning_rate": 0.00019968914967963337,
	"loss": 1.6949,
	"step": 34
	},
	{
	"epoch": 0.002437750304718788,
	"grad_norm": 0.5705320239067078,
	"learning_rate": 0.0001996627206901648,
	"loss": 1.699,
	"step": 35
	},
	{
	"epoch": 0.0025074003134250393,
	"grad_norm": 0.698817253112793,
	"learning_rate": 0.00019963521544290403,
	"loss": 1.3933,
	"step": 36
	},
	{
	"epoch": 0.0025770503221312904,
	"grad_norm": 0.6723275780677795,
	"learning_rate": 0.00019960663423488026,
	"loss": 1.3995,
	"step": 37
	},
	{
	"epoch": 0.0026467003308375415,
	"grad_norm": 0.6986438632011414,
	"learning_rate": 0.00019957697737474196,
	"loss": 1.5379,
	"step": 38
	},
	{
	"epoch": 0.0027163503395437926,
	"grad_norm": 0.7800816297531128,
	"learning_rate": 0.0001995462451827536,
	"loss": 1.5991,
	"step": 39
	},
	{
	"epoch": 0.0027860003482500437,
	"grad_norm": 0.7049386501312256,
	"learning_rate": 0.00019951443799079215,
	"loss": 1.4532,
	"step": 40
	},
	{
	"epoch": 0.0028556503569562948,
	"grad_norm": 0.7777565717697144,
	"learning_rate": 0.0001994815561423435,
	"loss": 1.8033,
	"step": 41
	},
	{
	"epoch": 0.002925300365662546,
	"grad_norm": 0.7464177012443542,
	"learning_rate": 0.00019944759999249872,
	"loss": 1.5926,
	"step": 42
	},
	{
	"epoch": 0.002994950374368797,
	"grad_norm": 0.5269952416419983,
	"learning_rate": 0.0001994125699079503,
	"loss": 1.7358,
	"step": 43
	},
	{
	"epoch": 0.003064600383075048,
	"grad_norm": 0.6710164546966553,
	"learning_rate": 0.00019937646626698823,
	"loss": 1.3895,
	"step": 44
	},
	{
	"epoch": 0.003134250391781299,
	"grad_norm": 0.6867531538009644,
	"learning_rate": 0.00019933928945949564,
	"loss": 1.3977,
	"step": 45
	},
	{
	"epoch": 0.0032039004004875502,
	"grad_norm": 0.6760386824607849,
	"learning_rate": 0.000199301039886945,
	"loss": 1.5334,
	"step": 46
	},
	{
	"epoch": 0.0032735504091938013,
	"grad_norm": 0.8017314076423645,
	"learning_rate": 0.0001992617179623934,
	"loss": 1.3485,
	"step": 47
	},
	{
	"epoch": 0.0033432004179000524,
	"grad_norm": 0.8706843256950378,
	"learning_rate": 0.00019922132411047833,
	"loss": 1.6267,
	"step": 48
	},
	{
	"epoch": 0.0034128504266063035,
	"grad_norm": 0.8783407807350159,
	"learning_rate": 0.0001991798587674131,
	"loss": 1.5161,
	"step": 49
	},
	{
	"epoch": 0.0034825004353125546,
	"grad_norm": 0.7308568954467773,
	"learning_rate": 0.0001991373223809819,
	"loss": 1.6129,
	"step": 50
	},
	{
	"epoch": 0.0035521504440188057,
	"grad_norm": 0.7637537717819214,
	"learning_rate": 0.00019909371541053524,
	"loss": 1.5135,
	"step": 51
	},
	{
	"epoch": 0.0036218004527250568,
	"grad_norm": 0.7845759987831116,
	"learning_rate": 0.00019904903832698484,
	"loss": 1.5176,
	"step": 52
	},
	{
	"epoch": 0.003691450461431308,
	"grad_norm": 0.7081618309020996,
	"learning_rate": 0.0001990032916127985,
	"loss": 1.5891,
	"step": 53
	},
	{
	"epoch": 0.003761100470137559,
	"grad_norm": 0.7322244048118591,
	"learning_rate": 0.00019895647576199506,
	"loss": 1.3892,
	"step": 54
	},
	{
	"epoch": 0.00383075047884381,
	"grad_norm": 0.8247037529945374,
	"learning_rate": 0.0001989085912801389,
	"loss": 1.229,
	"step": 55
	},
	{
	"epoch": 0.003900400487550061,
	"grad_norm": 0.7730288505554199,
	"learning_rate": 0.00019885963868433463,
	"loss": 1.4962,
	"step": 56
	},
	{
	"epoch": 0.003970050496256312,
	"grad_norm": 0.8732311129570007,
	"learning_rate": 0.00019880961850322128,
	"loss": 1.507,
	"step": 57
	},
	{
	"epoch": 0.004039700504962563,
	"grad_norm": 0.7709734439849854,
	"learning_rate": 0.00019875853127696692,
	"loss": 1.5573,
	"step": 58
	},
	{
	"epoch": 0.004109350513668814,
	"grad_norm": 0.6652419567108154,
	"learning_rate": 0.00019870637755726244,
	"loss": 1.4967,
	"step": 59
	},
	{
	"epoch": 0.0041790005223750655,
	"grad_norm": 0.7002225518226624,
	"learning_rate": 0.000198653157907316,
	"loss": 1.6385,
	"step": 60
	},
	{
	"epoch": 0.004248650531081317,
	"grad_norm": 0.7703307867050171,
	"learning_rate": 0.00019859887290184656,
	"loss": 1.4653,
	"step": 61
	},
	{
	"epoch": 0.004318300539787568,
	"grad_norm": 0.7544863820075989,
	"learning_rate": 0.00019854352312707798,
	"loss": 1.492,
	"step": 62
	},
	{
	"epoch": 0.004387950548493819,
	"grad_norm": 0.8162996768951416,
	"learning_rate": 0.00019848710918073247,
	"loss": 1.1976,
	"step": 63
	},
	{
	"epoch": 0.00445760055720007,
	"grad_norm": 0.5825150012969971,
	"learning_rate": 0.00019842963167202433,
	"loss": 1.4162,
	"step": 64
	},
	{
	"epoch": 0.004527250565906321,
	"grad_norm": 0.6794354319572449,
	"learning_rate": 0.00019837109122165317,
	"loss": 1.4261,
	"step": 65
	},
	{
	"epoch": 0.004596900574612572,
	"grad_norm": 0.724295437335968,
	"learning_rate": 0.0001983114884617974,
	"loss": 1.4105,
	"step": 66
	},
	{
	"epoch": 0.004666550583318823,
	"grad_norm": 0.8312812447547913,
	"learning_rate": 0.00019825082403610725,
	"loss": 1.4328,
	"step": 67
	},
	{
	"epoch": 0.004736200592025074,
	"grad_norm": 0.7422550320625305,
	"learning_rate": 0.0001981890985996979,
	"loss": 1.4478,
	"step": 68
	},
	{
	"epoch": 0.004805850600731325,
	"grad_norm": 0.8899093866348267,
	"learning_rate": 0.00019812631281914233,
	"loss": 1.1302,
	"step": 69
	},
	{
	"epoch": 0.004875500609437576,
	"grad_norm": 0.838991105556488,
	"learning_rate": 0.0001980624673724643,
	"loss": 1.5665,
	"step": 70
	},
	{
	"epoch": 0.0049451506181438275,
	"grad_norm": 0.7630224823951721,
	"learning_rate": 0.0001979975629491308,
	"loss": 1.3839,
	"step": 71
	},
	{
	"epoch": 0.005014800626850079,
	"grad_norm": 0.7271626591682434,
	"learning_rate": 0.00019793160025004475,
	"loss": 1.1867,
	"step": 72
	},
	{
	"epoch": 0.00508445063555633,
	"grad_norm": 0.6928589344024658,
	"learning_rate": 0.00019786457998753737,
	"loss": 1.6149,
	"step": 73
	},
	{
	"epoch": 0.005154100644262581,
	"grad_norm": 0.8479191660881042,
	"learning_rate": 0.00019779650288536058,
	"loss": 1.2566,
	"step": 74
	},
	{
	"epoch": 0.005223750652968832,
	"grad_norm": 0.7954538464546204,
	"learning_rate": 0.000197727369678679,
	"loss": 1.1289,
	"step": 75
	},
	{
	"epoch": 0.005293400661675083,
	"grad_norm": 0.8336564302444458,
	"learning_rate": 0.00019765718111406218,
	"loss": 1.227,
	"step": 76
	},
	{
	"epoch": 0.005363050670381334,
	"grad_norm": 0.7440236806869507,
	"learning_rate": 0.00019758593794947648,
	"loss": 1.4401,
	"step": 77
	},
	{
	"epoch": 0.005432700679087585,
	"grad_norm": 0.5975192785263062,
	"learning_rate": 0.00019751364095427692,
	"loss": 1.4655,
	"step": 78
	},
	{
	"epoch": 0.005502350687793836,
	"grad_norm": 0.7023612260818481,
	"learning_rate": 0.0001974402909091988,
	"loss": 1.5098,
	"step": 79
	},
	{
	"epoch": 0.005572000696500087,
	"grad_norm": 0.6060627698898315,
	"learning_rate": 0.00019736588860634925,
	"loss": 1.4346,
	"step": 80
	},
	{
	"epoch": 0.005641650705206338,
	"grad_norm": 0.6663565039634705,
	"learning_rate": 0.00019729043484919883,
	"loss": 1.1718,
	"step": 81
	},
	{
	"epoch": 0.0057113007139125895,
	"grad_norm": 0.7931796908378601,
	"learning_rate": 0.00019721393045257277,
	"loss": 1.2598,
	"step": 82
	},
	{
	"epoch": 0.005780950722618841,
	"grad_norm": 0.8470779061317444,
	"learning_rate": 0.000197136376242642,
	"loss": 1.0741,
	"step": 83
	},
	{
	"epoch": 0.005850600731325092,
	"grad_norm": 0.6171009540557861,
	"learning_rate": 0.00019705777305691456,
	"loss": 1.4427,
	"step": 84
	},
	{
	"epoch": 0.005920250740031343,
	"grad_norm": 0.8087684512138367,
	"learning_rate": 0.00019697812174422632,
	"loss": 1.4372,
	"step": 85
	},
	{
	"epoch": 0.005989900748737594,
	"grad_norm": 0.6931564211845398,
	"learning_rate": 0.00019689742316473182,
	"loss": 1.1907,
	"step": 86
	},
	{
	"epoch": 0.006059550757443845,
	"grad_norm": 0.6536969542503357,
	"learning_rate": 0.00019681567818989506,
	"loss": 1.3734,
	"step": 87
	},
	{
	"epoch": 0.006129200766150096,
	"grad_norm": 0.6640751361846924,
	"learning_rate": 0.00019673288770248013,
	"loss": 1.4367,
	"step": 88
	},
	{
	"epoch": 0.006198850774856347,
	"grad_norm": 0.564035177230835,
	"learning_rate": 0.00019664905259654156,
	"loss": 1.4644,
	"step": 89
	},
	{
	"epoch": 0.006268500783562598,
	"grad_norm": 0.8123689889907837,
	"learning_rate": 0.0001965641737774147,
	"loss": 1.5373,
	"step": 90
	},
	{
	"epoch": 0.006338150792268849,
	"grad_norm": 0.7990655899047852,
	"learning_rate": 0.00019647825216170597,
	"loss": 1.4824,
	"step": 91
	},
	{
	"epoch": 0.0064078008009751004,
	"grad_norm": 0.7879489660263062,
	"learning_rate": 0.00019639128867728298,
	"loss": 1.3882,
	"step": 92
	},
	{
	"epoch": 0.0064774508096813515,
	"grad_norm": 0.7157430648803711,
	"learning_rate": 0.00019630328426326448,
	"loss": 1.5377,
	"step": 93
	},
	{
	"epoch": 0.006547100818387603,
	"grad_norm": 0.7268451452255249,
	"learning_rate": 0.00019621423987001014,
	"loss": 1.2801,
	"step": 94
	},
	{
	"epoch": 0.006616750827093854,
	"grad_norm": 0.8534408807754517,
	"learning_rate": 0.00019612415645911047,
	"loss": 1.2232,
	"step": 95
	},
	{
	"epoch": 0.006686400835800105,
	"grad_norm": 0.7566258907318115,
	"learning_rate": 0.00019603303500337628,
	"loss": 1.0665,
	"step": 96
	},
	{
	"epoch": 0.006756050844506356,
	"grad_norm": 0.764929473400116,
	"learning_rate": 0.00019594087648682824,
	"loss": 1.0974,
	"step": 97
	},
	{
	"epoch": 0.006825700853212607,
	"grad_norm": 0.8856674432754517,
	"learning_rate": 0.00019584768190468625,
	"loss": 1.2374,
	"step": 98
	},
	{
	"epoch": 0.006895350861918858,
	"grad_norm": 0.8611932396888733,
	"learning_rate": 0.0001957534522633586,
	"loss": 1.5207,
	"step": 99
	},
	{
	"epoch": 0.006965000870625109,
	"grad_norm": 0.7111679315567017,
	"learning_rate": 0.00019565818858043136,
	"loss": 1.3399,
	"step": 100
	},
	{
	"epoch": 0.006965000870625109,
	"eval_loss": 1.2061141729354858,
	"eval_runtime": 699.7303,
	"eval_samples_per_second": 7.146,
	"eval_steps_per_second": 1.786,
	"step": 100
	},
	{
	"epoch": 0.00703465087933136,
	"grad_norm": 0.7039173245429993,
	"learning_rate": 0.00019556189188465702,
	"loss": 1.4391,
	"step": 101
	},
	{
	"epoch": 0.007104300888037611,
	"grad_norm": 0.8350788354873657,
	"learning_rate": 0.00019546456321594376,
	"loss": 1.1431,
	"step": 102
	},
	{
	"epoch": 0.0071739508967438624,
	"grad_norm": 0.6535744667053223,
	"learning_rate": 0.0001953662036253438,
	"loss": 1.296,
	"step": 103
	},
	{
	"epoch": 0.0072436009054501135,
	"grad_norm": 0.7496301531791687,
	"learning_rate": 0.00019526681417504258,
	"loss": 1.311,
	"step": 104
	},
	{
	"epoch": 0.007313250914156365,
	"grad_norm": 0.7061691880226135,
	"learning_rate": 0.0001951663959383468,
	"loss": 1.3601,
	"step": 105
	},
	{
	"epoch": 0.007382900922862616,
	"grad_norm": 0.8221380114555359,
	"learning_rate": 0.00019506494999967298,
	"loss": 1.3149,
	"step": 106
	},
	{
	"epoch": 0.007452550931568867,
	"grad_norm": 0.9544386267662048,
	"learning_rate": 0.000194962477454536,
	"loss": 1.2967,
	"step": 107
	},
	{
	"epoch": 0.007522200940275118,
	"grad_norm": 0.8127594590187073,
	"learning_rate": 0.00019485897940953688,
	"loss": 1.4015,
	"step": 108
	},
	{
	"epoch": 0.007591850948981369,
	"grad_norm": 0.7376645803451538,
	"learning_rate": 0.0001947544569823511,
	"loss": 1.4958,
	"step": 109
	},
	{
	"epoch": 0.00766150095768762,
	"grad_norm": 0.6602767705917358,
	"learning_rate": 0.00019464891130171647,
	"loss": 1.3593,
	"step": 110
	},
	{
	"epoch": 0.007731150966393871,
	"grad_norm": 0.9318028092384338,
	"learning_rate": 0.0001945423435074208,
	"loss": 1.0125,
	"step": 111
	},
	{
	"epoch": 0.007800800975100122,
	"grad_norm": 0.7048940062522888,
	"learning_rate": 0.00019443475475028983,
	"loss": 1.4342,
	"step": 112
	},
	{
	"epoch": 0.007870450983806372,
	"grad_norm": 0.9778817892074585,
	"learning_rate": 0.00019432614619217459,
	"loss": 1.0368,
	"step": 113
	},
	{
	"epoch": 0.007940100992512624,
	"grad_norm": 0.808047890663147,
	"learning_rate": 0.000194216519005939,
	"loss": 1.105,
	"step": 114
	},
	{
	"epoch": 0.008009751001218875,
	"grad_norm": 0.7996501326560974,
	"learning_rate": 0.0001941058743754471,
	"loss": 1.1383,
	"step": 115
	},
	{
	"epoch": 0.008079401009925127,
	"grad_norm": 1.0752230882644653,
	"learning_rate": 0.00019399421349555035,
	"loss": 1.3508,
	"step": 116
	},
	{
	"epoch": 0.008149051018631377,
	"grad_norm": 0.7151166200637817,
	"learning_rate": 0.00019388153757207471,
	"loss": 1.4086,
	"step": 117
	},
	{
	"epoch": 0.008218701027337629,
	"grad_norm": 0.7622511386871338,
	"learning_rate": 0.00019376784782180746,
	"loss": 1.1942,
	"step": 118
	},
	{
	"epoch": 0.008288351036043879,
	"grad_norm": 0.6896407008171082,
	"learning_rate": 0.0001936531454724844,
	"loss": 1.2571,
	"step": 119
	},
	{
	"epoch": 0.008358001044750131,
	"grad_norm": 0.7991106510162354,
	"learning_rate": 0.00019353743176277622,
	"loss": 1.2531,
	"step": 120
	},
	{
	"epoch": 0.008427651053456381,
	"grad_norm": 0.8540248870849609,
	"learning_rate": 0.00019342070794227536,
	"loss": 1.223,
	"step": 121
	},
	{
	"epoch": 0.008497301062162633,
	"grad_norm": 0.8329891562461853,
	"learning_rate": 0.00019330297527148246,
	"loss": 0.9099,
	"step": 122
	},
	{
	"epoch": 0.008566951070868883,
	"grad_norm": 0.7838830351829529,
	"learning_rate": 0.00019318423502179272,
	"loss": 1.3098,
	"step": 123
	},
	{
	"epoch": 0.008636601079575135,
	"grad_norm": 0.7665576338768005,
	"learning_rate": 0.00019306448847548216,
	"loss": 1.3633,
	"step": 124
	},
	{
	"epoch": 0.008706251088281386,
	"grad_norm": 0.7157841324806213,
	"learning_rate": 0.00019294373692569383,
	"loss": 0.9222,
	"step": 125
	},
	{
	"epoch": 0.008775901096987638,
	"grad_norm": 0.944957971572876,
	"learning_rate": 0.0001928219816764238,
	"loss": 1.0901,
	"step": 126
	},
	{
	"epoch": 0.008845551105693888,
	"grad_norm": 0.636736273765564,
	"learning_rate": 0.0001926992240425071,
	"loss": 1.3484,
	"step": 127
	},
	{
	"epoch": 0.00891520111440014,
	"grad_norm": 0.6209918260574341,
	"learning_rate": 0.0001925754653496035,
	"loss": 1.3551,
	"step": 128
	},
	{
	"epoch": 0.00898485112310639,
	"grad_norm": 0.7056594491004944,
	"learning_rate": 0.00019245070693418322,
	"loss": 1.4229,
	"step": 129
	},
	{
	"epoch": 0.009054501131812642,
	"grad_norm": 0.7279839515686035,
	"learning_rate": 0.00019232495014351246,
	"loss": 1.0699,
	"step": 130
	},
	{
	"epoch": 0.009124151140518892,
	"grad_norm": 0.6324151754379272,
	"learning_rate": 0.00019219819633563891,
	"loss": 1.3833,
	"step": 131
	},
	{
	"epoch": 0.009193801149225144,
	"grad_norm": 0.7449592351913452,
	"learning_rate": 0.00019207044687937703,
	"loss": 1.2067,
	"step": 132
	},
	{
	"epoch": 0.009263451157931394,
	"grad_norm": 0.939274787902832,
	"learning_rate": 0.0001919417031542933,
	"loss": 1.3229,
	"step": 133
	},
	{
	"epoch": 0.009333101166637646,
	"grad_norm": 0.8192336559295654,
	"learning_rate": 0.00019181196655069127,
	"loss": 1.1575,
	"step": 134
	},
	{
	"epoch": 0.009402751175343897,
	"grad_norm": 0.7507984638214111,
	"learning_rate": 0.00019168123846959666,
	"loss": 1.0461,
	"step": 135
	},
	{
	"epoch": 0.009472401184050148,
	"grad_norm": 0.6593666672706604,
	"learning_rate": 0.00019154952032274206,
	"loss": 1.3806,
	"step": 136
	},
	{
	"epoch": 0.009542051192756399,
	"grad_norm": 0.6475424766540527,
	"learning_rate": 0.00019141681353255184,
	"loss": 0.9218,
	"step": 137
	},
	{
	"epoch": 0.00961170120146265,
	"grad_norm": 0.7746126651763916,
	"learning_rate": 0.00019128311953212678,
	"loss": 0.8967,
	"step": 138
	},
	{
	"epoch": 0.009681351210168901,
	"grad_norm": 0.7104780673980713,
	"learning_rate": 0.00019114843976522842,
	"loss": 1.1855,
	"step": 139
	},
	{
	"epoch": 0.009751001218875153,
	"grad_norm": 0.597457230091095,
	"learning_rate": 0.00019101277568626374,
	"loss": 1.0809,
	"step": 140
	},
	{
	"epoch": 0.009820651227581403,
	"grad_norm": 0.8071316480636597,
	"learning_rate": 0.00019087612876026908,
	"loss": 1.0129,
	"step": 141
	},
	{
	"epoch": 0.009890301236287655,
	"grad_norm": 0.8741605877876282,
	"learning_rate": 0.00019073850046289484,
	"loss": 0.8784,
	"step": 142
	},
	{
	"epoch": 0.009959951244993905,
	"grad_norm": 0.7503401637077332,
	"learning_rate": 0.00019059989228038902,
	"loss": 1.1498,
	"step": 143
	},
	{
	"epoch": 0.010029601253700157,
	"grad_norm": 0.7068141102790833,
	"learning_rate": 0.0001904603057095815,
	"loss": 1.2644,
	"step": 144
	},
	{
	"epoch": 0.010099251262406407,
	"grad_norm": 0.7954654097557068,
	"learning_rate": 0.0001903197422578678,
	"loss": 1.1108,
	"step": 145
	},
	{
	"epoch": 0.01016890127111266,
	"grad_norm": 0.7548302412033081,
	"learning_rate": 0.0001901782034431927,
	"loss": 0.9177,
	"step": 146
	},
	{
	"epoch": 0.01023855127981891,
	"grad_norm": 0.7617766261100769,
	"learning_rate": 0.00019003569079403395,
	"loss": 1.256,
	"step": 147
	},
	{
	"epoch": 0.010308201288525162,
	"grad_norm": 0.7205716967582703,
	"learning_rate": 0.00018989220584938573,
	"loss": 1.3767,
	"step": 148
	},
	{
	"epoch": 0.010377851297231412,
	"grad_norm": 0.6221201419830322,
	"learning_rate": 0.00018974775015874213,
	"loss": 1.3329,
	"step": 149
	},
	{
	"epoch": 0.010447501305937664,
	"grad_norm": 0.565428614616394,
	"learning_rate": 0.00018960232528208022,
	"loss": 1.1155,
	"step": 150
	},
	{
	"epoch": 0.010517151314643914,
	"grad_norm": 0.7672913074493408,
	"learning_rate": 0.00018945593278984333,
	"loss": 0.9654,
	"step": 151
	},
	{
	"epoch": 0.010586801323350166,
	"grad_norm": 0.737074077129364,
	"learning_rate": 0.00018930857426292412,
	"loss": 1.0644,
	"step": 152
	},
	{
	"epoch": 0.010656451332056416,
	"grad_norm": 0.6545393466949463,
	"learning_rate": 0.0001891602512926474,
	"loss": 1.2058,
	"step": 153
	},
	{
	"epoch": 0.010726101340762668,
	"grad_norm": 0.8019453287124634,
	"learning_rate": 0.00018901096548075305,
	"loss": 1.3134,
	"step": 154
	},
	{
	"epoch": 0.010795751349468918,
	"grad_norm": 0.8307440876960754,
	"learning_rate": 0.00018886071843937866,
	"loss": 1.152,
	"step": 155
	},
	{
	"epoch": 0.01086540135817517,
	"grad_norm": 0.8050329089164734,
	"learning_rate": 0.00018870951179104212,
	"loss": 0.9473,
	"step": 156
	},
	{
	"epoch": 0.01093505136688142,
	"grad_norm": 0.7510560154914856,
	"learning_rate": 0.00018855734716862417,
	"loss": 1.2265,
	"step": 157
	},
	{
	"epoch": 0.011004701375587672,
	"grad_norm": 0.7653977274894714,
	"learning_rate": 0.00018840422621535066,
	"loss": 1.3356,
	"step": 158
	},
	{
	"epoch": 0.011074351384293923,
	"grad_norm": 0.7661434412002563,
	"learning_rate": 0.00018825015058477481,
	"loss": 0.9601,
	"step": 159
	},
	{
	"epoch": 0.011144001393000175,
	"grad_norm": 0.7829368114471436,
	"learning_rate": 0.00018809512194075957,
	"loss": 1.0675,
	"step": 160
	},
	{
	"epoch": 0.011213651401706425,
	"grad_norm": 0.6673858761787415,
	"learning_rate": 0.00018793914195745933,
	"loss": 1.4312,
	"step": 161
	},
	{
	"epoch": 0.011283301410412677,
	"grad_norm": 0.8060672879219055,
	"learning_rate": 0.00018778221231930203,
	"loss": 1.0241,
	"step": 162
	},
	{
	"epoch": 0.011352951419118927,
	"grad_norm": 1.0137969255447388,
	"learning_rate": 0.00018762433472097097,
	"loss": 1.1867,
	"step": 163
	},
	{
	"epoch": 0.011422601427825179,
	"grad_norm": 0.9313655495643616,
	"learning_rate": 0.0001874655108673864,
	"loss": 1.3046,
	"step": 164
	},
	{
	"epoch": 0.01149225143653143,
	"grad_norm": 0.9493317008018494,
	"learning_rate": 0.00018730574247368732,
	"loss": 1.1123,
	"step": 165
	},
	{
	"epoch": 0.011561901445237681,
	"grad_norm": 0.8069944977760315,
	"learning_rate": 0.0001871450312652126,
	"loss": 1.0592,
	"step": 166
	},
	{
	"epoch": 0.011631551453943931,
	"grad_norm": 0.6559287905693054,
	"learning_rate": 0.00018698337897748283,
	"loss": 1.2388,
	"step": 167
	},
	{
	"epoch": 0.011701201462650183,
	"grad_norm": 0.650059700012207,
	"learning_rate": 0.0001868207873561811,
	"loss": 0.9891,
	"step": 168
	},
	{
	"epoch": 0.011770851471356434,
	"grad_norm": 0.6247674822807312,
	"learning_rate": 0.00018665725815713443,
	"loss": 1.2925,
	"step": 169
	},
	{
	"epoch": 0.011840501480062686,
	"grad_norm": 0.7453685402870178,
	"learning_rate": 0.00018649279314629483,
	"loss": 1.06,
	"step": 170
	},
	{
	"epoch": 0.011910151488768936,
	"grad_norm": 0.826835572719574,
	"learning_rate": 0.00018632739409972003,
	"loss": 0.9637,
	"step": 171
	},
	{
	"epoch": 0.011979801497475188,
	"grad_norm": 0.7538785338401794,
	"learning_rate": 0.00018616106280355444,
	"loss": 1.0126,
	"step": 172
	},
	{
	"epoch": 0.012049451506181438,
	"grad_norm": 0.8348299264907837,
	"learning_rate": 0.00018599380105400982,
	"loss": 0.988,
	"step": 173
	},
	{
	"epoch": 0.01211910151488769,
	"grad_norm": 0.8298357725143433,
	"learning_rate": 0.00018582561065734604,
	"loss": 1.0608,
	"step": 174
	},
	{
	"epoch": 0.01218875152359394,
	"grad_norm": 0.6961440443992615,
	"learning_rate": 0.00018565649342985118,
	"loss": 1.1564,
	"step": 175
	},
	{
	"epoch": 0.012258401532300192,
	"grad_norm": 0.664256751537323,
	"learning_rate": 0.00018548645119782238,
	"loss": 1.1865,
	"step": 176
	},
	{
	"epoch": 0.012328051541006442,
	"grad_norm": 0.7857444882392883,
	"learning_rate": 0.0001853154857975458,
	"loss": 0.9903,
	"step": 177
	},
	{
	"epoch": 0.012397701549712694,
	"grad_norm": 0.758602499961853,
	"learning_rate": 0.0001851435990752769,
	"loss": 1.3456,
	"step": 178
	},
	{
	"epoch": 0.012467351558418945,
	"grad_norm": 0.768666684627533,
	"learning_rate": 0.0001849707928872206,
	"loss": 0.9773,
	"step": 179
	},
	{
	"epoch": 0.012537001567125197,
	"grad_norm": 0.8674852848052979,
	"learning_rate": 0.00018479706909951094,
	"loss": 1.0203,
	"step": 180
	},
	{
	"epoch": 0.012606651575831447,
	"grad_norm": 0.6384921669960022,
	"learning_rate": 0.0001846224295881913,
	"loss": 1.1004,
	"step": 181
	},
	{
	"epoch": 0.012676301584537699,
	"grad_norm": 0.6848528981208801,
	"learning_rate": 0.00018444687623919386,
	"loss": 1.0699,
	"step": 182
	},
	{
	"epoch": 0.012745951593243949,
	"grad_norm": 0.6943731307983398,
	"learning_rate": 0.00018427041094831937,
	"loss": 1.1812,
	"step": 183
	},
	{
	"epoch": 0.012815601601950201,
	"grad_norm": 1.0284762382507324,
	"learning_rate": 0.00018409303562121662,
	"loss": 1.1307,
	"step": 184
	},
	{
	"epoch": 0.012885251610656451,
	"grad_norm": 0.7977420091629028,
	"learning_rate": 0.00018391475217336193,
	"loss": 1.0772,
	"step": 185
	},
	{
	"epoch": 0.012954901619362703,
	"grad_norm": 0.678799569606781,
	"learning_rate": 0.0001837355625300383,
	"loss": 1.1816,
	"step": 186
	},
	{
	"epoch": 0.013024551628068953,
	"grad_norm": 0.7933035492897034,
	"learning_rate": 0.00018355546862631493,
	"loss": 1.2014,
	"step": 187
	},
	{
	"epoch": 0.013094201636775205,
	"grad_norm": 0.7373278737068176,
	"learning_rate": 0.00018337447240702594,
	"loss": 0.9163,
	"step": 188
	},
	{
	"epoch": 0.013163851645481455,
	"grad_norm": 0.7306934595108032,
	"learning_rate": 0.00018319257582674964,
	"loss": 0.8467,
	"step": 189
	},
	{
	"epoch": 0.013233501654187707,
	"grad_norm": 0.6722437739372253,
	"learning_rate": 0.00018300978084978735,
	"loss": 1.1145,
	"step": 190
	},
	{
	"epoch": 0.013303151662893958,
	"grad_norm": 0.8375574350357056,
	"learning_rate": 0.00018282608945014217,
	"loss": 0.8763,
	"step": 191
	},
	{
	"epoch": 0.01337280167160021,
	"grad_norm": 0.6876571774482727,
	"learning_rate": 0.0001826415036114976,
	"loss": 1.3694,
	"step": 192
	},
	{
	"epoch": 0.01344245168030646,
	"grad_norm": 0.5936222076416016,
	"learning_rate": 0.0001824560253271963,
	"loss": 1.4071,
	"step": 193
	},
	{
	"epoch": 0.013512101689012712,
	"grad_norm": 0.6679614782333374,
	"learning_rate": 0.00018226965660021836,
	"loss": 0.8098,
	"step": 194
	},
	{
	"epoch": 0.013581751697718962,
	"grad_norm": 0.8226193189620972,
	"learning_rate": 0.00018208239944315978,
	"loss": 0.6594,
	"step": 195
	},
	{
	"epoch": 0.013651401706425214,
	"grad_norm": 0.8376763463020325,
	"learning_rate": 0.0001818942558782108,
	"loss": 1.0417,
	"step": 196
	},
	{
	"epoch": 0.013721051715131464,
	"grad_norm": 0.773747444152832,
	"learning_rate": 0.00018170522793713387,
	"loss": 0.7496,
	"step": 197
	},
	{
	"epoch": 0.013790701723837716,
	"grad_norm": 0.8213014006614685,
	"learning_rate": 0.00018151531766124186,
	"loss": 0.842,
	"step": 198
	},
	{
	"epoch": 0.013860351732543966,
	"grad_norm": 0.6993326544761658,
	"learning_rate": 0.000181324527101376,
	"loss": 1.1651,
	"step": 199
	},
	{
	"epoch": 0.013930001741250218,
	"grad_norm": 0.550957977771759,
	"learning_rate": 0.00018113285831788365,
	"loss": 1.2762,
	"step": 200
	},
	{
	"epoch": 0.013930001741250218,
	"eval_loss": 0.993212103843689,
	"eval_runtime": 699.7494,
	"eval_samples_per_second": 7.145,
	"eval_steps_per_second": 1.786,
	"step": 200
	},
	{
	"epoch": 0.013999651749956469,
	"grad_norm": 0.6803005933761597,
	"learning_rate": 0.00018094031338059617,
	"loss": 1.2403,
	"step": 201
	},
	{
	"epoch": 0.01406930175866272,
	"grad_norm": 0.6137078404426575,
	"learning_rate": 0.00018074689436880644,
	"loss": 0.9294,
	"step": 202
	},
	{
	"epoch": 0.01413895176736897,
	"grad_norm": 0.6511885523796082,
	"learning_rate": 0.00018055260337124652,
	"loss": 1.2509,
	"step": 203
	},
	{
	"epoch": 0.014208601776075223,
	"grad_norm": 0.6647017598152161,
	"learning_rate": 0.0001803574424860651,
	"loss": 1.1067,
	"step": 204
	},
	{
	"epoch": 0.014278251784781473,
	"grad_norm": 0.7390187382698059,
	"learning_rate": 0.0001801614138208046,
	"loss": 1.0816,
	"step": 205
	},
	{
	"epoch": 0.014347901793487725,
	"grad_norm": 0.7152518033981323,
	"learning_rate": 0.0001799645194923788,
	"loss": 0.9844,
	"step": 206
	},
	{
	"epoch": 0.014417551802193975,
	"grad_norm": 0.8229650855064392,
	"learning_rate": 0.00017976676162704966,
	"loss": 1.1316,
	"step": 207
	},
	{
	"epoch": 0.014487201810900227,
	"grad_norm": 0.7085878252983093,
	"learning_rate": 0.0001795681423604045,
	"loss": 0.9282,
	"step": 208
	},
	{
	"epoch": 0.014556851819606477,
	"grad_norm": 0.8368147015571594,
	"learning_rate": 0.00017936866383733298,
	"loss": 0.8718,
	"step": 209
	},
	{
	"epoch": 0.01462650182831273,
	"grad_norm": 0.7303407192230225,
	"learning_rate": 0.00017916832821200375,
	"loss": 0.8913,
	"step": 210
	},
	{
	"epoch": 0.01469615183701898,
	"grad_norm": 0.6697463989257812,
	"learning_rate": 0.00017896713764784143,
	"loss": 1.0783,
	"step": 211
	},
	{
	"epoch": 0.014765801845725231,
	"grad_norm": 0.5616613030433655,
	"learning_rate": 0.000178765094317503,
	"loss": 1.2869,
	"step": 212
	},
	{
	"epoch": 0.014835451854431482,
	"grad_norm": 0.5711467266082764,
	"learning_rate": 0.00017856220040285458,
	"loss": 1.0144,
	"step": 213
	},
	{
	"epoch": 0.014905101863137734,
	"grad_norm": 0.7759966850280762,
	"learning_rate": 0.00017835845809494768,
	"loss": 1.117,
	"step": 214
	},
	{
	"epoch": 0.014974751871843984,
	"grad_norm": 0.5759698152542114,
	"learning_rate": 0.00017815386959399565,
	"loss": 1.1662,
	"step": 215
	},
	{
	"epoch": 0.015044401880550236,
	"grad_norm": 0.6275411248207092,
	"learning_rate": 0.0001779484371093498,
	"loss": 1.2339,
	"step": 216
	},
	{
	"epoch": 0.015114051889256486,
	"grad_norm": 0.803784191608429,
	"learning_rate": 0.00017774216285947576,
	"loss": 0.8127,
	"step": 217
	},
	{
	"epoch": 0.015183701897962738,
	"grad_norm": 0.7878329157829285,
	"learning_rate": 0.00017753504907192923,
	"loss": 0.7944,
	"step": 218
	},
	{
	"epoch": 0.015253351906668988,
	"grad_norm": 0.753667950630188,
	"learning_rate": 0.00017732709798333221,
	"loss": 1.2632,
	"step": 219
	},
	{
	"epoch": 0.01532300191537524,
	"grad_norm": 0.6178960204124451,
	"learning_rate": 0.0001771183118393486,
	"loss": 0.9552,
	"step": 220
	},
	{
	"epoch": 0.01539265192408149,
	"grad_norm": 0.6457561254501343,
	"learning_rate": 0.00017690869289466017,
	"loss": 0.9573,
	"step": 221
	},
	{
	"epoch": 0.015462301932787742,
	"grad_norm": 0.7319156527519226,
	"learning_rate": 0.00017669824341294202,
	"loss": 0.8473,
	"step": 222
	},
	{
	"epoch": 0.015531951941493993,
	"grad_norm": 0.6461290717124939,
	"learning_rate": 0.00017648696566683824,
	"loss": 1.0797,
	"step": 223
	},
	{
	"epoch": 0.015601601950200245,
	"grad_norm": 0.7656479477882385,
	"learning_rate": 0.00017627486193793742,
	"loss": 0.9595,
	"step": 224
	},
	{
	"epoch": 0.015671251958906496,
	"grad_norm": 0.7314528226852417,
	"learning_rate": 0.00017606193451674785,
	"loss": 1.1522,
	"step": 225
	},
	{
	"epoch": 0.015740901967612745,
	"grad_norm": 0.5844183564186096,
	"learning_rate": 0.00017584818570267284,
	"loss": 0.6874,
	"step": 226
	},
	{
	"epoch": 0.015810551976318997,
	"grad_norm": 0.756650447845459,
	"learning_rate": 0.00017563361780398613,
	"loss": 1.1152,
	"step": 227
	},
	{
	"epoch": 0.01588020198502525,
	"grad_norm": 0.7920497059822083,
	"learning_rate": 0.00017541823313780647,
	"loss": 0.7904,
	"step": 228
	},
	{
	"epoch": 0.0159498519937315,
	"grad_norm": 0.7280418872833252,
	"learning_rate": 0.00017520203403007312,
	"loss": 0.9489,
	"step": 229
	},
	{
	"epoch": 0.01601950200243775,
	"grad_norm": 0.6644127368927002,
	"learning_rate": 0.0001749850228155203,
	"loss": 1.0123,
	"step": 230
	},
	{
	"epoch": 0.016089152011144,
	"grad_norm": 0.6218852996826172,
	"learning_rate": 0.0001747672018376524,
	"loss": 1.1297,
	"step": 231
	},
	{
	"epoch": 0.016158802019850253,
	"grad_norm": 0.7259179949760437,
	"learning_rate": 0.00017454857344871824,
	"loss": 1.2077,
	"step": 232
	},
	{
	"epoch": 0.016228452028556505,
	"grad_norm": 0.6896301507949829,
	"learning_rate": 0.00017432914000968592,
	"loss": 1.4735,
	"step": 233
	},
	{
	"epoch": 0.016298102037262754,
	"grad_norm": 0.6918095350265503,
	"learning_rate": 0.00017410890389021736,
	"loss": 1.1311,
	"step": 234
	},
	{
	"epoch": 0.016367752045969006,
	"grad_norm": 0.7965865731239319,
	"learning_rate": 0.00017388786746864256,
	"loss": 1.2436,
	"step": 235
	},
	{
	"epoch": 0.016437402054675258,
	"grad_norm": 0.7081993222236633,
	"learning_rate": 0.000173666033131934,
	"loss": 1.0674,
	"step": 236
	},
	{
	"epoch": 0.01650705206338151,
	"grad_norm": 0.6959885358810425,
	"learning_rate": 0.00017344340327568082,
	"loss": 1.1808,
	"step": 237
	},
	{
	"epoch": 0.016576702072087758,
	"grad_norm": 0.6657646298408508,
	"learning_rate": 0.000173219980304063,
	"loss": 0.9132,
	"step": 238
	},
	{
	"epoch": 0.01664635208079401,
	"grad_norm": 0.5461063385009766,
	"learning_rate": 0.0001729957666298254,
	"loss": 1.2554,
	"step": 239
	},
	{
	"epoch": 0.016716002089500262,
	"grad_norm": 0.5713803768157959,
	"learning_rate": 0.0001727707646742516,
	"loss": 1.236,
	"step": 240
	},
	{
	"epoch": 0.016785652098206514,
	"grad_norm": 0.6570878624916077,
	"learning_rate": 0.00017254497686713797,
	"loss": 1.1216,
	"step": 241
	},
	{
	"epoch": 0.016855302106912762,
	"grad_norm": 0.7191223502159119,
	"learning_rate": 0.0001723184056467671,
	"loss": 1.2225,
	"step": 242
	},
	{
	"epoch": 0.016924952115619014,
	"grad_norm": 0.6774346232414246,
	"learning_rate": 0.0001720910534598818,
	"loss": 1.4341,
	"step": 243
	},
	{
	"epoch": 0.016994602124325266,
	"grad_norm": 0.7842647433280945,
	"learning_rate": 0.0001718629227616585,
	"loss": 1.2086,
	"step": 244
	},
	{
	"epoch": 0.01706425213303152,
	"grad_norm": 0.6781778931617737,
	"learning_rate": 0.00017163401601568077,
	"loss": 0.9324,
	"step": 245
	},
	{
	"epoch": 0.017133902141737767,
	"grad_norm": 0.7419726252555847,
	"learning_rate": 0.00017140433569391275,
	"loss": 0.8826,
	"step": 246
	},
	{
	"epoch": 0.01720355215044402,
	"grad_norm": 0.6957391500473022,
	"learning_rate": 0.00017117388427667236,
	"loss": 0.5565,
	"step": 247
	},
	{
	"epoch": 0.01727320215915027,
	"grad_norm": 0.6904794573783875,
	"learning_rate": 0.0001709426642526046,
	"loss": 1.0979,
	"step": 248
	},
	{
	"epoch": 0.017342852167856523,
	"grad_norm": 0.7743323445320129,
	"learning_rate": 0.00017071067811865476,
	"loss": 0.6322,
	"step": 249
	},
	{
	"epoch": 0.01741250217656277,
	"grad_norm": 0.6866056323051453,
	"learning_rate": 0.0001704779283800412,
	"loss": 0.9873,
	"step": 250
	},
	{
	"epoch": 0.017482152185269023,
	"grad_norm": 0.5904546976089478,
	"learning_rate": 0.00017024441755022856,
	"loss": 1.0898,
	"step": 251
	},
	{
	"epoch": 0.017551802193975275,
	"grad_norm": 0.6349841952323914,
	"learning_rate": 0.00017001014815090038,
	"loss": 1.0947,
	"step": 252
	},
	{
	"epoch": 0.017621452202681527,
	"grad_norm": 0.6754809617996216,
	"learning_rate": 0.0001697751227119322,
	"loss": 0.9881,
	"step": 253
	},
	{
	"epoch": 0.017691102211387776,
	"grad_norm": 0.6565687656402588,
	"learning_rate": 0.00016953934377136377,
	"loss": 1.0908,
	"step": 254
	},
	{
	"epoch": 0.017760752220094028,
	"grad_norm": 0.5469555854797363,
	"learning_rate": 0.0001693028138753721,
	"loss": 0.8385,
	"step": 255
	},
	{
	"epoch": 0.01783040222880028,
	"grad_norm": 0.6178275942802429,
	"learning_rate": 0.0001690655355782437,
	"loss": 0.9317,
	"step": 256
	},
	{
	"epoch": 0.017900052237506528,
	"grad_norm": 0.8108107447624207,
	"learning_rate": 0.0001688275114423471,
	"loss": 0.8016,
	"step": 257
	},
	{
	"epoch": 0.01796970224621278,
	"grad_norm": 0.6483268141746521,
	"learning_rate": 0.00016858874403810509,
	"loss": 1.0697,
	"step": 258
	},
	{
	"epoch": 0.018039352254919032,
	"grad_norm": 0.7654364109039307,
	"learning_rate": 0.00016834923594396698,
	"loss": 1.1524,
	"step": 259
	},
	{
	"epoch": 0.018109002263625284,
	"grad_norm": 0.6824004650115967,
	"learning_rate": 0.00016810898974638097,
	"loss": 1.31,
	"step": 260
	},
	{
	"epoch": 0.018178652272331532,
	"grad_norm": 0.6116809248924255,
	"learning_rate": 0.00016786800803976585,
	"loss": 1.0788,
	"step": 261
	},
	{
	"epoch": 0.018248302281037784,
	"grad_norm": 0.7678197026252747,
	"learning_rate": 0.00016762629342648318,
	"loss": 0.7855,
	"step": 262
	},
	{
	"epoch": 0.018317952289744036,
	"grad_norm": 0.6764957904815674,
	"learning_rate": 0.00016738384851680937,
	"loss": 0.9709,
	"step": 263
	},
	{
	"epoch": 0.018387602298450288,
	"grad_norm": 0.6751796007156372,
	"learning_rate": 0.0001671406759289071,
	"loss": 1.2517,
	"step": 264
	},
	{
	"epoch": 0.018457252307156537,
	"grad_norm": 0.7578874230384827,
	"learning_rate": 0.00016689677828879738,
	"loss": 1.0033,
	"step": 265
	},
	{
	"epoch": 0.01852690231586279,
	"grad_norm": 0.5653178095817566,
	"learning_rate": 0.0001666521582303309,
	"loss": 1.1913,
	"step": 266
	},
	{
	"epoch": 0.01859655232456904,
	"grad_norm": 0.7313902974128723,
	"learning_rate": 0.00016640681839515993,
	"loss": 1.0418,
	"step": 267
	},
	{
	"epoch": 0.018666202333275293,
	"grad_norm": 0.5821707248687744,
	"learning_rate": 0.0001661607614327095,
	"loss": 0.886,
	"step": 268
	},
	{
	"epoch": 0.01873585234198154,
	"grad_norm": 0.6478776335716248,
	"learning_rate": 0.0001659139900001489,
	"loss": 1.2479,
	"step": 269
	},
	{
	"epoch": 0.018805502350687793,
	"grad_norm": 0.6471793055534363,
	"learning_rate": 0.00016566650676236305,
	"loss": 0.9999,
	"step": 270
	},
	{
	"epoch": 0.018875152359394045,
	"grad_norm": 0.6918301582336426,
	"learning_rate": 0.0001654183143919236,
	"loss": 0.8315,
	"step": 271
	},
	{
	"epoch": 0.018944802368100297,
	"grad_norm": 0.62820965051651,
	"learning_rate": 0.0001651694155690601,
	"loss": 1.0534,
	"step": 272
	},
	{
	"epoch": 0.019014452376806545,
	"grad_norm": 0.5358027219772339,
	"learning_rate": 0.00016491981298163118,
	"loss": 1.1642,
	"step": 273
	},
	{
	"epoch": 0.019084102385512797,
	"grad_norm": 0.6293304562568665,
	"learning_rate": 0.0001646695093250953,
	"loss": 0.8443,
	"step": 274
	},
	{
	"epoch": 0.01915375239421905,
	"grad_norm": 0.6544604301452637,
	"learning_rate": 0.00016441850730248184,
	"loss": 0.7902,
	"step": 275
	},
	{
	"epoch": 0.0192234024029253,
	"grad_norm": 0.723544716835022,
	"learning_rate": 0.0001641668096243619,
	"loss": 0.7972,
	"step": 276
	},
	{
	"epoch": 0.01929305241163155,
	"grad_norm": 0.6971920728683472,
	"learning_rate": 0.00016391441900881875,
	"loss": 1.0068,
	"step": 277
	},
	{
	"epoch": 0.019362702420337802,
	"grad_norm": 0.6442938446998596,
	"learning_rate": 0.00016366133818141893,
	"loss": 0.9171,
	"step": 278
	},
	{
	"epoch": 0.019432352429044054,
	"grad_norm": 0.5508981347084045,
	"learning_rate": 0.00016340756987518243,
	"loss": 1.2581,
	"step": 279
	},
	{
	"epoch": 0.019502002437750306,
	"grad_norm": 0.6451659798622131,
	"learning_rate": 0.0001631531168305534,
	"loss": 0.692,
	"step": 280
	},
	{
	"epoch": 0.019571652446456554,
	"grad_norm": 0.719409704208374,
	"learning_rate": 0.00016289798179537046,
	"loss": 1.0723,
	"step": 281
	},
	{
	"epoch": 0.019641302455162806,
	"grad_norm": 0.6584640145301819,
	"learning_rate": 0.00016264216752483697,
	"loss": 1.0083,
	"step": 282
	},
	{
	"epoch": 0.019710952463869058,
	"grad_norm": 0.6936922669410706,
	"learning_rate": 0.00016238567678149147,
	"loss": 1.1018,
	"step": 283
	},
	{
	"epoch": 0.01978060247257531,
	"grad_norm": 0.8725325465202332,
	"learning_rate": 0.00016212851233517772,
	"loss": 1.0276,
	"step": 284
	},
	{
	"epoch": 0.01985025248128156,
	"grad_norm": 0.6702690720558167,
	"learning_rate": 0.0001618706769630147,
	"loss": 1.0521,
	"step": 285
	},
	{
	"epoch": 0.01991990248998781,
	"grad_norm": 0.604901909828186,
	"learning_rate": 0.0001616121734493668,
	"loss": 0.8782,
	"step": 286
	},
	{
	"epoch": 0.019989552498694062,
	"grad_norm": 0.5754973292350769,
	"learning_rate": 0.00016135300458581365,
	"loss": 1.1281,
	"step": 287
	},
	{
	"epoch": 0.020059202507400314,
	"grad_norm": 0.6314234137535095,
	"learning_rate": 0.00016109317317111995,
	"loss": 0.8964,
	"step": 288
	},
	{
	"epoch": 0.020128852516106563,
	"grad_norm": 0.5530171990394592,
	"learning_rate": 0.0001608326820112054,
	"loss": 1.278,
	"step": 289
	},
	{
	"epoch": 0.020198502524812815,
	"grad_norm": 0.7363768219947815,
	"learning_rate": 0.00016057153391911422,
	"loss": 1.0563,
	"step": 290
	},
	{
	"epoch": 0.020268152533519067,
	"grad_norm": 0.634734570980072,
	"learning_rate": 0.00016030973171498477,
	"loss": 0.9834,
	"step": 291
	},
	{
	"epoch": 0.02033780254222532,
	"grad_norm": 0.5349484086036682,
	"learning_rate": 0.00016004727822601934,
	"loss": 1.1927,
	"step": 292
	},
	{
	"epoch": 0.020407452550931567,
	"grad_norm": 0.6138120889663696,
	"learning_rate": 0.00015978417628645326,
	"loss": 0.8267,
	"step": 293
	},
	{
	"epoch": 0.02047710255963782,
	"grad_norm": 0.5792511701583862,
	"learning_rate": 0.0001595204287375246,
	"loss": 1.317,
	"step": 294
	},
	{
	"epoch": 0.02054675256834407,
	"grad_norm": 0.648102879524231,
	"learning_rate": 0.00015925603842744334,
	"loss": 0.7643,
	"step": 295
	},
	{
	"epoch": 0.020616402577050323,
	"grad_norm": 0.6310989856719971,
	"learning_rate": 0.00015899100821136064,
	"loss": 0.8994,
	"step": 296
	},
	{
	"epoch": 0.02068605258575657,
	"grad_norm": 0.6773801445960999,
	"learning_rate": 0.00015872534095133793,
	"loss": 0.961,
	"step": 297
	},
	{
	"epoch": 0.020755702594462824,
	"grad_norm": 0.6812910437583923,
	"learning_rate": 0.00015845903951631623,
	"loss": 0.8269,
	"step": 298
	},
	{
	"epoch": 0.020825352603169076,
	"grad_norm": 0.7168356776237488,
	"learning_rate": 0.00015819210678208484,
	"loss": 1.2156,
	"step": 299
	},
	{
	"epoch": 0.020895002611875328,
	"grad_norm": 0.6270495653152466,
	"learning_rate": 0.0001579245456312506,
	"loss": 1.029,
	"step": 300
	},
	{
	"epoch": 0.020895002611875328,
	"eval_loss": 0.9014175534248352,
	"eval_runtime": 700.0853,
	"eval_samples_per_second": 7.142,
	"eval_steps_per_second": 1.785,
	"step": 300
	},
	{
	"epoch": 0.020964652620581576,
	"grad_norm": 0.6509414315223694,
	"learning_rate": 0.00015765635895320656,
	"loss": 1.1077,
	"step": 301
	},
	{
	"epoch": 0.021034302629287828,
	"grad_norm": 0.7492027282714844,
	"learning_rate": 0.00015738754964410084,
	"loss": 0.5395,
	"step": 302
	},
	{
	"epoch": 0.02110395263799408,
	"grad_norm": 0.601356029510498,
	"learning_rate": 0.00015711812060680534,
	"loss": 1.0082,
	"step": 303
	},
	{
	"epoch": 0.021173602646700332,
	"grad_norm": 0.7457994818687439,
	"learning_rate": 0.00015684807475088453,
	"loss": 1.318,
	"step": 304
	},
	{
	"epoch": 0.02124325265540658,
	"grad_norm": 0.7976076602935791,
	"learning_rate": 0.00015657741499256367,
	"loss": 0.7,
	"step": 305
	},
	{
	"epoch": 0.021312902664112832,
	"grad_norm": 0.7381129264831543,
	"learning_rate": 0.00015630614425469775,
	"loss": 0.9987,
	"step": 306
	},
	{
	"epoch": 0.021382552672819084,
	"grad_norm": 0.8430412411689758,
	"learning_rate": 0.00015603426546673967,
	"loss": 1.0874,
	"step": 307
	},
	{
	"epoch": 0.021452202681525336,
	"grad_norm": 0.6384485363960266,
	"learning_rate": 0.00015576178156470862,
	"loss": 1.2032,
	"step": 308
	},
	{
	"epoch": 0.021521852690231585,
	"grad_norm": 0.788506031036377,
	"learning_rate": 0.0001554886954911585,
	"loss": 1.3688,
	"step": 309
	},
	{
	"epoch": 0.021591502698937837,
	"grad_norm": 0.6341352462768555,
	"learning_rate": 0.00015521501019514597,
	"loss": 1.4594,
	"step": 310
	},
	{
	"epoch": 0.02166115270764409,
	"grad_norm": 0.6707578897476196,
	"learning_rate": 0.00015494072863219874,
	"loss": 1.1494,
	"step": 311
	},
	{
	"epoch": 0.02173080271635034,
	"grad_norm": 0.609851598739624,
	"learning_rate": 0.00015466585376428365,
	"loss": 0.9684,
	"step": 312
	},
	{
	"epoch": 0.02180045272505659,
	"grad_norm": 0.7177265882492065,
	"learning_rate": 0.00015439038855977454,
	"loss": 0.8522,
	"step": 313
	},
	{
	"epoch": 0.02187010273376284,
	"grad_norm": 0.6207813024520874,
	"learning_rate": 0.00015411433599342038,
	"loss": 0.4699,
	"step": 314
	},
	{
	"epoch": 0.021939752742469093,
	"grad_norm": 0.6561682820320129,
	"learning_rate": 0.00015383769904631306,
	"loss": 0.7518,
	"step": 315
	},
	{
	"epoch": 0.022009402751175345,
	"grad_norm": 0.7517587542533875,
	"learning_rate": 0.00015356048070585513,
	"loss": 1.2278,
	"step": 316
	},
	{
	"epoch": 0.022079052759881593,
	"grad_norm": 0.6116645932197571,
	"learning_rate": 0.00015328268396572762,
	"loss": 0.9742,
	"step": 317
	},
	{
	"epoch": 0.022148702768587845,
	"grad_norm": 0.5882527232170105,
	"learning_rate": 0.00015300431182585777,
	"loss": 0.8036,
	"step": 318
	},
	{
	"epoch": 0.022218352777294097,
	"grad_norm": 0.5738014578819275,
	"learning_rate": 0.00015272536729238654,
	"loss": 0.7848,
	"step": 319
	},
	{
	"epoch": 0.02228800278600035,
	"grad_norm": 0.7317819595336914,
	"learning_rate": 0.0001524458533776361,
	"loss": 1.0656,
	"step": 320
	},
	{
	"epoch": 0.022357652794706598,
	"grad_norm": 0.6275020837783813,
	"learning_rate": 0.00015216577310007745,
	"loss": 0.9123,
	"step": 321
	},
	{
	"epoch": 0.02242730280341285,
	"grad_norm": 0.8332412838935852,
	"learning_rate": 0.00015188512948429765,
	"loss": 1.1836,
	"step": 322
	},
	{
	"epoch": 0.022496952812119102,
	"grad_norm": 0.6414222121238708,
	"learning_rate": 0.00015160392556096735,
	"loss": 0.8959,
	"step": 323
	},
	{
	"epoch": 0.022566602820825354,
	"grad_norm": 0.6147682070732117,
	"learning_rate": 0.00015132216436680796,
	"loss": 0.937,
	"step": 324
	},
	{
	"epoch": 0.022636252829531602,
	"grad_norm": 0.5949112176895142,
	"learning_rate": 0.00015103984894455878,
	"loss": 1.1365,
	"step": 325
	},
	{
	"epoch": 0.022705902838237854,
	"grad_norm": 0.6494925022125244,
	"learning_rate": 0.00015075698234294423,
	"loss": 0.9603,
	"step": 326
	},
	{
	"epoch": 0.022775552846944106,
	"grad_norm": 0.6222386956214905,
	"learning_rate": 0.00015047356761664098,
	"loss": 1.1083,
	"step": 327
	},
	{
	"epoch": 0.022845202855650358,
	"grad_norm": 0.6448621153831482,
	"learning_rate": 0.00015018960782624486,
	"loss": 0.8984,
	"step": 328
	},
	{
	"epoch": 0.022914852864356607,
	"grad_norm": 0.7695071697235107,
	"learning_rate": 0.00014990510603823782,
	"loss": 0.9996,
	"step": 329
	},
	{
	"epoch": 0.02298450287306286,
	"grad_norm": 0.7322002649307251,
	"learning_rate": 0.00014962006532495488,
	"loss": 0.9976,
	"step": 330
	},
	{
	"epoch": 0.02305415288176911,
	"grad_norm": 0.5676226615905762,
	"learning_rate": 0.00014933448876455096,
	"loss": 1.0891,
	"step": 331
	},
	{
	"epoch": 0.023123802890475362,
	"grad_norm": 0.839449405670166,
	"learning_rate": 0.00014904837944096743,
	"loss": 0.6213,
	"step": 332
	},
	{
	"epoch": 0.02319345289918161,
	"grad_norm": 0.6786718964576721,
	"learning_rate": 0.00014876174044389922,
	"loss": 1.0854,
	"step": 333
	},
	{
	"epoch": 0.023263102907887863,
	"grad_norm": 0.7376294732093811,
	"learning_rate": 0.00014847457486876097,
	"loss": 0.9289,
	"step": 334
	},
	{
	"epoch": 0.023332752916594115,
	"grad_norm": 0.71031653881073,
	"learning_rate": 0.00014818688581665396,
	"loss": 1.0325,
	"step": 335
	},
	{
	"epoch": 0.023402402925300367,
	"grad_norm": 0.6212656497955322,
	"learning_rate": 0.00014789867639433248,
	"loss": 1.0627,
	"step": 336
	},
	{
	"epoch": 0.023472052934006615,
	"grad_norm": 0.698070228099823,
	"learning_rate": 0.00014760994971417022,
	"loss": 1.1891,
	"step": 337
	},
	{
	"epoch": 0.023541702942712867,
	"grad_norm": 0.7134040594100952,
	"learning_rate": 0.00014732070889412693,
	"loss": 1.0185,
	"step": 338
	},
	{
	"epoch": 0.02361135295141912,
	"grad_norm": 0.5352413058280945,
	"learning_rate": 0.00014703095705771434,
	"loss": 0.3684,
	"step": 339
	},
	{
	"epoch": 0.02368100296012537,
	"grad_norm": 0.6988404393196106,
	"learning_rate": 0.00014674069733396276,
	"loss": 0.947,
	"step": 340
	},
	{
	"epoch": 0.02375065296883162,
	"grad_norm": 0.7194476127624512,
	"learning_rate": 0.00014644993285738717,
	"loss": 0.8271,
	"step": 341
	},
	{
	"epoch": 0.02382030297753787,
	"grad_norm": 0.6885733604431152,
	"learning_rate": 0.00014615866676795334,
	"loss": 0.7825,
	"step": 342
	},
	{
	"epoch": 0.023889952986244124,
	"grad_norm": 0.6990646123886108,
	"learning_rate": 0.00014586690221104397,
	"loss": 0.9145,
	"step": 343
	},
	{
	"epoch": 0.023959602994950376,
	"grad_norm": 0.7719680070877075,
	"learning_rate": 0.00014557464233742477,
	"loss": 0.5737,
	"step": 344
	},
	{
	"epoch": 0.024029253003656624,
	"grad_norm": 0.7187089323997498,
	"learning_rate": 0.00014528189030321029,
	"loss": 0.7873,
	"step": 345
	},
	{
	"epoch": 0.024098903012362876,
	"grad_norm": 0.6850745677947998,
	"learning_rate": 0.00014498864926982996,
	"loss": 0.9,
	"step": 346
	},
	{
	"epoch": 0.024168553021069128,
	"grad_norm": 0.8452913761138916,
	"learning_rate": 0.0001446949224039939,
	"loss": 0.9123,
	"step": 347
	},
	{
	"epoch": 0.02423820302977538,
	"grad_norm": 0.6649196147918701,
	"learning_rate": 0.00014440071287765875,
	"loss": 0.8189,
	"step": 348
	},
	{
	"epoch": 0.02430785303848163,
	"grad_norm": 0.7251694798469543,
	"learning_rate": 0.0001441060238679934,
	"loss": 1.0816,
	"step": 349
	},
	{
	"epoch": 0.02437750304718788,
	"grad_norm": 0.6829720139503479,
	"learning_rate": 0.00014381085855734468,
	"loss": 0.9725,
	"step": 350
	},
	{
	"epoch": 0.024447153055894132,
	"grad_norm": 0.7007995843887329,
	"learning_rate": 0.00014351522013320302,
	"loss": 1.047,
	"step": 351
	},
	{
	"epoch": 0.024516803064600384,
	"grad_norm": 0.7575050592422485,
	"learning_rate": 0.0001432191117881679,
	"loss": 0.7961,
	"step": 352
	},
	{
	"epoch": 0.024586453073306633,
	"grad_norm": 0.6370393633842468,
	"learning_rate": 0.0001429225367199136,
	"loss": 0.9137,
	"step": 353
	},
	{
	"epoch": 0.024656103082012885,
	"grad_norm": 0.6170664429664612,
	"learning_rate": 0.0001426254981311545,
	"loss": 0.8138,
	"step": 354
	},
	{
	"epoch": 0.024725753090719137,
	"grad_norm": 0.7749223709106445,
	"learning_rate": 0.00014232799922961052,
	"loss": 1.1226,
	"step": 355
	},
	{
	"epoch": 0.02479540309942539,
	"grad_norm": 0.6036125421524048,
	"learning_rate": 0.00014203004322797252,
	"loss": 1.204,
	"step": 356
	},
	{
	"epoch": 0.024865053108131637,
	"grad_norm": 0.6835645437240601,
	"learning_rate": 0.00014173163334386753,
	"loss": 0.8434,
	"step": 357
	},
	{
	"epoch": 0.02493470311683789,
	"grad_norm": 0.6302729249000549,
	"learning_rate": 0.00014143277279982414,
	"loss": 0.6518,
	"step": 358
	},
	{
	"epoch": 0.02500435312554414,
	"grad_norm": 0.5898759365081787,
	"learning_rate": 0.00014113346482323762,
	"loss": 0.6565,
	"step": 359
	},
	{
	"epoch": 0.025074003134250393,
	"grad_norm": 0.6143885254859924,
	"learning_rate": 0.00014083371264633497,
	"loss": 1.2938,
	"step": 360
	},
	{
	"epoch": 0.02514365314295664,
	"grad_norm": 0.5840321183204651,
	"learning_rate": 0.00014053351950614018,
	"loss": 0.7797,
	"step": 361
	},
	{
	"epoch": 0.025213303151662893,
	"grad_norm": 0.6148191690444946,
	"learning_rate": 0.00014023288864443916,
	"loss": 0.7165,
	"step": 362
	},
	{
	"epoch": 0.025282953160369145,
	"grad_norm": 0.6650532484054565,
	"learning_rate": 0.0001399318233077448,
	"loss": 1.0991,
	"step": 363
	},
	{
	"epoch": 0.025352603169075397,
	"grad_norm": 0.5263816714286804,
	"learning_rate": 0.00013963032674726197,
	"loss": 0.5039,
	"step": 364
	},
	{
	"epoch": 0.025422253177781646,
	"grad_norm": 0.8048628568649292,
	"learning_rate": 0.00013932840221885217,
	"loss": 1.19,
	"step": 365
	},
	{
	"epoch": 0.025491903186487898,
	"grad_norm": 0.6668381094932556,
	"learning_rate": 0.0001390260529829986,
	"loss": 0.9708,
	"step": 366
	},
	{
	"epoch": 0.02556155319519415,
	"grad_norm": 0.6639387607574463,
	"learning_rate": 0.00013872328230477086,
	"loss": 0.9414,
	"step": 367
	},
	{
	"epoch": 0.025631203203900402,
	"grad_norm": 0.696017324924469,
	"learning_rate": 0.00013842009345378976,
	"loss": 0.9,
	"step": 368
	},
	{
	"epoch": 0.02570085321260665,
	"grad_norm": 0.584456205368042,
	"learning_rate": 0.00013811648970419194,
	"loss": 1.0158,
	"step": 369
	},
	{
	"epoch": 0.025770503221312902,
	"grad_norm": 0.7759786248207092,
	"learning_rate": 0.00013781247433459449,
	"loss": 0.9564,
	"step": 370
	},
	{
	"epoch": 0.025840153230019154,
	"grad_norm": 0.7399227619171143,
	"learning_rate": 0.00013750805062805955,
	"loss": 0.887,
	"step": 371
	},
	{
	"epoch": 0.025909803238725406,
	"grad_norm": 0.6674394607543945,
	"learning_rate": 0.00013720322187205897,
	"loss": 1.1418,
	"step": 372
	},
	{
	"epoch": 0.025979453247431655,
	"grad_norm": 0.591126561164856,
	"learning_rate": 0.00013689799135843875,
	"loss": 1.1361,
	"step": 373
	},
	{
	"epoch": 0.026049103256137907,
	"grad_norm": 0.6162034273147583,
	"learning_rate": 0.0001365923623833834,
	"loss": 0.9725,
	"step": 374
	},
	{
	"epoch": 0.02611875326484416,
	"grad_norm": 0.6250083446502686,
	"learning_rate": 0.0001362863382473804,
	"loss": 0.8571,
	"step": 375
	},
	{
	"epoch": 0.02618840327355041,
	"grad_norm": 0.5744304060935974,
	"learning_rate": 0.00013597992225518465,
	"loss": 1.2338,
	"step": 376
	},
	{
	"epoch": 0.02625805328225666,
	"grad_norm": 0.6333332061767578,
	"learning_rate": 0.0001356731177157827,
	"loss": 1.0476,
	"step": 377
	},
	{
	"epoch": 0.02632770329096291,
	"grad_norm": 0.7278969883918762,
	"learning_rate": 0.00013536592794235696,
	"loss": 0.9087,
	"step": 378
	},
	{
	"epoch": 0.026397353299669163,
	"grad_norm": 0.6979010701179504,
	"learning_rate": 0.00013505835625225,
	"loss": 0.952,
	"step": 379
	},
	{
	"epoch": 0.026467003308375415,
	"grad_norm": 0.6789504289627075,
	"learning_rate": 0.00013475040596692877,
	"loss": 1.0368,
	"step": 380
	},
	{
	"epoch": 0.026536653317081663,
	"grad_norm": 0.7653933763504028,
	"learning_rate": 0.00013444208041194855,
	"loss": 0.8965,
	"step": 381
	},
	{
	"epoch": 0.026606303325787915,
	"grad_norm": 0.5833761096000671,
	"learning_rate": 0.00013413338291691726,
	"loss": 0.8849,
	"step": 382
	},
	{
	"epoch": 0.026675953334494167,
	"grad_norm": 0.742056131362915,
	"learning_rate": 0.00013382431681545942,
	"loss": 1.0168,
	"step": 383
	},
	{
	"epoch": 0.02674560334320042,
	"grad_norm": 0.6038824915885925,
	"learning_rate": 0.00013351488544518004,
	"loss": 0.7484,
	"step": 384
	},
	{
	"epoch": 0.026815253351906668,
	"grad_norm": 0.7503067851066589,
	"learning_rate": 0.00013320509214762868,
	"loss": 0.7915,
	"step": 385
	},
	{
	"epoch": 0.02688490336061292,
	"grad_norm": 0.6701642274856567,
	"learning_rate": 0.00013289494026826336,
	"loss": 0.791,
	"step": 386
	},
	{
	"epoch": 0.02695455336931917,
	"grad_norm": 0.6913783550262451,
	"learning_rate": 0.0001325844331564146,
	"loss": 0.7336,
	"step": 387
	},
	{
	"epoch": 0.027024203378025424,
	"grad_norm": 0.5814367532730103,
	"learning_rate": 0.00013227357416524876,
	"loss": 0.9077,
	"step": 388
	},
	{
	"epoch": 0.027093853386731672,
	"grad_norm": 0.6972191333770752,
	"learning_rate": 0.0001319623666517324,
	"loss": 0.9515,
	"step": 389
	},
	{
	"epoch": 0.027163503395437924,
	"grad_norm": 0.6530499458312988,
	"learning_rate": 0.00013165081397659563,
	"loss": 0.6957,
	"step": 390
	},
	{
	"epoch": 0.027233153404144176,
	"grad_norm": 0.5678091645240784,
	"learning_rate": 0.00013133891950429605,
	"loss": 0.8997,
	"step": 391
	},
	{
	"epoch": 0.027302803412850428,
	"grad_norm": 0.6870533227920532,
	"learning_rate": 0.00013102668660298228,
	"loss": 1.0608,
	"step": 392
	},
	{
	"epoch": 0.027372453421556676,
	"grad_norm": 0.8118611574172974,
	"learning_rate": 0.00013071411864445763,
	"loss": 0.7108,
	"step": 393
	},
	{
	"epoch": 0.02744210343026293,
	"grad_norm": 0.6881155967712402,
	"learning_rate": 0.0001304012190041437,
	"loss": 1.0917,
	"step": 394
	},
	{
	"epoch": 0.02751175343896918,
	"grad_norm": 0.647470235824585,
	"learning_rate": 0.00013008799106104397,
	"loss": 0.7477,
	"step": 395
	},
	{
	"epoch": 0.027581403447675432,
	"grad_norm": 0.653819739818573,
	"learning_rate": 0.00012977443819770716,
	"loss": 0.8722,
	"step": 396
	},
	{
	"epoch": 0.02765105345638168,
	"grad_norm": 0.6762019395828247,
	"learning_rate": 0.00012946056380019094,
	"loss": 1.0542,
	"step": 397
	},
	{
	"epoch": 0.027720703465087933,
	"grad_norm": 0.5804311037063599,
	"learning_rate": 0.00012914637125802512,
	"loss": 1.2926,
	"step": 398
	},
	{
	"epoch": 0.027790353473794185,
	"grad_norm": 0.6955252885818481,
	"learning_rate": 0.0001288318639641752,
	"loss": 1.0947,
	"step": 399
	},
	{
	"epoch": 0.027860003482500437,
	"grad_norm": 0.7045977711677551,
	"learning_rate": 0.00012851704531500563,
	"loss": 1.1416,
	"step": 400
	},
	{
	"epoch": 0.027860003482500437,
	"eval_loss": 0.8443693518638611,
	"eval_runtime": 700.1995,
	"eval_samples_per_second": 7.141,
	"eval_steps_per_second": 1.785,
	"step": 400
	},
	{
	"epoch": 0.027929653491206685,
	"grad_norm": 0.6152036786079407,
	"learning_rate": 0.00012820191871024328,
	"loss": 0.8517,
	"step": 401
	},
	{
	"epoch": 0.027999303499912937,
	"grad_norm": 0.6213567852973938,
	"learning_rate": 0.00012788648755294055,
	"loss": 0.861,
	"step": 402
	},
	{
	"epoch": 0.02806895350861919,
	"grad_norm": 0.6279333233833313,
	"learning_rate": 0.00012757075524943873,
	"loss": 1.1324,
	"step": 403
	},
	{
	"epoch": 0.02813860351732544,
	"grad_norm": 0.5852387547492981,
	"learning_rate": 0.0001272547252093312,
	"loss": 0.9501,
	"step": 404
	},
	{
	"epoch": 0.02820825352603169,
	"grad_norm": 0.6280404329299927,
	"learning_rate": 0.00012693840084542662,
	"loss": 1.1233,
	"step": 405
	},
	{
	"epoch": 0.02827790353473794,
	"grad_norm": 0.6563053131103516,
	"learning_rate": 0.00012662178557371198,
	"loss": 1.1278,
	"step": 406
	},
	{
	"epoch": 0.028347553543444193,
	"grad_norm": 0.6248413920402527,
	"learning_rate": 0.00012630488281331585,
	"loss": 0.9008,
	"step": 407
	},
	{
	"epoch": 0.028417203552150445,
	"grad_norm": 0.5682319402694702,
	"learning_rate": 0.00012598769598647135,
	"loss": 0.9898,
	"step": 408
	},
	{
	"epoch": 0.028486853560856694,
	"grad_norm": 0.6207916736602783,
	"learning_rate": 0.00012567022851847927,
	"loss": 1.0291,
	"step": 409
	},
	{
	"epoch": 0.028556503569562946,
	"grad_norm": 0.7249537706375122,
	"learning_rate": 0.000125352483837671,
	"loss": 0.9478,
	"step": 410
	},
	{
	"epoch": 0.028626153578269198,
	"grad_norm": 0.8715054988861084,
	"learning_rate": 0.00012503446537537162,
	"loss": 1.0623,
	"step": 411
	},
	{
	"epoch": 0.02869580358697545,
	"grad_norm": 0.6953936815261841,
	"learning_rate": 0.0001247161765658627,
	"loss": 1.089,
	"step": 412
	},
	{
	"epoch": 0.0287654535956817,
	"grad_norm": 0.5827656388282776,
	"learning_rate": 0.0001243976208463453,
	"loss": 0.8708,
	"step": 413
	},
	{
	"epoch": 0.02883510360438795,
	"grad_norm": 0.7496638298034668,
	"learning_rate": 0.00012407880165690287,
	"loss": 0.8053,
	"step": 414
	},
	{
	"epoch": 0.028904753613094202,
	"grad_norm": 0.7032145261764526,
	"learning_rate": 0.00012375972244046415,
	"loss": 1.0352,
	"step": 415
	},
	{
	"epoch": 0.028974403621800454,
	"grad_norm": 0.7112724184989929,
	"learning_rate": 0.00012344038664276568,
	"loss": 0.7082,
	"step": 416
	},
	{
	"epoch": 0.029044053630506703,
	"grad_norm": 0.6337069869041443,
	"learning_rate": 0.0001231207977123151,
	"loss": 0.7147,
	"step": 417
	},
	{
	"epoch": 0.029113703639212955,
	"grad_norm": 0.639981210231781,
	"learning_rate": 0.00012280095910035342,
	"loss": 0.4832,
	"step": 418
	},
	{
	"epoch": 0.029183353647919207,
	"grad_norm": 0.6611121892929077,
	"learning_rate": 0.00012248087426081812,
	"loss": 0.9912,
	"step": 419
	},
	{
	"epoch": 0.02925300365662546,
	"grad_norm": 0.5735837817192078,
	"learning_rate": 0.00012216054665030552,
	"loss": 1.2525,
	"step": 420
	},
	{
	"epoch": 0.029322653665331707,
	"grad_norm": 0.7706820964813232,
	"learning_rate": 0.00012183997972803374,
	"loss": 0.8705,
	"step": 421
	},
	{
	"epoch": 0.02939230367403796,
	"grad_norm": 0.5474764108657837,
	"learning_rate": 0.00012151917695580523,
	"loss": 0.7432,
	"step": 422
	},
	{
	"epoch": 0.02946195368274421,
	"grad_norm": 0.5462170243263245,
	"learning_rate": 0.00012119814179796935,
	"loss": 1.0711,
	"step": 423
	},
	{
	"epoch": 0.029531603691450463,
	"grad_norm": 0.673670768737793,
	"learning_rate": 0.000120876877721385,
	"loss": 1.3386,
	"step": 424
	},
	{
	"epoch": 0.02960125370015671,
	"grad_norm": 0.7265173196792603,
	"learning_rate": 0.00012055538819538319,
	"loss": 1.1199,
	"step": 425
	},
	{
	"epoch": 0.029670903708862963,
	"grad_norm": 0.5875483751296997,
	"learning_rate": 0.00012023367669172946,
	"loss": 1.0887,
	"step": 426
	},
	{
	"epoch": 0.029740553717569215,
	"grad_norm": 0.6158230304718018,
	"learning_rate": 0.00011991174668458666,
	"loss": 0.9483,
	"step": 427
	},
	{
	"epoch": 0.029810203726275467,
	"grad_norm": 0.6764160990715027,
	"learning_rate": 0.00011958960165047717,
	"loss": 0.9178,
	"step": 428
	},
	{
	"epoch": 0.029879853734981716,
	"grad_norm": 0.6038265824317932,
	"learning_rate": 0.00011926724506824538,
	"loss": 0.9309,
	"step": 429
	},
	{
	"epoch": 0.029949503743687968,
	"grad_norm": 0.5902111530303955,
	"learning_rate": 0.0001189446804190203,
	"loss": 0.8358,
	"step": 430
	},
	{
	"epoch": 0.03001915375239422,
	"grad_norm": 0.6535676121711731,
	"learning_rate": 0.00011862191118617775,
	"loss": 0.6587,
	"step": 431
	},
	{
	"epoch": 0.03008880376110047,
	"grad_norm": 0.6216766834259033,
	"learning_rate": 0.00011829894085530298,
	"loss": 0.7479,
	"step": 432
	},
	{
	"epoch": 0.03015845376980672,
	"grad_norm": 0.6829842925071716,
	"learning_rate": 0.0001179757729141528,
	"loss": 0.6207,
	"step": 433
	},
	{
	"epoch": 0.030228103778512972,
	"grad_norm": 0.7262370586395264,
	"learning_rate": 0.00011765241085261802,
	"loss": 1.0663,
	"step": 434
	},
	{
	"epoch": 0.030297753787219224,
	"grad_norm": 0.6845910549163818,
	"learning_rate": 0.00011732885816268582,
	"loss": 0.7484,
	"step": 435
	},
	{
	"epoch": 0.030367403795925476,
	"grad_norm": 0.7333625555038452,
	"learning_rate": 0.00011700511833840186,
	"loss": 0.8087,
	"step": 436
	},
	{
	"epoch": 0.030437053804631724,
	"grad_norm": 0.6632218360900879,
	"learning_rate": 0.00011668119487583277,
	"loss": 1.2482,
	"step": 437
	},
	{
	"epoch": 0.030506703813337976,
	"grad_norm": 0.5340752601623535,
	"learning_rate": 0.00011635709127302829,
	"loss": 0.866,
	"step": 438
	},
	{
	"epoch": 0.03057635382204423,
	"grad_norm": 0.7423261404037476,
	"learning_rate": 0.0001160328110299834,
	"loss": 0.94,
	"step": 439
	},
	{
	"epoch": 0.03064600383075048,
	"grad_norm": 0.5144674777984619,
	"learning_rate": 0.0001157083576486007,
	"loss": 0.9346,
	"step": 440
	},
	{
	"epoch": 0.03071565383945673,
	"grad_norm": 0.5007227063179016,
	"learning_rate": 0.00011538373463265248,
	"loss": 1.0962,
	"step": 441
	},
	{
	"epoch": 0.03078530384816298,
	"grad_norm": 0.5233269929885864,
	"learning_rate": 0.00011505894548774294,
	"loss": 0.6513,
	"step": 442
	},
	{
	"epoch": 0.030854953856869233,
	"grad_norm": 0.6934007406234741,
	"learning_rate": 0.0001147339937212703,
	"loss": 0.7084,
	"step": 443
	},
	{
	"epoch": 0.030924603865575485,
	"grad_norm": 0.6242351531982422,
	"learning_rate": 0.00011440888284238888,
	"loss": 0.6915,
	"step": 444
	},
	{
	"epoch": 0.030994253874281733,
	"grad_norm": 0.5059527158737183,
	"learning_rate": 0.00011408361636197133,
	"loss": 1.2365,
	"step": 445
	},
	{
	"epoch": 0.031063903882987985,
	"grad_norm": 0.5710117220878601,
	"learning_rate": 0.00011375819779257057,
	"loss": 0.7813,
	"step": 446
	},
	{
	"epoch": 0.031133553891694237,
	"grad_norm": 0.5397061705589294,
	"learning_rate": 0.000113432630648382,
	"loss": 0.5191,
	"step": 447
	},
	{
	"epoch": 0.03120320390040049,
	"grad_norm": 0.6234595775604248,
	"learning_rate": 0.00011310691844520543,
	"loss": 0.7069,
	"step": 448
	},
	{
	"epoch": 0.03127285390910674,
	"grad_norm": 0.5587515830993652,
	"learning_rate": 0.00011278106470040717,
	"loss": 0.8174,
	"step": 449
	},
	{
	"epoch": 0.03134250391781299,
	"grad_norm": 0.4725956618785858,
	"learning_rate": 0.00011245507293288204,
	"loss": 1.1901,
	"step": 450
	},
	{
	"epoch": 0.03141215392651924,
	"grad_norm": 0.7420422434806824,
	"learning_rate": 0.00011212894666301536,
	"loss": 1.136,
	"step": 451
	},
	{
	"epoch": 0.03148180393522549,
	"grad_norm": 0.6457960605621338,
	"learning_rate": 0.000111802689412645,
	"loss": 0.6502,
	"step": 452
	},
	{
	"epoch": 0.031551453943931745,
	"grad_norm": 0.672398567199707,
	"learning_rate": 0.00011147630470502319,
	"loss": 0.9223,
	"step": 453
	},
	{
	"epoch": 0.031621103952637994,
	"grad_norm": 0.7210835218429565,
	"learning_rate": 0.00011114979606477866,
	"loss": 1.151,
	"step": 454
	},
	{
	"epoch": 0.03169075396134424,
	"grad_norm": 0.7231703996658325,
	"learning_rate": 0.00011082316701787843,
	"loss": 0.8565,
	"step": 455
	},
	{
	"epoch": 0.0317604039700505,
	"grad_norm": 0.6620053648948669,
	"learning_rate": 0.00011049642109158981,
	"loss": 1.088,
	"step": 456
	},
	{
	"epoch": 0.031830053978756746,
	"grad_norm": 0.8204821348190308,
	"learning_rate": 0.00011016956181444231,
	"loss": 1.1381,
	"step": 457
	},
	{
	"epoch": 0.031899703987463,
	"grad_norm": 0.6240087747573853,
	"learning_rate": 0.00010984259271618947,
	"loss": 0.8316,
	"step": 458
	},
	{
	"epoch": 0.03196935399616925,
	"grad_norm": 0.6648886203765869,
	"learning_rate": 0.00010951551732777083,
	"loss": 1.0288,
	"step": 459
	},
	{
	"epoch": 0.0320390040048755,
	"grad_norm": 0.8034060001373291,
	"learning_rate": 0.00010918833918127376,
	"loss": 0.93,
	"step": 460
	},
	{
	"epoch": 0.032108654013581754,
	"grad_norm": 0.5740483999252319,
	"learning_rate": 0.00010886106180989526,
	"loss": 0.7948,
	"step": 461
	},
	{
	"epoch": 0.032178304022288,
	"grad_norm": 0.5168555378913879,
	"learning_rate": 0.00010853368874790392,
	"loss": 0.7923,
	"step": 462
	},
	{
	"epoch": 0.03224795403099425,
	"grad_norm": 0.5505993962287903,
	"learning_rate": 0.0001082062235306017,
	"loss": 1.2188,
	"step": 463
	},
	{
	"epoch": 0.03231760403970051,
	"grad_norm": 0.5564302206039429,
	"learning_rate": 0.00010787866969428569,
	"loss": 0.8798,
	"step": 464
	},
	{
	"epoch": 0.032387254048406755,
	"grad_norm": 0.6746006011962891,
	"learning_rate": 0.00010755103077620998,
	"loss": 1.0295,
	"step": 465
	},
	{
	"epoch": 0.03245690405711301,
	"grad_norm": 0.6252794861793518,
	"learning_rate": 0.00010722331031454748,
	"loss": 1.0924,
	"step": 466
	},
	{
	"epoch": 0.03252655406581926,
	"grad_norm": 0.6156384944915771,
	"learning_rate": 0.00010689551184835176,
	"loss": 0.732,
	"step": 467
	},
	{
	"epoch": 0.03259620407452551,
	"grad_norm": 0.7271072268486023,
	"learning_rate": 0.00010656763891751865,
	"loss": 0.5997,
	"step": 468
	},
	{
	"epoch": 0.03266585408323176,
	"grad_norm": 0.6153301000595093,
	"learning_rate": 0.00010623969506274813,
	"loss": 0.9489,
	"step": 469
	},
	{
	"epoch": 0.03273550409193801,
	"grad_norm": 0.7981113791465759,
	"learning_rate": 0.00010591168382550616,
	"loss": 0.8335,
	"step": 470
	},
	{
	"epoch": 0.03280515410064426,
	"grad_norm": 0.781737744808197,
	"learning_rate": 0.00010558360874798631,
	"loss": 1.1474,
	"step": 471
	},
	{
	"epoch": 0.032874804109350515,
	"grad_norm": 0.7384591102600098,
	"learning_rate": 0.0001052554733730716,
	"loss": 1.0917,
	"step": 472
	},
	{
	"epoch": 0.032944454118056764,
	"grad_norm": 0.7052910923957825,
	"learning_rate": 0.00010492728124429618,
	"loss": 1.068,
	"step": 473
	},
	{
	"epoch": 0.03301410412676302,
	"grad_norm": 0.6287469267845154,
	"learning_rate": 0.00010459903590580706,
	"loss": 0.6939,
	"step": 474
	},
	{
	"epoch": 0.03308375413546927,
	"grad_norm": 0.5639947652816772,
	"learning_rate": 0.00010427074090232592,
	"loss": 0.737,
	"step": 475
	},
	{
	"epoch": 0.033153404144175516,
	"grad_norm": 0.7723355293273926,
	"learning_rate": 0.00010394239977911068,
	"loss": 1.145,
	"step": 476
	},
	{
	"epoch": 0.03322305415288177,
	"grad_norm": 0.7035319209098816,
	"learning_rate": 0.00010361401608191741,
	"loss": 0.584,
	"step": 477
	},
	{
	"epoch": 0.03329270416158802,
	"grad_norm": 0.6127707362174988,
	"learning_rate": 0.00010328559335696188,
	"loss": 0.9795,
	"step": 478
	},
	{
	"epoch": 0.03336235417029427,
	"grad_norm": 0.5730832815170288,
	"learning_rate": 0.00010295713515088134,
	"loss": 0.8133,
	"step": 479
	},
	{
	"epoch": 0.033432004179000524,
	"grad_norm": 0.7129435539245605,
	"learning_rate": 0.00010262864501069617,
	"loss": 1.1408,
	"step": 480
	},
	{
	"epoch": 0.03350165418770677,
	"grad_norm": 0.5180230736732483,
	"learning_rate": 0.00010230012648377162,
	"loss": 0.9543,
	"step": 481
	},
	{
	"epoch": 0.03357130419641303,
	"grad_norm": 0.6325164437294006,
	"learning_rate": 0.00010197158311777957,
	"loss": 0.8672,
	"step": 482
	},
	{
	"epoch": 0.033640954205119276,
	"grad_norm": 0.7068666815757751,
	"learning_rate": 0.00010164301846066,
	"loss": 0.9489,
	"step": 483
	},
	{
	"epoch": 0.033710604213825525,
	"grad_norm": 0.6100176572799683,
	"learning_rate": 0.0001013144360605829,
	"loss": 0.9124,
	"step": 484
	},
	{
	"epoch": 0.03378025422253178,
	"grad_norm": 0.6595302820205688,
	"learning_rate": 0.00010098583946590985,
	"loss": 0.6994,
	"step": 485
	},
	{
	"epoch": 0.03384990423123803,
	"grad_norm": 0.6590490341186523,
	"learning_rate": 0.00010065723222515566,
	"loss": 0.6314,
	"step": 486
	},
	{
	"epoch": 0.03391955423994428,
	"grad_norm": 0.619118869304657,
	"learning_rate": 0.00010032861788695024,
	"loss": 0.7488,
	"step": 487
	},
	{
	"epoch": 0.03398920424865053,
	"grad_norm": 0.6756129264831543,
	"learning_rate": 0.0001,
	"loss": 0.6419,
	"step": 488
	},
	{
	"epoch": 0.03405885425735678,
	"grad_norm": 0.7198984026908875,
	"learning_rate": 9.967138211304978e-05,
	"loss": 0.8794,
	"step": 489
	},
	{
	"epoch": 0.03412850426606304,
	"grad_norm": 0.684007465839386,
	"learning_rate": 9.934276777484436e-05,
	"loss": 1.1634,
	"step": 490
	},
	{
	"epoch": 0.034198154274769285,
	"grad_norm": 0.5058736801147461,
	"learning_rate": 9.90141605340902e-05,
	"loss": 0.7194,
	"step": 491
	},
	{
	"epoch": 0.034267804283475534,
	"grad_norm": 0.6622017025947571,
	"learning_rate": 9.868556393941713e-05,
	"loss": 1.059,
	"step": 492
	},
	{
	"epoch": 0.03433745429218179,
	"grad_norm": 0.6841214895248413,
	"learning_rate": 9.835698153933999e-05,
	"loss": 0.8254,
	"step": 493
	},
	{
	"epoch": 0.03440710430088804,
	"grad_norm": 0.6854826807975769,
	"learning_rate": 9.802841688222043e-05,
	"loss": 0.8211,
	"step": 494
	},
	{
	"epoch": 0.034476754309594286,
	"grad_norm": 0.6080586314201355,
	"learning_rate": 9.769987351622836e-05,
	"loss": 0.8337,
	"step": 495
	},
	{
	"epoch": 0.03454640431830054,
	"grad_norm": 0.5680797696113586,
	"learning_rate": 9.737135498930385e-05,
	"loss": 0.9282,
	"step": 496
	},
	{
	"epoch": 0.03461605432700679,
	"grad_norm": 0.5402217507362366,
	"learning_rate": 9.704286484911868e-05,
	"loss": 0.7917,
	"step": 497
	},
	{
	"epoch": 0.034685704335713045,
	"grad_norm": 0.5929046273231506,
	"learning_rate": 9.671440664303814e-05,
	"loss": 0.9316,
	"step": 498
	},
	{
	"epoch": 0.034755354344419294,
	"grad_norm": 0.5998024940490723,
	"learning_rate": 9.638598391808261e-05,
	"loss": 1.173,
	"step": 499
	},
	{
	"epoch": 0.03482500435312554,
	"grad_norm": 0.6345599889755249,
	"learning_rate": 9.605760022088934e-05,
	"loss": 0.7952,
	"step": 500
	},
	{
	"epoch": 0.03482500435312554,
	"eval_loss": 0.7969969511032104,
	"eval_runtime": 700.3094,
	"eval_samples_per_second": 7.14,
	"eval_steps_per_second": 1.785,
	"step": 500
	},
	{
	"epoch": 0.0348946543618318,
	"grad_norm": 0.5795607566833496,
	"learning_rate": 9.572925909767412e-05,
	"loss": 0.4495,
	"step": 501
	},
	{
	"epoch": 0.034964304370538046,
	"grad_norm": 0.6874101161956787,
	"learning_rate": 9.540096409419296e-05,
	"loss": 0.8444,
	"step": 502
	},
	{
	"epoch": 0.035033954379244295,
	"grad_norm": 0.5595911145210266,
	"learning_rate": 9.507271875570381e-05,
	"loss": 0.9391,
	"step": 503
	},
	{
	"epoch": 0.03510360438795055,
	"grad_norm": 0.525644063949585,
	"learning_rate": 9.474452662692838e-05,
	"loss": 0.7833,
	"step": 504
	},
	{
	"epoch": 0.0351732543966568,
	"grad_norm": 0.6366891264915466,
	"learning_rate": 9.441639125201368e-05,
	"loss": 1.0472,
	"step": 505
	},
	{
	"epoch": 0.035242904405363054,
	"grad_norm": 0.8487269878387451,
	"learning_rate": 9.408831617449385e-05,
	"loss": 1.0513,
	"step": 506
	},
	{
	"epoch": 0.0353125544140693,
	"grad_norm": 0.7027648091316223,
	"learning_rate": 9.376030493725189e-05,
	"loss": 0.9505,
	"step": 507
	},
	{
	"epoch": 0.03538220442277555,
	"grad_norm": 0.6772575974464417,
	"learning_rate": 9.343236108248139e-05,
	"loss": 1.0417,
	"step": 508
	},
	{
	"epoch": 0.03545185443148181,
	"grad_norm": 0.5657368898391724,
	"learning_rate": 9.310448815164826e-05,
	"loss": 0.9236,
	"step": 509
	},
	{
	"epoch": 0.035521504440188055,
	"grad_norm": 0.64215087890625,
	"learning_rate": 9.277668968545253e-05,
	"loss": 1.0035,
	"step": 510
	},
	{
	"epoch": 0.035591154448894304,
	"grad_norm": 0.6276829242706299,
	"learning_rate": 9.244896922379007e-05,
	"loss": 0.8375,
	"step": 511
	},
	{
	"epoch": 0.03566080445760056,
	"grad_norm": 0.5804170966148376,
	"learning_rate": 9.212133030571437e-05,
	"loss": 0.4934,
	"step": 512
	},
	{
	"epoch": 0.03573045446630681,
	"grad_norm": 0.7230868935585022,
	"learning_rate": 9.17937764693983e-05,
	"loss": 0.9427,
	"step": 513
	},
	{
	"epoch": 0.035800104475013056,
	"grad_norm": 0.6632394194602966,
	"learning_rate": 9.146631125209607e-05,
	"loss": 0.4176,
	"step": 514
	},
	{
	"epoch": 0.03586975448371931,
	"grad_norm": 0.5885234475135803,
	"learning_rate": 9.113893819010475e-05,
	"loss": 0.6042,
	"step": 515
	},
	{
	"epoch": 0.03593940449242556,
	"grad_norm": 0.5666863322257996,
	"learning_rate": 9.081166081872626e-05,
	"loss": 1.5152,
	"step": 516
	},
	{
	"epoch": 0.036009054501131815,
	"grad_norm": 0.7007538676261902,
	"learning_rate": 9.048448267222918e-05,
	"loss": 0.9444,
	"step": 517
	},
	{
	"epoch": 0.036078704509838064,
	"grad_norm": 0.6212923526763916,
	"learning_rate": 9.015740728381054e-05,
	"loss": 0.634,
	"step": 518
	},
	{
	"epoch": 0.03614835451854431,
	"grad_norm": 0.6189596056938171,
	"learning_rate": 8.98304381855577e-05,
	"loss": 1.1091,
	"step": 519
	},
	{
	"epoch": 0.03621800452725057,
	"grad_norm": 0.6159670948982239,
	"learning_rate": 8.95035789084102e-05,
	"loss": 0.787,
	"step": 520
	},
	{
	"epoch": 0.036287654535956816,
	"grad_norm": 0.6371515989303589,
	"learning_rate": 8.917683298212158e-05,
	"loss": 0.6172,
	"step": 521
	},
	{
	"epoch": 0.036357304544663065,
	"grad_norm": 0.6314066052436829,
	"learning_rate": 8.885020393522135e-05,
	"loss": 0.9702,
	"step": 522
	},
	{
	"epoch": 0.03642695455336932,
	"grad_norm": 0.6285626888275146,
	"learning_rate": 8.852369529497679e-05,
	"loss": 0.9819,
	"step": 523
	},
	{
	"epoch": 0.03649660456207557,
	"grad_norm": 0.5257949233055115,
	"learning_rate": 8.819731058735501e-05,
	"loss": 0.8288,
	"step": 524
	},
	{
	"epoch": 0.036566254570781824,
	"grad_norm": 0.611438512802124,
	"learning_rate": 8.787105333698465e-05,
	"loss": 0.9246,
	"step": 525
	},
	{
	"epoch": 0.03663590457948807,
	"grad_norm": 0.5995710492134094,
	"learning_rate": 8.754492706711798e-05,
	"loss": 0.6855,
	"step": 526
	},
	{
	"epoch": 0.03670555458819432,
	"grad_norm": 0.681425154209137,
	"learning_rate": 8.721893529959287e-05,
	"loss": 1.1644,
	"step": 527
	},
	{
	"epoch": 0.036775204596900576,
	"grad_norm": 0.7111718654632568,
	"learning_rate": 8.68930815547946e-05,
	"loss": 0.9181,
	"step": 528
	},
	{
	"epoch": 0.036844854605606825,
	"grad_norm": 0.5794047713279724,
	"learning_rate": 8.656736935161802e-05,
	"loss": 1.061,
	"step": 529
	},
	{
	"epoch": 0.03691450461431307,
	"grad_norm": 0.5971503257751465,
	"learning_rate": 8.624180220742946e-05,
	"loss": 0.5903,
	"step": 530
	},
	{
	"epoch": 0.03698415462301933,
	"grad_norm": 0.7091482281684875,
	"learning_rate": 8.59163836380287e-05,
	"loss": 0.8907,
	"step": 531
	},
	{
	"epoch": 0.03705380463172558,
	"grad_norm": 0.6185580492019653,
	"learning_rate": 8.559111715761114e-05,
	"loss": 0.8452,
	"step": 532
	},
	{
	"epoch": 0.03712345464043183,
	"grad_norm": 0.68827223777771,
	"learning_rate": 8.52660062787297e-05,
	"loss": 0.8711,
	"step": 533
	},
	{
	"epoch": 0.03719310464913808,
	"grad_norm": 0.6279632449150085,
	"learning_rate": 8.494105451225704e-05,
	"loss": 0.6453,
	"step": 534
	},
	{
	"epoch": 0.03726275465784433,
	"grad_norm": 0.7252237200737,
	"learning_rate": 8.461626536734753e-05,
	"loss": 1.1148,
	"step": 535
	},
	{
	"epoch": 0.037332404666550585,
	"grad_norm": 0.6377342939376831,
	"learning_rate": 8.429164235139931e-05,
	"loss": 1.0532,
	"step": 536
	},
	{
	"epoch": 0.037402054675256834,
	"grad_norm": 0.7409278154373169,
	"learning_rate": 8.396718897001663e-05,
	"loss": 1.0161,
	"step": 537
	},
	{
	"epoch": 0.03747170468396308,
	"grad_norm": 0.6048555970191956,
	"learning_rate": 8.364290872697173e-05,
	"loss": 1.012,
	"step": 538
	},
	{
	"epoch": 0.03754135469266934,
	"grad_norm": 0.7676815390586853,
	"learning_rate": 8.331880512416724e-05,
	"loss": 0.9402,
	"step": 539
	},
	{
	"epoch": 0.037611004701375586,
	"grad_norm": 0.6360906958580017,
	"learning_rate": 8.299488166159817e-05,
	"loss": 0.4591,
	"step": 540
	},
	{
	"epoch": 0.03768065471008184,
	"grad_norm": 0.6816183924674988,
	"learning_rate": 8.267114183731421e-05,
	"loss": 0.661,
	"step": 541
	},
	{
	"epoch": 0.03775030471878809,
	"grad_norm": 0.6955873966217041,
	"learning_rate": 8.234758914738199e-05,
	"loss": 0.8015,
	"step": 542
	},
	{
	"epoch": 0.03781995472749434,
	"grad_norm": 0.787493884563446,
	"learning_rate": 8.20242270858472e-05,
	"loss": 0.6941,
	"step": 543
	},
	{
	"epoch": 0.037889604736200594,
	"grad_norm": 0.5939062833786011,
	"learning_rate": 8.170105914469702e-05,
	"loss": 0.9034,
	"step": 544
	},
	{
	"epoch": 0.03795925474490684,
	"grad_norm": 0.5235042572021484,
	"learning_rate": 8.137808881382226e-05,
	"loss": 1.0283,
	"step": 545
	},
	{
	"epoch": 0.03802890475361309,
	"grad_norm": 0.7017082571983337,
	"learning_rate": 8.105531958097972e-05,
	"loss": 1.0407,
	"step": 546
	},
	{
	"epoch": 0.038098554762319346,
	"grad_norm": 0.7762130498886108,
	"learning_rate": 8.073275493175464e-05,
	"loss": 0.7814,
	"step": 547
	},
	{
	"epoch": 0.038168204771025595,
	"grad_norm": 0.588405191898346,
	"learning_rate": 8.041039834952287e-05,
	"loss": 0.8832,
	"step": 548
	},
	{
	"epoch": 0.03823785477973185,
	"grad_norm": 0.7792285084724426,
	"learning_rate": 8.008825331541335e-05,
	"loss": 1.051,
	"step": 549
	},
	{
	"epoch": 0.0383075047884381,
	"grad_norm": 0.6209467649459839,
	"learning_rate": 7.976632330827056e-05,
	"loss": 0.8802,
	"step": 550
	},
	{
	"epoch": 0.03837715479714435,
	"grad_norm": 0.5231680274009705,
	"learning_rate": 7.944461180461686e-05,
	"loss": 0.7529,
	"step": 551
	},
	{
	"epoch": 0.0384468048058506,
	"grad_norm": 0.6021607518196106,
	"learning_rate": 7.912312227861503e-05,
	"loss": 1.1235,
	"step": 552
	},
	{
	"epoch": 0.03851645481455685,
	"grad_norm": 0.5573668479919434,
	"learning_rate": 7.880185820203065e-05,
	"loss": 0.6753,
	"step": 553
	},
	{
	"epoch": 0.0385861048232631,
	"grad_norm": 0.5354910492897034,
	"learning_rate": 7.848082304419478e-05,
	"loss": 0.6843,
	"step": 554
	},
	{
	"epoch": 0.038655754831969355,
	"grad_norm": 0.606436014175415,
	"learning_rate": 7.816002027196627e-05,
	"loss": 1.0557,
	"step": 555
	},
	{
	"epoch": 0.038725404840675604,
	"grad_norm": 0.6580552458763123,
	"learning_rate": 7.783945334969451e-05,
	"loss": 0.6222,
	"step": 556
	},
	{
	"epoch": 0.03879505484938186,
	"grad_norm": 0.6174128651618958,
	"learning_rate": 7.751912573918193e-05,
	"loss": 0.8194,
	"step": 557
	},
	{
	"epoch": 0.03886470485808811,
	"grad_norm": 0.6724019646644592,
	"learning_rate": 7.719904089964658e-05,
	"loss": 1.0095,
	"step": 558
	},
	{
	"epoch": 0.038934354866794356,
	"grad_norm": 0.7200993299484253,
	"learning_rate": 7.687920228768493e-05,
	"loss": 0.8115,
	"step": 559
	},
	{
	"epoch": 0.03900400487550061,
	"grad_norm": 0.5682472586631775,
	"learning_rate": 7.655961335723433e-05,
	"loss": 0.7034,
	"step": 560
	},
	{
	"epoch": 0.03907365488420686,
	"grad_norm": 0.7236086130142212,
	"learning_rate": 7.624027755953592e-05,
	"loss": 0.9028,
	"step": 561
	},
	{
	"epoch": 0.03914330489291311,
	"grad_norm": 0.5866789221763611,
	"learning_rate": 7.592119834309715e-05,
	"loss": 0.8919,
	"step": 562
	},
	{
	"epoch": 0.039212954901619364,
	"grad_norm": 0.6271937489509583,
	"learning_rate": 7.560237915365472e-05,
	"loss": 0.6447,
	"step": 563
	},
	{
	"epoch": 0.03928260491032561,
	"grad_norm": 0.5319473147392273,
	"learning_rate": 7.528382343413734e-05,
	"loss": 1.0977,
	"step": 564
	},
	{
	"epoch": 0.03935225491903187,
	"grad_norm": 0.673537015914917,
	"learning_rate": 7.49655346246284e-05,
	"loss": 0.6669,
	"step": 565
	},
	{
	"epoch": 0.039421904927738116,
	"grad_norm": 0.7043957114219666,
	"learning_rate": 7.464751616232902e-05,
	"loss": 0.6334,
	"step": 566
	},
	{
	"epoch": 0.039491554936444365,
	"grad_norm": 0.6532731652259827,
	"learning_rate": 7.432977148152074e-05,
	"loss": 0.659,
	"step": 567
	},
	{
	"epoch": 0.03956120494515062,
	"grad_norm": 0.6882482767105103,
	"learning_rate": 7.401230401352866e-05,
	"loss": 0.711,
	"step": 568
	},
	{
	"epoch": 0.03963085495385687,
	"grad_norm": 0.7171745896339417,
	"learning_rate": 7.369511718668418e-05,
	"loss": 0.941,
	"step": 569
	},
	{
	"epoch": 0.03970050496256312,
	"grad_norm": 0.6474679708480835,
	"learning_rate": 7.337821442628805e-05,
	"loss": 0.8192,
	"step": 570
	},
	{
	"epoch": 0.03977015497126937,
	"grad_norm": 0.7054280042648315,
	"learning_rate": 7.306159915457342e-05,
	"loss": 0.6327,
	"step": 571
	},
	{
	"epoch": 0.03983980497997562,
	"grad_norm": 0.7624709606170654,
	"learning_rate": 7.274527479066883e-05,
	"loss": 0.8132,
	"step": 572
	},
	{
	"epoch": 0.039909454988681876,
	"grad_norm": 0.6930527687072754,
	"learning_rate": 7.242924475056127e-05,
	"loss": 0.8482,
	"step": 573
	},
	{
	"epoch": 0.039979104997388125,
	"grad_norm": 0.6599513292312622,
	"learning_rate": 7.211351244705946e-05,
	"loss": 0.6787,
	"step": 574
	},
	{
	"epoch": 0.04004875500609437,
	"grad_norm": 0.7311400771141052,
	"learning_rate": 7.179808128975674e-05,
	"loss": 0.9747,
	"step": 575
	},
	{
	"epoch": 0.04011840501480063,
	"grad_norm": 0.615138828754425,
	"learning_rate": 7.148295468499438e-05,
	"loss": 0.9404,
	"step": 576
	},
	{
	"epoch": 0.04018805502350688,
	"grad_norm": 0.6401761174201965,
	"learning_rate": 7.116813603582482e-05,
	"loss": 0.4915,
	"step": 577
	},
	{
	"epoch": 0.040257705032213126,
	"grad_norm": 0.6191440224647522,
	"learning_rate": 7.08536287419749e-05,
	"loss": 0.6031,
	"step": 578
	},
	{
	"epoch": 0.04032735504091938,
	"grad_norm": 0.5751050710678101,
	"learning_rate": 7.053943619980907e-05,
	"loss": 0.8371,
	"step": 579
	},
	{
	"epoch": 0.04039700504962563,
	"grad_norm": 0.518409252166748,
	"learning_rate": 7.022556180229285e-05,
	"loss": 0.4333,
	"step": 580
	},
	{
	"epoch": 0.040466655058331885,
	"grad_norm": 0.5712803602218628,
	"learning_rate": 6.991200893895608e-05,
	"loss": 0.796,
	"step": 581
	},
	{
	"epoch": 0.040536305067038134,
	"grad_norm": 0.661482036113739,
	"learning_rate": 6.959878099585635e-05,
	"loss": 0.8585,
	"step": 582
	},
	{
	"epoch": 0.04060595507574438,
	"grad_norm": 0.6602011322975159,
	"learning_rate": 6.92858813555424e-05,
	"loss": 0.9474,
	"step": 583
	},
	{
	"epoch": 0.04067560508445064,
	"grad_norm": 0.5971815586090088,
	"learning_rate": 6.897331339701776e-05,
	"loss": 0.7689,
	"step": 584
	},
	{
	"epoch": 0.040745255093156886,
	"grad_norm": 0.571740448474884,
	"learning_rate": 6.866108049570397e-05,
	"loss": 0.9023,
	"step": 585
	},
	{
	"epoch": 0.040814905101863135,
	"grad_norm": 0.6928638219833374,
	"learning_rate": 6.834918602340438e-05,
	"loss": 0.8899,
	"step": 586
	},
	{
	"epoch": 0.04088455511056939,
	"grad_norm": 0.6468199491500854,
	"learning_rate": 6.803763334826763e-05,
	"loss": 0.8841,
	"step": 587
	},
	{
	"epoch": 0.04095420511927564,
	"grad_norm": 0.6777251362800598,
	"learning_rate": 6.772642583475126e-05,
	"loss": 0.8491,
	"step": 588
	},
	{
	"epoch": 0.041023855127981894,
	"grad_norm": 0.5866687297821045,
	"learning_rate": 6.741556684358545e-05,
	"loss": 0.6435,
	"step": 589
	},
	{
	"epoch": 0.04109350513668814,
	"grad_norm": 0.5522730350494385,
	"learning_rate": 6.710505973173664e-05,
	"loss": 0.9188,
	"step": 590
	},
	{
	"epoch": 0.04116315514539439,
	"grad_norm": 0.7048250436782837,
	"learning_rate": 6.679490785237137e-05,
	"loss": 0.911,
	"step": 591
	},
	{
	"epoch": 0.041232805154100646,
	"grad_norm": 0.849677324295044,
	"learning_rate": 6.648511455482003e-05,
	"loss": 1.0408,
	"step": 592
	},
	{
	"epoch": 0.041302455162806895,
	"grad_norm": 0.653287947177887,
	"learning_rate": 6.617568318454059e-05,
	"loss": 1.187,
	"step": 593
	},
	{
	"epoch": 0.04137210517151314,
	"grad_norm": 0.5278560519218445,
	"learning_rate": 6.586661708308272e-05,
	"loss": 0.8789,
	"step": 594
	},
	{
	"epoch": 0.0414417551802194,
	"grad_norm": 0.7803817987442017,
	"learning_rate": 6.555791958805147e-05,
	"loss": 0.8788,
	"step": 595
	},
	{
	"epoch": 0.04151140518892565,
	"grad_norm": 0.6425774097442627,
	"learning_rate": 6.524959403307125e-05,
	"loss": 0.9296,
	"step": 596
	},
	{
	"epoch": 0.0415810551976319,
	"grad_norm": 0.5787883400917053,
	"learning_rate": 6.494164374775e-05,
	"loss": 1.0127,
	"step": 597
	},
	{
	"epoch": 0.04165070520633815,
	"grad_norm": 0.5686517357826233,
	"learning_rate": 6.463407205764305e-05,
	"loss": 0.7869,
	"step": 598
	},
	{
	"epoch": 0.0417203552150444,
	"grad_norm": 0.5126462578773499,
	"learning_rate": 6.43268822842173e-05,
	"loss": 1.2029,
	"step": 599
	},
	{
	"epoch": 0.041790005223750655,
	"grad_norm": 0.5618976950645447,
	"learning_rate": 6.402007774481536e-05,
	"loss": 0.5725,
	"step": 600
	},
	{
	"epoch": 0.041790005223750655,
	"eval_loss": 0.7635987401008606,
	"eval_runtime": 701.6781,
	"eval_samples_per_second": 7.126,
	"eval_steps_per_second": 1.781,
	"step": 600
	},
	{
	"epoch": 0.041859655232456904,
	"grad_norm": 0.6774680018424988,
	"learning_rate": 6.371366175261964e-05,
	"loss": 0.9805,
	"step": 601
	},
	{
	"epoch": 0.04192930524116315,
	"grad_norm": 0.7227701544761658,
	"learning_rate": 6.340763761661665e-05,
	"loss": 0.933,
	"step": 602
	},
	{
	"epoch": 0.04199895524986941,
	"grad_norm": 0.7895076870918274,
	"learning_rate": 6.310200864156126e-05,
	"loss": 0.9677,
	"step": 603
	},
	{
	"epoch": 0.042068605258575656,
	"grad_norm": 0.6837015748023987,
	"learning_rate": 6.279677812794103e-05,
	"loss": 1.1069,
	"step": 604
	},
	{
	"epoch": 0.04213825526728191,
	"grad_norm": 0.8501606583595276,
	"learning_rate": 6.249194937194047e-05,
	"loss": 0.961,
	"step": 605
	},
	{
	"epoch": 0.04220790527598816,
	"grad_norm": 0.7296304106712341,
	"learning_rate": 6.218752566540554e-05,
	"loss": 0.9667,
	"step": 606
	},
	{
	"epoch": 0.04227755528469441,
	"grad_norm": 0.5765381455421448,
	"learning_rate": 6.188351029580805e-05,
	"loss": 1.0982,
	"step": 607
	},
	{
	"epoch": 0.042347205293400664,
	"grad_norm": 0.7557181119918823,
	"learning_rate": 6.157990654621024e-05,
	"loss": 0.9381,
	"step": 608
	},
	{
	"epoch": 0.04241685530210691,
	"grad_norm": 0.6191427707672119,
	"learning_rate": 6.127671769522916e-05,
	"loss": 0.9322,
	"step": 609
	},
	{
	"epoch": 0.04248650531081316,
	"grad_norm": 0.5968077778816223,
	"learning_rate": 6.097394701700145e-05,
	"loss": 0.9394,
	"step": 610
	},
	{
	"epoch": 0.042556155319519416,
	"grad_norm": 0.5749527812004089,
	"learning_rate": 6.067159778114788e-05,
	"loss": 0.7593,
	"step": 611
	},
	{
	"epoch": 0.042625805328225665,
	"grad_norm": 0.5655612945556641,
	"learning_rate": 6.036967325273807e-05,
	"loss": 1.0865,
	"step": 612
	},
	{
	"epoch": 0.04269545533693192,
	"grad_norm": 0.7150444984436035,
	"learning_rate": 6.0068176692255175e-05,
	"loss": 0.612,
	"step": 613
	},
	{
	"epoch": 0.04276510534563817,
	"grad_norm": 0.6594777703285217,
	"learning_rate": 5.976711135556086e-05,
	"loss": 0.6786,
	"step": 614
	},
	{
	"epoch": 0.04283475535434442,
	"grad_norm": 0.6561244130134583,
	"learning_rate": 5.946648049385985e-05,
	"loss": 0.9041,
	"step": 615
	},
	{
	"epoch": 0.04290440536305067,
	"grad_norm": 0.5820670127868652,
	"learning_rate": 5.916628735366505e-05,
	"loss": 0.6228,
	"step": 616
	},
	{
	"epoch": 0.04297405537175692,
	"grad_norm": 0.7414914965629578,
	"learning_rate": 5.886653517676239e-05,
	"loss": 0.7384,
	"step": 617
	},
	{
	"epoch": 0.04304370538046317,
	"grad_norm": 0.7077262997627258,
	"learning_rate": 5.8567227200175865e-05,
	"loss": 1.0201,
	"step": 618
	},
	{
	"epoch": 0.043113355389169425,
	"grad_norm": 0.6975839734077454,
	"learning_rate": 5.8268366656132476e-05,
	"loss": 0.6453,
	"step": 619
	},
	{
	"epoch": 0.04318300539787567,
	"grad_norm": 0.6871505379676819,
	"learning_rate": 5.796995677202753e-05,
	"loss": 1.0648,
	"step": 620
	},
	{
	"epoch": 0.04325265540658193,
	"grad_norm": 0.6167171001434326,
	"learning_rate": 5.76720007703895e-05,
	"loss": 0.7303,
	"step": 621
	},
	{
	"epoch": 0.04332230541528818,
	"grad_norm": 0.7851260900497437,
	"learning_rate": 5.7374501868845544e-05,
	"loss": 0.7858,
	"step": 622
	},
	{
	"epoch": 0.043391955423994426,
	"grad_norm": 0.5275984406471252,
	"learning_rate": 5.7077463280086415e-05,
	"loss": 0.7998,
	"step": 623
	},
	{
	"epoch": 0.04346160543270068,
	"grad_norm": 0.7553796768188477,
	"learning_rate": 5.6780888211832116e-05,
	"loss": 0.6115,
	"step": 624
	},
	{
	"epoch": 0.04353125544140693,
	"grad_norm": 0.7186095118522644,
	"learning_rate": 5.648477986679703e-05,
	"loss": 0.9616,
	"step": 625
	},
	{
	"epoch": 0.04360090545011318,
	"grad_norm": 0.7424410581588745,
	"learning_rate": 5.6189141442655325e-05,
	"loss": 0.8707,
	"step": 626
	},
	{
	"epoch": 0.043670555458819434,
	"grad_norm": 0.6303914189338684,
	"learning_rate": 5.589397613200662e-05,
	"loss": 0.8386,
	"step": 627
	},
	{
	"epoch": 0.04374020546752568,
	"grad_norm": 0.7636226415634155,
	"learning_rate": 5.559928712234126e-05,
	"loss": 0.8905,
	"step": 628
	},
	{
	"epoch": 0.04380985547623194,
	"grad_norm": 0.6990499496459961,
	"learning_rate": 5.530507759600614e-05,
	"loss": 0.964,
	"step": 629
	},
	{
	"epoch": 0.043879505484938186,
	"grad_norm": 0.6701223254203796,
	"learning_rate": 5.501135073017008e-05,
	"loss": 0.8774,
	"step": 630
	},
	{
	"epoch": 0.043949155493644435,
	"grad_norm": 0.5796250104904175,
	"learning_rate": 5.471810969678975e-05,
	"loss": 0.6749,
	"step": 631
	},
	{
	"epoch": 0.04401880550235069,
	"grad_norm": 0.6239587664604187,
	"learning_rate": 5.442535766257525e-05,
	"loss": 0.9801,
	"step": 632
	},
	{
	"epoch": 0.04408845551105694,
	"grad_norm": 0.8477646112442017,
	"learning_rate": 5.413309778895602e-05,
	"loss": 0.6404,
	"step": 633
	},
	{
	"epoch": 0.04415810551976319,
	"grad_norm": 0.7139285802841187,
	"learning_rate": 5.3841333232046654e-05,
	"loss": 1.1062,
	"step": 634
	},
	{
	"epoch": 0.04422775552846944,
	"grad_norm": 0.5378491878509521,
	"learning_rate": 5.355006714261285e-05,
	"loss": 1.2571,
	"step": 635
	},
	{
	"epoch": 0.04429740553717569,
	"grad_norm": 0.647861659526825,
	"learning_rate": 5.325930266603724e-05,
	"loss": 1.2096,
	"step": 636
	},
	{
	"epoch": 0.044367055545881946,
	"grad_norm": 0.7343048453330994,
	"learning_rate": 5.296904294228569e-05,
	"loss": 0.9278,
	"step": 637
	},
	{
	"epoch": 0.044436705554588195,
	"grad_norm": 0.5826293230056763,
	"learning_rate": 5.267929110587307e-05,
	"loss": 1.0683,
	"step": 638
	},
	{
	"epoch": 0.04450635556329444,
	"grad_norm": 0.6172500848770142,
	"learning_rate": 5.2390050285829786e-05,
	"loss": 0.9441,
	"step": 639
	},
	{
	"epoch": 0.0445760055720007,
	"grad_norm": 0.7326881885528564,
	"learning_rate": 5.210132360566755e-05,
	"loss": 0.7529,
	"step": 640
	},
	{
	"epoch": 0.04464565558070695,
	"grad_norm": 0.7021967768669128,
	"learning_rate": 5.181311418334608e-05,
	"loss": 0.606,
	"step": 641
	},
	{
	"epoch": 0.044715305589413196,
	"grad_norm": 0.6962524652481079,
	"learning_rate": 5.1525425131239056e-05,
	"loss": 0.8838,
	"step": 642
	},
	{
	"epoch": 0.04478495559811945,
	"grad_norm": 0.535213828086853,
	"learning_rate": 5.123825955610079e-05,
	"loss": 0.8108,
	"step": 643
	},
	{
	"epoch": 0.0448546056068257,
	"grad_norm": 0.5601661801338196,
	"learning_rate": 5.0951620559032573e-05,
	"loss": 0.5116,
	"step": 644
	},
	{
	"epoch": 0.044924255615531955,
	"grad_norm": 0.6015167832374573,
	"learning_rate": 5.066551123544907e-05,
	"loss": 0.7486,
	"step": 645
	},
	{
	"epoch": 0.044993905624238204,
	"grad_norm": 0.8018868565559387,
	"learning_rate": 5.0379934675045145e-05,
	"loss": 0.9923,
	"step": 646
	},
	{
	"epoch": 0.04506355563294445,
	"grad_norm": 0.6844683289527893,
	"learning_rate": 5.009489396176221e-05,
	"loss": 0.9141,
	"step": 647
	},
	{
	"epoch": 0.04513320564165071,
	"grad_norm": 0.5720611810684204,
	"learning_rate": 4.9810392173755194e-05,
	"loss": 0.7879,
	"step": 648
	},
	{
	"epoch": 0.045202855650356956,
	"grad_norm": 0.5712713599205017,
	"learning_rate": 4.9526432383359036e-05,
	"loss": 0.9627,
	"step": 649
	},
	{
	"epoch": 0.045272505659063204,
	"grad_norm": 0.5877520442008972,
	"learning_rate": 4.92430176570558e-05,
	"loss": 0.6014,
	"step": 650
	},
	{
	"epoch": 0.04534215566776946,
	"grad_norm": 0.639779806137085,
	"learning_rate": 4.896015105544124e-05,
	"loss": 0.6532,
	"step": 651
	},
	{
	"epoch": 0.04541180567647571,
	"grad_norm": 0.5214322209358215,
	"learning_rate": 4.867783563319206e-05,
	"loss": 0.6277,
	"step": 652
	},
	{
	"epoch": 0.045481455685181964,
	"grad_norm": 0.6788254380226135,
	"learning_rate": 4.8396074439032604e-05,
	"loss": 0.5997,
	"step": 653
	},
	{
	"epoch": 0.04555110569388821,
	"grad_norm": 0.7286319732666016,
	"learning_rate": 4.811487051570235e-05,
	"loss": 0.9064,
	"step": 654
	},
	{
	"epoch": 0.04562075570259446,
	"grad_norm": 0.6942530870437622,
	"learning_rate": 4.783422689992256e-05,
	"loss": 1.2174,
	"step": 655
	},
	{
	"epoch": 0.045690405711300716,
	"grad_norm": 0.6202605366706848,
	"learning_rate": 4.7554146622363914e-05,
	"loss": 0.9942,
	"step": 656
	},
	{
	"epoch": 0.045760055720006965,
	"grad_norm": 0.6402217745780945,
	"learning_rate": 4.727463270761346e-05,
	"loss": 0.9941,
	"step": 657
	},
	{
	"epoch": 0.04582970572871321,
	"grad_norm": 0.5262777209281921,
	"learning_rate": 4.699568817414224e-05,
	"loss": 0.8669,
	"step": 658
	},
	{
	"epoch": 0.04589935573741947,
	"grad_norm": 0.6133191585540771,
	"learning_rate": 4.6717316034272394e-05,
	"loss": 0.9069,
	"step": 659
	},
	{
	"epoch": 0.04596900574612572,
	"grad_norm": 0.7493846416473389,
	"learning_rate": 4.643951929414493e-05,
	"loss": 0.6228,
	"step": 660
	},
	{
	"epoch": 0.04603865575483197,
	"grad_norm": 0.642196774482727,
	"learning_rate": 4.616230095368697e-05,
	"loss": 1.012,
	"step": 661
	},
	{
	"epoch": 0.04610830576353822,
	"grad_norm": 0.726894736289978,
	"learning_rate": 4.5885664006579645e-05,
	"loss": 1.0356,
	"step": 662
	},
	{
	"epoch": 0.04617795577224447,
	"grad_norm": 0.7074050307273865,
	"learning_rate": 4.5609611440225474e-05,
	"loss": 1.0333,
	"step": 663
	},
	{
	"epoch": 0.046247605780950725,
	"grad_norm": 0.7056405544281006,
	"learning_rate": 4.533414623571637e-05,
	"loss": 0.5944,
	"step": 664
	},
	{
	"epoch": 0.04631725578965697,
	"grad_norm": 0.7887142896652222,
	"learning_rate": 4.505927136780128e-05,
	"loss": 0.8546,
	"step": 665
	},
	{
	"epoch": 0.04638690579836322,
	"grad_norm": 0.5718196034431458,
	"learning_rate": 4.478498980485405e-05,
	"loss": 0.7971,
	"step": 666
	},
	{
	"epoch": 0.04645655580706948,
	"grad_norm": 0.4922311007976532,
	"learning_rate": 4.4511304508841544e-05,
	"loss": 0.4773,
	"step": 667
	},
	{
	"epoch": 0.046526205815775726,
	"grad_norm": 0.5427528619766235,
	"learning_rate": 4.423821843529139e-05,
	"loss": 0.5889,
	"step": 668
	},
	{
	"epoch": 0.04659585582448198,
	"grad_norm": 0.5341909527778625,
	"learning_rate": 4.396573453326037e-05,
	"loss": 0.7427,
	"step": 669
	},
	{
	"epoch": 0.04666550583318823,
	"grad_norm": 0.7404798269271851,
	"learning_rate": 4.369385574530227e-05,
	"loss": 1.1909,
	"step": 670
	},
	{
	"epoch": 0.04673515584189448,
	"grad_norm": 0.6806610226631165,
	"learning_rate": 4.342258500743638e-05,
	"loss": 0.9576,
	"step": 671
	},
	{
	"epoch": 0.046804805850600734,
	"grad_norm": 0.6135253310203552,
	"learning_rate": 4.315192524911551e-05,
	"loss": 0.7204,
	"step": 672
	},
	{
	"epoch": 0.04687445585930698,
	"grad_norm": 0.8514856100082397,
	"learning_rate": 4.288187939319465e-05,
	"loss": 0.9307,
	"step": 673
	},
	{
	"epoch": 0.04694410586801323,
	"grad_norm": 0.6521239280700684,
	"learning_rate": 4.261245035589917e-05,
	"loss": 0.6885,
	"step": 674
	},
	{
	"epoch": 0.047013755876719486,
	"grad_norm": 0.6027514338493347,
	"learning_rate": 4.234364104679347e-05,
	"loss": 0.9786,
	"step": 675
	},
	{
	"epoch": 0.047083405885425735,
	"grad_norm": 0.6285941004753113,
	"learning_rate": 4.207545436874941e-05,
	"loss": 0.6983,
	"step": 676
	},
	{
	"epoch": 0.04715305589413199,
	"grad_norm": 0.6285765767097473,
	"learning_rate": 4.1807893217915195e-05,
	"loss": 0.8987,
	"step": 677
	},
	{
	"epoch": 0.04722270590283824,
	"grad_norm": 0.7090179324150085,
	"learning_rate": 4.15409604836838e-05,
	"loss": 1.0551,
	"step": 678
	},
	{
	"epoch": 0.04729235591154449,
	"grad_norm": 0.6713972091674805,
	"learning_rate": 4.127465904866209e-05,
	"loss": 0.7779,
	"step": 679
	},
	{
	"epoch": 0.04736200592025074,
	"grad_norm": 0.6123691201210022,
	"learning_rate": 4.1008991788639386e-05,
	"loss": 0.6502,
	"step": 680
	},
	{
	"epoch": 0.04743165592895699,
	"grad_norm": 0.8065311312675476,
	"learning_rate": 4.0743961572556686e-05,
	"loss": 0.6814,
	"step": 681
	},
	{
	"epoch": 0.04750130593766324,
	"grad_norm": 0.6417213082313538,
	"learning_rate": 4.047957126247541e-05,
	"loss": 0.8127,
	"step": 682
	},
	{
	"epoch": 0.047570955946369495,
	"grad_norm": 0.7060418725013733,
	"learning_rate": 4.021582371354674e-05,
	"loss": 0.9657,
	"step": 683
	},
	{
	"epoch": 0.04764060595507574,
	"grad_norm": 0.6365180015563965,
	"learning_rate": 3.99527217739807e-05,
	"loss": 0.8965,
	"step": 684
	},
	{
	"epoch": 0.047710255963782,
	"grad_norm": 0.7569335103034973,
	"learning_rate": 3.969026828501523e-05,
	"loss": 0.9742,
	"step": 685
	},
	{
	"epoch": 0.04777990597248825,
	"grad_norm": 0.6113385558128357,
	"learning_rate": 3.942846608088583e-05,
	"loss": 0.8562,
	"step": 686
	},
	{
	"epoch": 0.047849555981194496,
	"grad_norm": 0.5718615651130676,
	"learning_rate": 3.916731798879462e-05,
	"loss": 0.6826,
	"step": 687
	},
	{
	"epoch": 0.04791920598990075,
	"grad_norm": 0.718606173992157,
	"learning_rate": 3.8906826828880085e-05,
	"loss": 0.5029,
	"step": 688
	},
	{
	"epoch": 0.047988855998607,
	"grad_norm": 0.745060384273529,
	"learning_rate": 3.8646995414186396e-05,
	"loss": 0.4777,
	"step": 689
	},
	{
	"epoch": 0.04805850600731325,
	"grad_norm": 0.6253296136856079,
	"learning_rate": 3.838782655063325e-05,
	"loss": 0.4763,
	"step": 690
	},
	{
	"epoch": 0.048128156016019503,
	"grad_norm": 0.7446655631065369,
	"learning_rate": 3.812932303698533e-05,
	"loss": 0.7823,
	"step": 691
	},
	{
	"epoch": 0.04819780602472575,
	"grad_norm": 0.7678576111793518,
	"learning_rate": 3.7871487664822326e-05,
	"loss": 0.7656,
	"step": 692
	},
	{
	"epoch": 0.04826745603343201,
	"grad_norm": 0.7170537710189819,
	"learning_rate": 3.7614323218508506e-05,
	"loss": 1.0093,
	"step": 693
	},
	{
	"epoch": 0.048337106042138256,
	"grad_norm": 0.7178253531455994,
	"learning_rate": 3.7357832475163045e-05,
	"loss": 0.9605,
	"step": 694
	},
	{
	"epoch": 0.048406756050844504,
	"grad_norm": 0.6666684746742249,
	"learning_rate": 3.710201820462956e-05,
	"loss": 0.9654,
	"step": 695
	},
	{
	"epoch": 0.04847640605955076,
	"grad_norm": 0.6459413766860962,
	"learning_rate": 3.6846883169446625e-05,
	"loss": 0.6705,
	"step": 696
	},
	{
	"epoch": 0.04854605606825701,
	"grad_norm": 0.6586235165596008,
	"learning_rate": 3.659243012481757e-05,
	"loss": 1.0915,
	"step": 697
	},
	{
	"epoch": 0.04861570607696326,
	"grad_norm": 0.6067480444908142,
	"learning_rate": 3.63386618185811e-05,
	"loss": 0.8191,
	"step": 698
	},
	{
	"epoch": 0.04868535608566951,
	"grad_norm": 0.7405864000320435,
	"learning_rate": 3.6085580991181256e-05,
	"loss": 0.9778,
	"step": 699
	},
	{
	"epoch": 0.04875500609437576,
	"grad_norm": 0.6318597197532654,
	"learning_rate": 3.583319037563816e-05,
	"loss": 0.6675,
	"step": 700
	},
	{
	"epoch": 0.04875500609437576,
	"eval_loss": 0.7419635653495789,
	"eval_runtime": 700.4042,
	"eval_samples_per_second": 7.139,
	"eval_steps_per_second": 1.785,
	"step": 700
	},
	{
	"epoch": 0.048824656103082016,
	"grad_norm": 0.6579747200012207,
	"learning_rate": 3.558149269751816e-05,
	"loss": 0.64,
	"step": 701
	},
	{
	"epoch": 0.048894306111788265,
	"grad_norm": 0.6741796731948853,
	"learning_rate": 3.5330490674904735e-05,
	"loss": 0.7894,
	"step": 702
	},
	{
	"epoch": 0.04896395612049451,
	"grad_norm": 0.691154956817627,
	"learning_rate": 3.5080187018368846e-05,
	"loss": 0.8126,
	"step": 703
	},
	{
	"epoch": 0.04903360612920077,
	"grad_norm": 0.5884422659873962,
	"learning_rate": 3.483058443093989e-05,
	"loss": 0.4997,
	"step": 704
	},
	{
	"epoch": 0.04910325613790702,
	"grad_norm": 0.8021077513694763,
	"learning_rate": 3.458168560807643e-05,
	"loss": 0.9094,
	"step": 705
	},
	{
	"epoch": 0.049172906146613266,
	"grad_norm": 0.6837207674980164,
	"learning_rate": 3.433349323763696e-05,
	"loss": 0.8385,
	"step": 706
	},
	{
	"epoch": 0.04924255615531952,
	"grad_norm": 0.815160870552063,
	"learning_rate": 3.408600999985112e-05,
	"loss": 0.7504,
	"step": 707
	},
	{
	"epoch": 0.04931220616402577,
	"grad_norm": 0.6362173557281494,
	"learning_rate": 3.383923856729052e-05,
	"loss": 0.962,
	"step": 708
	},
	{
	"epoch": 0.049381856172732025,
	"grad_norm": 0.7275608777999878,
	"learning_rate": 3.359318160484011e-05,
	"loss": 1.1645,
	"step": 709
	},
	{
	"epoch": 0.04945150618143827,
	"grad_norm": 0.7200846672058105,
	"learning_rate": 3.334784176966912e-05,
	"loss": 1.1489,
	"step": 710
	},
	{
	"epoch": 0.04952115619014452,
	"grad_norm": 0.7058080434799194,
	"learning_rate": 3.310322171120267e-05,
	"loss": 0.7897,
	"step": 711
	},
	{
	"epoch": 0.04959080619885078,
	"grad_norm": 0.6900257468223572,
	"learning_rate": 3.28593240710929e-05,
	"loss": 0.8203,
	"step": 712
	},
	{
	"epoch": 0.049660456207557026,
	"grad_norm": 0.6234864592552185,
	"learning_rate": 3.261615148319063e-05,
	"loss": 0.8475,
	"step": 713
	},
	{
	"epoch": 0.049730106216263274,
	"grad_norm": 0.7157082557678223,
	"learning_rate": 3.2373706573516794e-05,
	"loss": 1.1521,
	"step": 714
	},
	{
	"epoch": 0.04979975622496953,
	"grad_norm": 0.6452792286872864,
	"learning_rate": 3.21319919602342e-05,
	"loss": 0.7429,
	"step": 715
	},
	{
	"epoch": 0.04986940623367578,
	"grad_norm": 0.6651695966720581,
	"learning_rate": 3.189101025361905e-05,
	"loss": 0.7481,
	"step": 716
	},
	{
	"epoch": 0.049939056242382034,
	"grad_norm": 0.5767229199409485,
	"learning_rate": 3.165076405603303e-05,
	"loss": 1.2513,
	"step": 717
	},
	{
	"epoch": 0.05000870625108828,
	"grad_norm": 0.6223350763320923,
	"learning_rate": 3.141125596189494e-05,
	"loss": 1.0635,
	"step": 718
	},
	{
	"epoch": 0.05007835625979453,
	"grad_norm": 0.6872287392616272,
	"learning_rate": 3.117248855765294e-05,
	"loss": 0.6846,
	"step": 719
	},
	{
	"epoch": 0.050148006268500786,
	"grad_norm": 0.6780046224594116,
	"learning_rate": 3.093446442175631e-05,
	"loss": 0.7238,
	"step": 720
	},
	{
	"epoch": 0.050217656277207035,
	"grad_norm": 0.5555802583694458,
	"learning_rate": 3.069718612462793e-05,
	"loss": 0.8503,
	"step": 721
	},
	{
	"epoch": 0.05028730628591328,
	"grad_norm": 0.7299566268920898,
	"learning_rate": 3.0460656228636254e-05,
	"loss": 0.8579,
	"step": 722
	},
	{
	"epoch": 0.05035695629461954,
	"grad_norm": 0.6805000305175781,
	"learning_rate": 3.022487728806783e-05,
	"loss": 0.8994,
	"step": 723
	},
	{
	"epoch": 0.05042660630332579,
	"grad_norm": 0.5568419098854065,
	"learning_rate": 2.9989851849099594e-05,
	"loss": 0.9992,
	"step": 724
	},
	{
	"epoch": 0.05049625631203204,
	"grad_norm": 0.7006337642669678,
	"learning_rate": 2.9755582449771457e-05,
	"loss": 0.9476,
	"step": 725
	},
	{
	"epoch": 0.05056590632073829,
	"grad_norm": 0.7835425734519958,
	"learning_rate": 2.952207161995879e-05,
	"loss": 1.0143,
	"step": 726
	},
	{
	"epoch": 0.05063555632944454,
	"grad_norm": 0.6196465492248535,
	"learning_rate": 2.9289321881345254e-05,
	"loss": 0.7623,
	"step": 727
	},
	{
	"epoch": 0.050705206338150795,
	"grad_norm": 0.7238385677337646,
	"learning_rate": 2.905733574739542e-05,
	"loss": 0.9173,
	"step": 728
	},
	{
	"epoch": 0.05077485634685704,
	"grad_norm": 0.45640066266059875,
	"learning_rate": 2.8826115723327684e-05,
	"loss": 0.3747,
	"step": 729
	},
	{
	"epoch": 0.05084450635556329,
	"grad_norm": 0.7860556840896606,
	"learning_rate": 2.8595664306087312e-05,
	"loss": 0.677,
	"step": 730
	},
	{
	"epoch": 0.05091415636426955,
	"grad_norm": 0.7076509594917297,
	"learning_rate": 2.8365983984319254e-05,
	"loss": 0.6773,
	"step": 731
	},
	{
	"epoch": 0.050983806372975796,
	"grad_norm": 0.5683595538139343,
	"learning_rate": 2.8137077238341525e-05,
	"loss": 0.7685,
	"step": 732
	},
	{
	"epoch": 0.05105345638168205,
	"grad_norm": 0.6466002464294434,
	"learning_rate": 2.7908946540118208e-05,
	"loss": 0.6539,
	"step": 733
	},
	{
	"epoch": 0.0511231063903883,
	"grad_norm": 0.7310590147972107,
	"learning_rate": 2.7681594353232932e-05,
	"loss": 0.6498,
	"step": 734
	},
	{
	"epoch": 0.05119275639909455,
	"grad_norm": 0.6998217701911926,
	"learning_rate": 2.7455023132862044e-05,
	"loss": 0.827,
	"step": 735
	},
	{
	"epoch": 0.051262406407800803,
	"grad_norm": 0.6120029091835022,
	"learning_rate": 2.7229235325748393e-05,
	"loss": 0.7574,
	"step": 736
	},
	{
	"epoch": 0.05133205641650705,
	"grad_norm": 0.6969332695007324,
	"learning_rate": 2.7004233370174603e-05,
	"loss": 0.9495,
	"step": 737
	},
	{
	"epoch": 0.0514017064252133,
	"grad_norm": 0.5970465540885925,
	"learning_rate": 2.6780019695937008e-05,
	"loss": 0.826,
	"step": 738
	},
	{
	"epoch": 0.051471356433919556,
	"grad_norm": 0.5893230438232422,
	"learning_rate": 2.6556596724319193e-05,
	"loss": 0.5827,
	"step": 739
	},
	{
	"epoch": 0.051541006442625804,
	"grad_norm": 0.6217379570007324,
	"learning_rate": 2.6333966868066042e-05,
	"loss": 0.833,
	"step": 740
	},
	{
	"epoch": 0.05161065645133206,
	"grad_norm": 0.7289059162139893,
	"learning_rate": 2.6112132531357457e-05,
	"loss": 0.6796,
	"step": 741
	},
	{
	"epoch": 0.05168030646003831,
	"grad_norm": 0.6685306429862976,
	"learning_rate": 2.5891096109782642e-05,
	"loss": 0.8579,
	"step": 742
	},
	{
	"epoch": 0.05174995646874456,
	"grad_norm": 0.6785428524017334,
	"learning_rate": 2.567085999031408e-05,
	"loss": 1.1535,
	"step": 743
	},
	{
	"epoch": 0.05181960647745081,
	"grad_norm": 0.5720734000205994,
	"learning_rate": 2.5451426551281798e-05,
	"loss": 0.8504,
	"step": 744
	},
	{
	"epoch": 0.05188925648615706,
	"grad_norm": 0.8368062376976013,
	"learning_rate": 2.5232798162347604e-05,
	"loss": 0.866,
	"step": 745
	},
	{
	"epoch": 0.05195890649486331,
	"grad_norm": 0.5373237133026123,
	"learning_rate": 2.5014977184479694e-05,
	"loss": 1.1392,
	"step": 746
	},
	{
	"epoch": 0.052028556503569565,
	"grad_norm": 0.9247710704803467,
	"learning_rate": 2.4797965969926907e-05,
	"loss": 0.8317,
	"step": 747
	},
	{
	"epoch": 0.05209820651227581,
	"grad_norm": 0.6235398650169373,
	"learning_rate": 2.4581766862193556e-05,
	"loss": 0.889,
	"step": 748
	},
	{
	"epoch": 0.05216785652098207,
	"grad_norm": 0.5890073776245117,
	"learning_rate": 2.4366382196013892e-05,
	"loss": 1.0977,
	"step": 749
	},
	{
	"epoch": 0.05223750652968832,
	"grad_norm": 0.5582912564277649,
	"learning_rate": 2.4151814297327158e-05,
	"loss": 0.6759,
	"step": 750
	},
	{
	"epoch": 0.052307156538394566,
	"grad_norm": 0.6418405771255493,
	"learning_rate": 2.3938065483252183e-05,
	"loss": 0.5678,
	"step": 751
	},
	{
	"epoch": 0.05237680654710082,
	"grad_norm": 0.5797872543334961,
	"learning_rate": 2.372513806206258e-05,
	"loss": 0.6385,
	"step": 752
	},
	{
	"epoch": 0.05244645655580707,
	"grad_norm": 0.6586098074913025,
	"learning_rate": 2.3513034333161765e-05,
	"loss": 0.8608,
	"step": 753
	},
	{
	"epoch": 0.05251610656451332,
	"grad_norm": 0.5528561472892761,
	"learning_rate": 2.3301756587057987e-05,
	"loss": 0.6811,
	"step": 754
	},
	{
	"epoch": 0.05258575657321957,
	"grad_norm": 0.5883040428161621,
	"learning_rate": 2.3091307105339856e-05,
	"loss": 0.6142,
	"step": 755
	},
	{
	"epoch": 0.05265540658192582,
	"grad_norm": 0.9445425271987915,
	"learning_rate": 2.2881688160651405e-05,
	"loss": 0.8142,
	"step": 756
	},
	{
	"epoch": 0.05272505659063208,
	"grad_norm": 0.6835020184516907,
	"learning_rate": 2.267290201666782e-05,
	"loss": 0.8235,
	"step": 757
	},
	{
	"epoch": 0.052794706599338326,
	"grad_norm": 0.6816075444221497,
	"learning_rate": 2.246495092807077e-05,
	"loss": 1.0772,
	"step": 758
	},
	{
	"epoch": 0.052864356608044574,
	"grad_norm": 0.5880750417709351,
	"learning_rate": 2.2257837140524274e-05,
	"loss": 1.0342,
	"step": 759
	},
	{
	"epoch": 0.05293400661675083,
	"grad_norm": 0.6749791502952576,
	"learning_rate": 2.20515628906502e-05,
	"loss": 0.6126,
	"step": 760
	},
	{
	"epoch": 0.05300365662545708,
	"grad_norm": 0.7459970712661743,
	"learning_rate": 2.1846130406004396e-05,
	"loss": 0.6544,
	"step": 761
	},
	{
	"epoch": 0.05307330663416333,
	"grad_norm": 0.5859512686729431,
	"learning_rate": 2.164154190505231e-05,
	"loss": 0.7144,
	"step": 762
	},
	{
	"epoch": 0.05314295664286958,
	"grad_norm": 0.6339436173439026,
	"learning_rate": 2.1437799597145425e-05,
	"loss": 0.5725,
	"step": 763
	},
	{
	"epoch": 0.05321260665157583,
	"grad_norm": 0.7248126268386841,
	"learning_rate": 2.1234905682496986e-05,
	"loss": 0.7997,
	"step": 764
	},
	{
	"epoch": 0.05328225666028208,
	"grad_norm": 0.6739416718482971,
	"learning_rate": 2.103286235215859e-05,
	"loss": 0.7482,
	"step": 765
	},
	{
	"epoch": 0.053351906668988335,
	"grad_norm": 0.7312667369842529,
	"learning_rate": 2.083167178799623e-05,
	"loss": 1.0439,
	"step": 766
	},
	{
	"epoch": 0.05342155667769458,
	"grad_norm": 0.6655896902084351,
	"learning_rate": 2.0631336162667035e-05,
	"loss": 0.8695,
	"step": 767
	},
	{
	"epoch": 0.05349120668640084,
	"grad_norm": 0.6517478823661804,
	"learning_rate": 2.0431857639595486e-05,
	"loss": 0.6283,
	"step": 768
	},
	{
	"epoch": 0.05356085669510709,
	"grad_norm": 0.5833168029785156,
	"learning_rate": 2.023323837295037e-05,
	"loss": 1.2862,
	"step": 769
	},
	{
	"epoch": 0.053630506703813335,
	"grad_norm": 0.45417115092277527,
	"learning_rate": 2.0035480507621218e-05,
	"loss": 0.4238,
	"step": 770
	},
	{
	"epoch": 0.05370015671251959,
	"grad_norm": 0.6575907468795776,
	"learning_rate": 1.983858617919543e-05,
	"loss": 1.034,
	"step": 771
	},
	{
	"epoch": 0.05376980672122584,
	"grad_norm": 0.606704831123352,
	"learning_rate": 1.9642557513934933e-05,
	"loss": 0.8014,
	"step": 772
	},
	{
	"epoch": 0.05383945672993209,
	"grad_norm": 0.594321608543396,
	"learning_rate": 1.9447396628753467e-05,
	"loss": 0.5752,
	"step": 773
	},
	{
	"epoch": 0.05390910673863834,
	"grad_norm": 0.7383103966712952,
	"learning_rate": 1.925310563119358e-05,
	"loss": 0.7493,
	"step": 774
	},
	{
	"epoch": 0.05397875674734459,
	"grad_norm": 0.636978268623352,
	"learning_rate": 1.905968661940385e-05,
	"loss": 0.4319,
	"step": 775
	},
	{
	"epoch": 0.05404840675605085,
	"grad_norm": 0.6960916519165039,
	"learning_rate": 1.8867141682116374e-05,
	"loss": 0.9924,
	"step": 776
	},
	{
	"epoch": 0.054118056764757096,
	"grad_norm": 0.649654746055603,
	"learning_rate": 1.8675472898624014e-05,
	"loss": 0.7308,
	"step": 777
	},
	{
	"epoch": 0.054187706773463344,
	"grad_norm": 0.6827317476272583,
	"learning_rate": 1.8484682338758152e-05,
	"loss": 0.7227,
	"step": 778
	},
	{
	"epoch": 0.0542573567821696,
	"grad_norm": 0.6983030438423157,
	"learning_rate": 1.8294772062866138e-05,
	"loss": 0.8553,
	"step": 779
	},
	{
	"epoch": 0.05432700679087585,
	"grad_norm": 0.5816463232040405,
	"learning_rate": 1.8105744121789225e-05,
	"loss": 0.7053,
	"step": 780
	},
	{
	"epoch": 0.0543966567995821,
	"grad_norm": 0.8149849772453308,
	"learning_rate": 1.791760055684023e-05,
	"loss": 0.7378,
	"step": 781
	},
	{
	"epoch": 0.05446630680828835,
	"grad_norm": 0.626234233379364,
	"learning_rate": 1.7730343399781668e-05,
	"loss": 0.8566,
	"step": 782
	},
	{
	"epoch": 0.0545359568169946,
	"grad_norm": 0.7223556637763977,
	"learning_rate": 1.754397467280372e-05,
	"loss": 0.7798,
	"step": 783
	},
	{
	"epoch": 0.054605606825700856,
	"grad_norm": 0.6546375155448914,
	"learning_rate": 1.735849638850242e-05,
	"loss": 1.0634,
	"step": 784
	},
	{
	"epoch": 0.054675256834407104,
	"grad_norm": 0.6382943987846375,
	"learning_rate": 1.7173910549857854e-05,
	"loss": 0.7336,
	"step": 785
	},
	{
	"epoch": 0.05474490684311335,
	"grad_norm": 0.592207133769989,
	"learning_rate": 1.699021915021266e-05,
	"loss": 0.5601,
	"step": 786
	},
	{
	"epoch": 0.05481455685181961,
	"grad_norm": 0.6741936206817627,
	"learning_rate": 1.6807424173250354e-05,
	"loss": 0.9638,
	"step": 787
	},
	{
	"epoch": 0.05488420686052586,
	"grad_norm": 0.5983725190162659,
	"learning_rate": 1.6625527592974077e-05,
	"loss": 0.7403,
	"step": 788
	},
	{
	"epoch": 0.054953856869232105,
	"grad_norm": 0.5087631940841675,
	"learning_rate": 1.6444531373685078e-05,
	"loss": 0.9725,
	"step": 789
	},
	{
	"epoch": 0.05502350687793836,
	"grad_norm": 0.7693138122558594,
	"learning_rate": 1.6264437469961703e-05,
	"loss": 0.6232,
	"step": 790
	},
	{
	"epoch": 0.05509315688664461,
	"grad_norm": 0.9830653071403503,
	"learning_rate": 1.6085247826638093e-05,
	"loss": 0.7752,
	"step": 791
	},
	{
	"epoch": 0.055162806895350865,
	"grad_norm": 0.6889302134513855,
	"learning_rate": 1.5906964378783373e-05,
	"loss": 0.6974,
	"step": 792
	},
	{
	"epoch": 0.05523245690405711,
	"grad_norm": 0.6805455088615417,
	"learning_rate": 1.5729589051680647e-05,
	"loss": 0.9143,
	"step": 793
	},
	{
	"epoch": 0.05530210691276336,
	"grad_norm": 0.6505549550056458,
	"learning_rate": 1.5553123760806143e-05,
	"loss": 0.6784,
	"step": 794
	},
	{
	"epoch": 0.05537175692146962,
	"grad_norm": 0.6062676310539246,
	"learning_rate": 1.5377570411808718e-05,
	"loss": 0.8088,
	"step": 795
	},
	{
	"epoch": 0.055441406930175866,
	"grad_norm": 0.5329009890556335,
	"learning_rate": 1.5202930900489054e-05,
	"loss": 0.4477,
	"step": 796
	},
	{
	"epoch": 0.055511056938882114,
	"grad_norm": 0.6530266404151917,
	"learning_rate": 1.502920711277943e-05,
	"loss": 0.7462,
	"step": 797
	},
	{
	"epoch": 0.05558070694758837,
	"grad_norm": 0.6333693861961365,
	"learning_rate": 1.4856400924723079e-05,
	"loss": 1.1035,
	"step": 798
	},
	{
	"epoch": 0.05565035695629462,
	"grad_norm": 0.7612791061401367,
	"learning_rate": 1.4684514202454225e-05,
	"loss": 0.9053,
	"step": 799
	},
	{
	"epoch": 0.05572000696500087,
	"grad_norm": 0.6711084842681885,
	"learning_rate": 1.4513548802177634e-05,
	"loss": 1.0815,
	"step": 800
	},
	{
	"epoch": 0.05572000696500087,
	"eval_loss": 0.7279470562934875,
	"eval_runtime": 700.3911,
	"eval_samples_per_second": 7.139,
	"eval_steps_per_second": 1.785,
	"step": 800
	},
	{
	"epoch": 0.05578965697370712,
	"grad_norm": 0.8243626356124878,
	"learning_rate": 1.4343506570148846e-05,
	"loss": 0.9067,
	"step": 801
	},
	{
	"epoch": 0.05585930698241337,
	"grad_norm": 0.740206241607666,
	"learning_rate": 1.4174389342653971e-05,
	"loss": 1.0956,
	"step": 802
	},
	{
	"epoch": 0.055928956991119626,
	"grad_norm": 0.6383155584335327,
	"learning_rate": 1.4006198945990168e-05,
	"loss": 0.9274,
	"step": 803
	},
	{
	"epoch": 0.055998606999825874,
	"grad_norm": 0.7425148487091064,
	"learning_rate": 1.3838937196445579e-05,
	"loss": 1.083,
	"step": 804
	},
	{
	"epoch": 0.05606825700853212,
	"grad_norm": 0.6034273505210876,
	"learning_rate": 1.367260590028e-05,
	"loss": 0.7125,
	"step": 805
	},
	{
	"epoch": 0.05613790701723838,
	"grad_norm": 0.7047588229179382,
	"learning_rate": 1.3507206853705178e-05,
	"loss": 0.7749,
	"step": 806
	},
	{
	"epoch": 0.05620755702594463,
	"grad_norm": 0.7387014627456665,
	"learning_rate": 1.334274184286558e-05,
	"loss": 0.7397,
	"step": 807
	},
	{
	"epoch": 0.05627720703465088,
	"grad_norm": 0.6060226559638977,
	"learning_rate": 1.3179212643818929e-05,
	"loss": 0.5144,
	"step": 808
	},
	{
	"epoch": 0.05634685704335713,
	"grad_norm": 0.7422417402267456,
	"learning_rate": 1.3016621022517206e-05,
	"loss": 0.7739,
	"step": 809
	},
	{
	"epoch": 0.05641650705206338,
	"grad_norm": 0.6336711645126343,
	"learning_rate": 1.2854968734787398e-05,
	"loss": 0.471,
	"step": 810
	},
	{
	"epoch": 0.056486157060769634,
	"grad_norm": 0.667668879032135,
	"learning_rate": 1.2694257526312725e-05,
	"loss": 0.4143,
	"step": 811
	},
	{
	"epoch": 0.05655580706947588,
	"grad_norm": 0.6936927437782288,
	"learning_rate": 1.2534489132613603e-05,
	"loss": 0.8842,
	"step": 812
	},
	{
	"epoch": 0.05662545707818213,
	"grad_norm": 0.6019664406776428,
	"learning_rate": 1.2375665279029048e-05,
	"loss": 0.7445,
	"step": 813
	},
	{
	"epoch": 0.05669510708688839,
	"grad_norm": 0.7595625519752502,
	"learning_rate": 1.221778768069799e-05,
	"loss": 0.8676,
	"step": 814
	},
	{
	"epoch": 0.056764757095594635,
	"grad_norm": 0.593315839767456,
	"learning_rate": 1.206085804254069e-05,
	"loss": 0.7546,
	"step": 815
	},
	{
	"epoch": 0.05683440710430089,
	"grad_norm": 0.7907949090003967,
	"learning_rate": 1.1904878059240442e-05,
	"loss": 1.0131,
	"step": 816
	},
	{
	"epoch": 0.05690405711300714,
	"grad_norm": 0.6472040414810181,
	"learning_rate": 1.174984941522519e-05,
	"loss": 0.6795,
	"step": 817
	},
	{
	"epoch": 0.05697370712171339,
	"grad_norm": 0.6748494505882263,
	"learning_rate": 1.1595773784649389e-05,
	"loss": 0.9777,
	"step": 818
	},
	{
	"epoch": 0.05704335713041964,
	"grad_norm": 0.7594382166862488,
	"learning_rate": 1.1442652831375855e-05,
	"loss": 0.8305,
	"step": 819
	},
	{
	"epoch": 0.05711300713912589,
	"grad_norm": 0.5605437159538269,
	"learning_rate": 1.1290488208957895e-05,
	"loss": 0.9774,
	"step": 820
	},
	{
	"epoch": 0.05718265714783214,
	"grad_norm": 0.7108663320541382,
	"learning_rate": 1.1139281560621362e-05,
	"loss": 1.1447,
	"step": 821
	},
	{
	"epoch": 0.057252307156538396,
	"grad_norm": 0.7549561858177185,
	"learning_rate": 1.0989034519246954e-05,
	"loss": 1.0838,
	"step": 822
	},
	{
	"epoch": 0.057321957165244644,
	"grad_norm": 0.5975289940834045,
	"learning_rate": 1.0839748707352603e-05,
	"loss": 1.0126,
	"step": 823
	},
	{
	"epoch": 0.0573916071739509,
	"grad_norm": 0.6680442094802856,
	"learning_rate": 1.06914257370759e-05,
	"loss": 0.5809,
	"step": 824
	},
	{
	"epoch": 0.05746125718265715,
	"grad_norm": 0.7288407683372498,
	"learning_rate": 1.0544067210156671e-05,
	"loss": 0.9369,
	"step": 825
	},
	{
	"epoch": 0.0575309071913634,
	"grad_norm": 0.7064124345779419,
	"learning_rate": 1.0397674717919802e-05,
	"loss": 0.8142,
	"step": 826
	},
	{
	"epoch": 0.05760055720006965,
	"grad_norm": 0.6422365307807922,
	"learning_rate": 1.0252249841257877e-05,
	"loss": 0.5993,
	"step": 827
	},
	{
	"epoch": 0.0576702072087759,
	"grad_norm": 0.6080381870269775,
	"learning_rate": 1.0107794150614281e-05,
	"loss": 0.6939,
	"step": 828
	},
	{
	"epoch": 0.05773985721748215,
	"grad_norm": 0.6256659030914307,
	"learning_rate": 9.964309205966083e-06,
	"loss": 0.4506,
	"step": 829
	},
	{
	"epoch": 0.057809507226188404,
	"grad_norm": 0.6198416352272034,
	"learning_rate": 9.821796556807339e-06,
	"loss": 0.6324,
	"step": 830
	},
	{
	"epoch": 0.05787915723489465,
	"grad_norm": 0.6347202658653259,
	"learning_rate": 9.680257742132215e-06,
	"loss": 0.6047,
	"step": 831
	},
	{
	"epoch": 0.05794880724360091,
	"grad_norm": 0.60918128490448,
	"learning_rate": 9.539694290418488e-06,
	"loss": 0.9085,
	"step": 832
	},
	{
	"epoch": 0.05801845725230716,
	"grad_norm": 0.6706361174583435,
	"learning_rate": 9.400107719610995e-06,
	"loss": 0.9078,
	"step": 833
	},
	{
	"epoch": 0.058088107261013405,
	"grad_norm": 0.7337279915809631,
	"learning_rate": 9.261499537105177e-06,
	"loss": 1.0197,
	"step": 834
	},
	{
	"epoch": 0.05815775726971966,
	"grad_norm": 0.5747254490852356,
	"learning_rate": 9.12387123973093e-06,
	"loss": 0.8288,
	"step": 835
	},
	{
	"epoch": 0.05822740727842591,
	"grad_norm": 0.6484262347221375,
	"learning_rate": 8.98722431373631e-06,
	"loss": 1.1276,
	"step": 836
	},
	{
	"epoch": 0.05829705728713216,
	"grad_norm": 0.6793870329856873,
	"learning_rate": 8.851560234771594e-06,
	"loss": 0.5941,
	"step": 837
	},
	{
	"epoch": 0.05836670729583841,
	"grad_norm": 0.6910689473152161,
	"learning_rate": 8.716880467873234e-06,
	"loss": 0.9097,
	"step": 838
	},
	{
	"epoch": 0.05843635730454466,
	"grad_norm": 0.7062430381774902,
	"learning_rate": 8.583186467448167e-06,
	"loss": 0.9619,
	"step": 839
	},
	{
	"epoch": 0.05850600731325092,
	"grad_norm": 0.8270265460014343,
	"learning_rate": 8.45047967725796e-06,
	"loss": 1.0196,
	"step": 840
	},
	{
	"epoch": 0.058575657321957166,
	"grad_norm": 0.6949748992919922,
	"learning_rate": 8.318761530403374e-06,
	"loss": 0.5329,
	"step": 841
	},
	{
	"epoch": 0.058645307330663414,
	"grad_norm": 0.7285637855529785,
	"learning_rate": 8.188033449308719e-06,
	"loss": 0.6849,
	"step": 842
	},
	{
	"epoch": 0.05871495733936967,
	"grad_norm": 0.5861655473709106,
	"learning_rate": 8.058296845706715e-06,
	"loss": 0.8638,
	"step": 843
	},
	{
	"epoch": 0.05878460734807592,
	"grad_norm": 0.7448881268501282,
	"learning_rate": 7.929553120622968e-06,
	"loss": 0.8458,
	"step": 844
	},
	{
	"epoch": 0.058854257356782166,
	"grad_norm": 0.5610641241073608,
	"learning_rate": 7.801803664361095e-06,
	"loss": 0.4706,
	"step": 845
	},
	{
	"epoch": 0.05892390736548842,
	"grad_norm": 0.5610293745994568,
	"learning_rate": 7.675049856487549e-06,
	"loss": 0.5503,
	"step": 846
	},
	{
	"epoch": 0.05899355737419467,
	"grad_norm": 0.6175963282585144,
	"learning_rate": 7.5492930658168096e-06,
	"loss": 0.6195,
	"step": 847
	},
	{
	"epoch": 0.059063207382900926,
	"grad_norm": 0.6749705672264099,
	"learning_rate": 7.42453465039652e-06,
	"loss": 0.7353,
	"step": 848
	},
	{
	"epoch": 0.059132857391607174,
	"grad_norm": 0.6812541484832764,
	"learning_rate": 7.300775957492923e-06,
	"loss": 0.6882,
	"step": 849
	},
	{
	"epoch": 0.05920250740031342,
	"grad_norm": 0.6131837368011475,
	"learning_rate": 7.178018323576208e-06,
	"loss": 0.9945,
	"step": 850
	},
	{
	"epoch": 0.05927215740901968,
	"grad_norm": 0.6159570217132568,
	"learning_rate": 7.056263074306191e-06,
	"loss": 0.7943,
	"step": 851
	},
	{
	"epoch": 0.05934180741772593,
	"grad_norm": 0.7175585627555847,
	"learning_rate": 6.935511524517835e-06,
	"loss": 0.8498,
	"step": 852
	},
	{
	"epoch": 0.059411457426432175,
	"grad_norm": 0.7083918452262878,
	"learning_rate": 6.815764978207284e-06,
	"loss": 0.9473,
	"step": 853
	},
	{
	"epoch": 0.05948110743513843,
	"grad_norm": 0.7349149584770203,
	"learning_rate": 6.6970247285175315e-06,
	"loss": 0.9025,
	"step": 854
	},
	{
	"epoch": 0.05955075744384468,
	"grad_norm": 0.6739192008972168,
	"learning_rate": 6.579292057724639e-06,
	"loss": 0.8435,
	"step": 855
	},
	{
	"epoch": 0.059620407452550934,
	"grad_norm": 0.6588095426559448,
	"learning_rate": 6.4625682372237874e-06,
	"loss": 0.6966,
	"step": 856
	},
	{
	"epoch": 0.05969005746125718,
	"grad_norm": 0.5185966491699219,
	"learning_rate": 6.346854527515622e-06,
	"loss": 0.6977,
	"step": 857
	},
	{
	"epoch": 0.05975970746996343,
	"grad_norm": 0.5705149173736572,
	"learning_rate": 6.23215217819253e-06,
	"loss": 0.6574,
	"step": 858
	},
	{
	"epoch": 0.05982935747866969,
	"grad_norm": 0.5465989112854004,
	"learning_rate": 6.11846242792532e-06,
	"loss": 0.5492,
	"step": 859
	},
	{
	"epoch": 0.059899007487375935,
	"grad_norm": 0.7820805311203003,
	"learning_rate": 6.005786504449651e-06,
	"loss": 0.8664,
	"step": 860
	},
	{
	"epoch": 0.059968657496082184,
	"grad_norm": 0.7436554431915283,
	"learning_rate": 5.894125624552915e-06,
	"loss": 0.9035,
	"step": 861
	},
	{
	"epoch": 0.06003830750478844,
	"grad_norm": 0.7402638792991638,
	"learning_rate": 5.7834809940610195e-06,
	"loss": 0.7703,
	"step": 862
	},
	{
	"epoch": 0.06010795751349469,
	"grad_norm": 0.6208961009979248,
	"learning_rate": 5.673853807825424e-06,
	"loss": 0.7226,
	"step": 863
	},
	{
	"epoch": 0.06017760752220094,
	"grad_norm": 0.5884114503860474,
	"learning_rate": 5.565245249710194e-06,
	"loss": 1.0493,
	"step": 864
	},
	{
	"epoch": 0.06024725753090719,
	"grad_norm": 0.7064511179924011,
	"learning_rate": 5.457656492579211e-06,
	"loss": 1.0538,
	"step": 865
	},
	{
	"epoch": 0.06031690753961344,
	"grad_norm": 0.714733362197876,
	"learning_rate": 5.351088698283558e-06,
	"loss": 0.7942,
	"step": 866
	},
	{
	"epoch": 0.060386557548319696,
	"grad_norm": 0.6394374966621399,
	"learning_rate": 5.2455430176489014e-06,
	"loss": 0.7437,
	"step": 867
	},
	{
	"epoch": 0.060456207557025944,
	"grad_norm": 0.6636267900466919,
	"learning_rate": 5.1410205904631415e-06,
	"loss": 0.8204,
	"step": 868
	},
	{
	"epoch": 0.06052585756573219,
	"grad_norm": 0.6036087274551392,
	"learning_rate": 5.037522545464024e-06,
	"loss": 0.7066,
	"step": 869
	},
	{
	"epoch": 0.06059550757443845,
	"grad_norm": 0.6227147579193115,
	"learning_rate": 4.9350500003270465e-06,
	"loss": 0.7101,
	"step": 870
	},
	{
	"epoch": 0.060665157583144697,
	"grad_norm": 0.5791090130805969,
	"learning_rate": 4.833604061653252e-06,
	"loss": 0.6439,
	"step": 871
	},
	{
	"epoch": 0.06073480759185095,
	"grad_norm": 0.5661488771438599,
	"learning_rate": 4.73318582495742e-06,
	"loss": 0.5134,
	"step": 872
	},
	{
	"epoch": 0.0608044576005572,
	"grad_norm": 0.7721818089485168,
	"learning_rate": 4.633796374656174e-06,
	"loss": 0.8566,
	"step": 873
	},
	{
	"epoch": 0.06087410760926345,
	"grad_norm": 0.7348571419715881,
	"learning_rate": 4.535436784056269e-06,
	"loss": 0.6653,
	"step": 874
	},
	{
	"epoch": 0.060943757617969704,
	"grad_norm": 0.6881682872772217,
	"learning_rate": 4.438108115342965e-06,
	"loss": 0.7876,
	"step": 875
	},
	{
	"epoch": 0.06101340762667595,
	"grad_norm": 0.6156147718429565,
	"learning_rate": 4.3418114195686536e-06,
	"loss": 0.8429,
	"step": 876
	},
	{
	"epoch": 0.0610830576353822,
	"grad_norm": 0.6420087218284607,
	"learning_rate": 4.246547736641382e-06,
	"loss": 0.7274,
	"step": 877
	},
	{
	"epoch": 0.06115270764408846,
	"grad_norm": 0.5134680271148682,
	"learning_rate": 4.152318095313778e-06,
	"loss": 0.5185,
	"step": 878
	},
	{
	"epoch": 0.061222357652794705,
	"grad_norm": 0.6913058757781982,
	"learning_rate": 4.05912351317177e-06,
	"loss": 0.9036,
	"step": 879
	},
	{
	"epoch": 0.06129200766150096,
	"grad_norm": 0.5641781091690063,
	"learning_rate": 3.966964996623735e-06,
	"loss": 0.8567,
	"step": 880
	},
	{
	"epoch": 0.06136165767020721,
	"grad_norm": 0.5682424306869507,
	"learning_rate": 3.875843540889546e-06,
	"loss": 0.7562,
	"step": 881
	},
	{
	"epoch": 0.06143130767891346,
	"grad_norm": 0.5852996110916138,
	"learning_rate": 3.785760129989868e-06,
	"loss": 0.4581,
	"step": 882
	},
	{
	"epoch": 0.06150095768761971,
	"grad_norm": 0.6625421047210693,
	"learning_rate": 3.6967157367355567e-06,
	"loss": 1.0613,
	"step": 883
	},
	{
	"epoch": 0.06157060769632596,
	"grad_norm": 0.7365720868110657,
	"learning_rate": 3.6087113227170287e-06,
	"loss": 0.8548,
	"step": 884
	},
	{
	"epoch": 0.06164025770503221,
	"grad_norm": 0.596820592880249,
	"learning_rate": 3.5217478382940426e-06,
	"loss": 0.7301,
	"step": 885
	},
	{
	"epoch": 0.061709907713738466,
	"grad_norm": 0.7230522632598877,
	"learning_rate": 3.4358262225853254e-06,
	"loss": 1.0264,
	"step": 886
	},
	{
	"epoch": 0.061779557722444714,
	"grad_norm": 0.550679087638855,
	"learning_rate": 3.3509474034584596e-06,
	"loss": 0.6914,
	"step": 887
	},
	{
	"epoch": 0.06184920773115097,
	"grad_norm": 0.6080251932144165,
	"learning_rate": 3.267112297519881e-06,
	"loss": 0.8706,
	"step": 888
	},
	{
	"epoch": 0.06191885773985722,
	"grad_norm": 0.6070705056190491,
	"learning_rate": 3.184321810104962e-06,
	"loss": 1.0111,
	"step": 889
	},
	{
	"epoch": 0.061988507748563466,
	"grad_norm": 0.6949368715286255,
	"learning_rate": 3.102576835268212e-06,
	"loss": 0.9892,
	"step": 890
	},
	{
	"epoch": 0.06205815775726972,
	"grad_norm": 0.7588335275650024,
	"learning_rate": 3.0218782557737136e-06,
	"loss": 0.8309,
	"step": 891
	},
	{
	"epoch": 0.06212780776597597,
	"grad_norm": 0.5684018135070801,
	"learning_rate": 2.9422269430854245e-06,
	"loss": 0.8553,
	"step": 892
	},
	{
	"epoch": 0.06219745777468222,
	"grad_norm": 0.554639995098114,
	"learning_rate": 2.863623757357992e-06,
	"loss": 0.7984,
	"step": 893
	},
	{
	"epoch": 0.062267107783388474,
	"grad_norm": 0.653669536113739,
	"learning_rate": 2.7860695474272392e-06,
	"loss": 0.8296,
	"step": 894
	},
	{
	"epoch": 0.06233675779209472,
	"grad_norm": 0.610150158405304,
	"learning_rate": 2.709565150801152e-06,
	"loss": 0.5203,
	"step": 895
	},
	{
	"epoch": 0.06240640780080098,
	"grad_norm": 0.6130475401878357,
	"learning_rate": 2.634111393650751e-06,
	"loss": 0.8298,
	"step": 896
	},
	{
	"epoch": 0.06247605780950723,
	"grad_norm": 0.5449431538581848,
	"learning_rate": 2.559709090801221e-06,
	"loss": 0.7497,
	"step": 897
	},
	{
	"epoch": 0.06254570781821348,
	"grad_norm": 0.6247503757476807,
	"learning_rate": 2.4863590457230743e-06,
	"loss": 1.1263,
	"step": 898
	},
	{
	"epoch": 0.06261535782691972,
	"grad_norm": 0.7267642617225647,
	"learning_rate": 2.4140620505235135e-06,
	"loss": 0.7873,
	"step": 899
	},
	{
	"epoch": 0.06268500783562599,
	"grad_norm": 0.7534024119377136,
	"learning_rate": 2.342818885937825e-06,
	"loss": 1.0745,
	"step": 900
	},
	{
	"epoch": 0.06268500783562599,
	"eval_loss": 0.723136305809021,
	"eval_runtime": 700.403,
	"eval_samples_per_second": 7.139,
	"eval_steps_per_second": 1.785,
	"step": 900
	},
	{
	"epoch": 0.06275465784433223,
	"grad_norm": 0.7109830379486084,
	"learning_rate": 2.272630321321023e-06,
	"loss": 0.704,
	"step": 901
	},
	{
	"epoch": 0.06282430785303848,
	"grad_norm": 0.4886980950832367,
	"learning_rate": 2.20349711463943e-06,
	"loss": 0.4915,
	"step": 902
	},
	{
	"epoch": 0.06289395786174473,
	"grad_norm": 0.6534592509269714,
	"learning_rate": 2.135420012462619e-06,
	"loss": 0.6073,
	"step": 903
	},
	{
	"epoch": 0.06296360787045098,
	"grad_norm": 0.5471417903900146,
	"learning_rate": 2.0683997499552632e-06,
	"loss": 0.6319,
	"step": 904
	},
	{
	"epoch": 0.06303325787915723,
	"grad_norm": 0.765691876411438,
	"learning_rate": 2.0024370508692104e-06,
	"loss": 0.9544,
	"step": 905
	},
	{
	"epoch": 0.06310290788786349,
	"grad_norm": 0.6834742426872253,
	"learning_rate": 1.9375326275357208e-06,
	"loss": 0.8162,
	"step": 906
	},
	{
	"epoch": 0.06317255789656974,
	"grad_norm": 0.7233893871307373,
	"learning_rate": 1.8736871808576861e-06,
	"loss": 1.0311,
	"step": 907
	},
	{
	"epoch": 0.06324220790527599,
	"grad_norm": 0.6150738000869751,
	"learning_rate": 1.8109014003021452e-06,
	"loss": 0.9241,
	"step": 908
	},
	{
	"epoch": 0.06331185791398224,
	"grad_norm": 0.7470687031745911,
	"learning_rate": 1.7491759638927686e-06,
	"loss": 1.1686,
	"step": 909
	},
	{
	"epoch": 0.06338150792268848,
	"grad_norm": 0.7098023295402527,
	"learning_rate": 1.6885115382026085e-06,
	"loss": 1.1531,
	"step": 910
	},
	{
	"epoch": 0.06345115793139475,
	"grad_norm": 0.6397354006767273,
	"learning_rate": 1.628908778346827e-06,
	"loss": 0.9153,
	"step": 911
	},
	{
	"epoch": 0.063520807940101,
	"grad_norm": 0.6609793305397034,
	"learning_rate": 1.5703683279756797e-06,
	"loss": 0.641,
	"step": 912
	},
	{
	"epoch": 0.06359045794880724,
	"grad_norm": 0.7062059640884399,
	"learning_rate": 1.5128908192675318e-06,
	"loss": 0.7182,
	"step": 913
	},
	{
	"epoch": 0.06366010795751349,
	"grad_norm": 0.6093196272850037,
	"learning_rate": 1.4564768729220412e-06,
	"loss": 0.6793,
	"step": 914
	},
	{
	"epoch": 0.06372975796621974,
	"grad_norm": 0.6978054642677307,
	"learning_rate": 1.401127098153443e-06,
	"loss": 0.7592,
	"step": 915
	},
	{
	"epoch": 0.063799407974926,
	"grad_norm": 0.5635403394699097,
	"learning_rate": 1.3468420926840197e-06,
	"loss": 0.869,
	"step": 916
	},
	{
	"epoch": 0.06386905798363225,
	"grad_norm": 0.6903446912765503,
	"learning_rate": 1.2936224427375521e-06,
	"loss": 0.7401,
	"step": 917
	},
	{
	"epoch": 0.0639387079923385,
	"grad_norm": 0.6210869550704956,
	"learning_rate": 1.2414687230331123e-06,
	"loss": 0.5908,
	"step": 918
	},
	{
	"epoch": 0.06400835800104475,
	"grad_norm": 0.6113409399986267,
	"learning_rate": 1.1903814967787253e-06,
	"loss": 0.5493,
	"step": 919
	},
	{
	"epoch": 0.064078008009751,
	"grad_norm": 0.9400643706321716,
	"learning_rate": 1.1403613156654059e-06,
	"loss": 1.0418,
	"step": 920
	},
	{
	"epoch": 0.06414765801845725,
	"grad_norm": 0.683574378490448,
	"learning_rate": 1.091408719861109e-06,
	"loss": 0.9345,
	"step": 921
	},
	{
	"epoch": 0.06421730802716351,
	"grad_norm": 0.7595987915992737,
	"learning_rate": 1.0435242380049559e-06,
	"loss": 0.8716,
	"step": 922
	},
	{
	"epoch": 0.06428695803586976,
	"grad_norm": 0.6851724982261658,
	"learning_rate": 9.967083872015282e-07,
	"loss": 0.5158,
	"step": 923
	},
	{
	"epoch": 0.064356608044576,
	"grad_norm": 0.6724770069122314,
	"learning_rate": 9.509616730151827e-07,
	"loss": 0.5133,
	"step": 924
	},
	{
	"epoch": 0.06442625805328225,
	"grad_norm": 0.6596947312355042,
	"learning_rate": 9.062845894647676e-07,
	"loss": 0.6722,
	"step": 925
	},
	{
	"epoch": 0.0644959080619885,
	"grad_norm": 0.5619158148765564,
	"learning_rate": 8.626776190181041e-07,
	"loss": 0.9499,
	"step": 926
	},
	{
	"epoch": 0.06456555807069476,
	"grad_norm": 0.7573150992393494,
	"learning_rate": 8.20141232586924e-07,
	"loss": 0.7521,
	"step": 927
	},
	{
	"epoch": 0.06463520807940101,
	"grad_norm": 0.6126770377159119,
	"learning_rate": 7.786758895216629e-07,
	"loss": 0.6616,
	"step": 928
	},
	{
	"epoch": 0.06470485808810726,
	"grad_norm": 0.7481774687767029,
	"learning_rate": 7.382820376066302e-07,
	"loss": 0.8779,
	"step": 929
	},
	{
	"epoch": 0.06477450809681351,
	"grad_norm": 0.7029200792312622,
	"learning_rate": 6.98960113055025e-07,
	"loss": 0.7685,
	"step": 930
	},
	{
	"epoch": 0.06484415810551976,
	"grad_norm": 0.6455416679382324,
	"learning_rate": 6.607105405043612e-07,
	"loss": 1.0069,
	"step": 931
	},
	{
	"epoch": 0.06491380811422602,
	"grad_norm": 0.7011751532554626,
	"learning_rate": 6.23533733011783e-07,
	"loss": 0.6548,
	"step": 932
	},
	{
	"epoch": 0.06498345812293227,
	"grad_norm": 0.7533524036407471,
	"learning_rate": 5.8743009204969e-07,
	"loss": 0.7463,
	"step": 933
	},
	{
	"epoch": 0.06505310813163852,
	"grad_norm": 0.5586950182914734,
	"learning_rate": 5.52400007501297e-07,
	"loss": 0.6125,
	"step": 934
	},
	{
	"epoch": 0.06512275814034477,
	"grad_norm": 0.6539096832275391,
	"learning_rate": 5.184438576565253e-07,
	"loss": 0.8559,
	"step": 935
	},
	{
	"epoch": 0.06519240814905101,
	"grad_norm": 0.7584323883056641,
	"learning_rate": 4.855620092078627e-07,
	"loss": 1.1142,
	"step": 936
	},
	{
	"epoch": 0.06526205815775726,
	"grad_norm": 0.6609397530555725,
	"learning_rate": 4.537548172464101e-07,
	"loss": 0.8978,
	"step": 937
	},
	{
	"epoch": 0.06533170816646353,
	"grad_norm": 0.6159988641738892,
	"learning_rate": 4.230226252580516e-07,
	"loss": 0.6993,
	"step": 938
	},
	{
	"epoch": 0.06540135817516977,
	"grad_norm": 0.6153664588928223,
	"learning_rate": 3.9336576511976863e-07,
	"loss": 0.4574,
	"step": 939
	},
	{
	"epoch": 0.06547100818387602,
	"grad_norm": 0.6489300727844238,
	"learning_rate": 3.6478455709598734e-07,
	"loss": 0.7568,
	"step": 940
	},
	{
	"epoch": 0.06554065819258227,
	"grad_norm": 0.6248874664306641,
	"learning_rate": 3.372793098352256e-07,
	"loss": 0.6879,
	"step": 941
	},
	{
	"epoch": 0.06561030820128852,
	"grad_norm": 0.5801978707313538,
	"learning_rate": 3.108503203666402e-07,
	"loss": 0.7331,
	"step": 942
	},
	{
	"epoch": 0.06567995820999478,
	"grad_norm": 0.605501115322113,
	"learning_rate": 2.8549787409691833e-07,
	"loss": 0.6179,
	"step": 943
	},
	{
	"epoch": 0.06574960821870103,
	"grad_norm": 0.5972608327865601,
	"learning_rate": 2.6122224480715775e-07,
	"loss": 0.6514,
	"step": 944
	},
	{
	"epoch": 0.06581925822740728,
	"grad_norm": 0.7556172609329224,
	"learning_rate": 2.380236946498693e-07,
	"loss": 0.8719,
	"step": 945
	},
	{
	"epoch": 0.06588890823611353,
	"grad_norm": 0.6486802101135254,
	"learning_rate": 2.1590247414624566e-07,
	"loss": 0.5719,
	"step": 946
	},
	{
	"epoch": 0.06595855824481978,
	"grad_norm": 0.638469398021698,
	"learning_rate": 1.948588221833303e-07,
	"loss": 0.6393,
	"step": 947
	},
	{
	"epoch": 0.06602820825352604,
	"grad_norm": 0.7082604765892029,
	"learning_rate": 1.7489296601156392e-07,
	"loss": 1.0018,
	"step": 948
	},
	{
	"epoch": 0.06609785826223229,
	"grad_norm": 0.6530460119247437,
	"learning_rate": 1.5600512124221978e-07,
	"loss": 0.7418,
	"step": 949
	},
	{
	"epoch": 0.06616750827093854,
	"grad_norm": 0.653685986995697,
	"learning_rate": 1.3819549184516112e-07,
	"loss": 0.9309,
	"step": 950
	},
	{
	"epoch": 0.06623715827964478,
	"grad_norm": 0.5263675451278687,
	"learning_rate": 1.2146427014657625e-07,
	"loss": 0.7189,
	"step": 951
	},
	{
	"epoch": 0.06630680828835103,
	"grad_norm": 0.6783672571182251,
	"learning_rate": 1.0581163682695793e-07,
	"loss": 0.5871,
	"step": 952
	},
	{
	"epoch": 0.06637645829705728,
	"grad_norm": 0.4727168083190918,
	"learning_rate": 9.123776091908287e-08,
	"loss": 0.3484,
	"step": 953
	},
	{
	"epoch": 0.06644610830576354,
	"grad_norm": 0.5385925769805908,
	"learning_rate": 7.774279980626853e-08,
	"loss": 0.5899,
	"step": 954
	},
	{
	"epoch": 0.06651575831446979,
	"grad_norm": 0.6668855547904968,
	"learning_rate": 6.532689922059687e-08,
	"loss": 1.0131,
	"step": 955
	},
	{
	"epoch": 0.06658540832317604,
	"grad_norm": 0.6244344115257263,
	"learning_rate": 5.3990193241393313e-08,
	"loss": 0.7458,
	"step": 956
	},
	{
	"epoch": 0.06665505833188229,
	"grad_norm": 0.6702743768692017,
	"learning_rate": 4.373280429375015e-08,
	"loss": 0.8924,
	"step": 957
	},
	{
	"epoch": 0.06672470834058854,
	"grad_norm": 0.6103947758674622,
	"learning_rate": 3.4554843147216464e-08,
	"loss": 1.0036,
	"step": 958
	},
	{
	"epoch": 0.0667943583492948,
	"grad_norm": 0.622797966003418,
	"learning_rate": 2.6456408914599108e-08,
	"loss": 0.8497,
	"step": 959
	},
	{
	"epoch": 0.06686400835800105,
	"grad_norm": 0.7076674699783325,
	"learning_rate": 1.9437589050907977e-08,
	"loss": 0.5629,
	"step": 960
	},
	{
	"epoch": 0.0669336583667073,
	"grad_norm": 0.7682867050170898,
	"learning_rate": 1.3498459352367931e-08,
	"loss": 0.7463,
	"step": 961
	},
	{
	"epoch": 0.06700330837541355,
	"grad_norm": 0.7987236380577087,
	"learning_rate": 8.639083955663818e-09,
	"loss": 1.1664,
	"step": 962
	},
	{
	"epoch": 0.0670729583841198,
	"grad_norm": 0.7837391495704651,
	"learning_rate": 4.859515337174436e-09,
	"loss": 0.6505,
	"step": 963
	},
	{
	"epoch": 0.06714260839282606,
	"grad_norm": 0.6566223502159119,
	"learning_rate": 2.1597943124729292e-09,
	"loss": 0.8524,
	"step": 964
	},
	{
	"epoch": 0.0672122584015323,
	"grad_norm": 0.6998875737190247,
	"learning_rate": 5.399500358493903e-10,
	"loss": 0.8817,
	"step": 965
	},
	{
	"epoch": 0.06728190841023855,
	"grad_norm": 0.6083624362945557,
	"learning_rate": 0.0,
	"loss": 0.8767,
	"step": 966
	}
	],
	"logging_steps": 1,
	"max_steps": 966,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 2,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.628352553502376e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}