{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0007067137809187,
  "eval_steps": 332,
  "global_step": 1327,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0007538280329799764,
      "grad_norm": 16.65915870666504,
      "learning_rate": 2e-05,
      "loss": 0.9643,
      "step": 1
    },
    {
      "epoch": 0.0015076560659599528,
      "grad_norm": 18.07321548461914,
      "learning_rate": 4e-05,
      "loss": 0.99,
      "step": 2
    },
    {
      "epoch": 0.0022614840989399294,
      "grad_norm": 20.50757598876953,
      "learning_rate": 6e-05,
      "loss": 0.9625,
      "step": 3
    },
    {
      "epoch": 0.0030153121319199056,
      "grad_norm": 16.542922973632812,
      "learning_rate": 8e-05,
      "loss": 0.9352,
      "step": 4
    },
    {
      "epoch": 0.003769140164899882,
      "grad_norm": 16.435678482055664,
      "learning_rate": 0.0001,
      "loss": 0.9104,
      "step": 5
    },
    {
      "epoch": 0.004522968197879859,
      "grad_norm": 17.327836990356445,
      "learning_rate": 0.00012,
      "loss": 0.8723,
      "step": 6
    },
    {
      "epoch": 0.005276796230859835,
      "grad_norm": 15.497602462768555,
      "learning_rate": 0.00014,
      "loss": 0.7953,
      "step": 7
    },
    {
      "epoch": 0.006030624263839811,
      "grad_norm": 16.634872436523438,
      "learning_rate": 0.00016,
      "loss": 0.7444,
      "step": 8
    },
    {
      "epoch": 0.006784452296819788,
      "grad_norm": 18.223051071166992,
      "learning_rate": 0.00018,
      "loss": 0.7296,
      "step": 9
    },
    {
      "epoch": 0.007538280329799764,
      "grad_norm": 12.145986557006836,
      "learning_rate": 0.0002,
      "loss": 0.6559,
      "step": 10
    },
    {
      "epoch": 0.008292108362779741,
      "grad_norm": 12.613237380981445,
      "learning_rate": 0.00019999971548969982,
      "loss": 0.6663,
      "step": 11
    },
    {
      "epoch": 0.009045936395759718,
      "grad_norm": 12.572402954101562,
      "learning_rate": 0.0001999988619604182,
      "loss": 0.6575,
      "step": 12
    },
    {
      "epoch": 0.009799764428739694,
      "grad_norm": 10.410853385925293,
      "learning_rate": 0.00019999743941701188,
      "loss": 0.6172,
      "step": 13
    },
    {
      "epoch": 0.01055359246171967,
      "grad_norm": 9.993011474609375,
      "learning_rate": 0.00019999544786757545,
      "loss": 0.6205,
      "step": 14
    },
    {
      "epoch": 0.011307420494699646,
      "grad_norm": 10.803098678588867,
      "learning_rate": 0.00019999288732344122,
      "loss": 0.5932,
      "step": 15
    },
    {
      "epoch": 0.012061248527679622,
      "grad_norm": 10.612732887268066,
      "learning_rate": 0.0001999897577991792,
      "loss": 0.5989,
      "step": 16
    },
    {
      "epoch": 0.0128150765606596,
      "grad_norm": 10.924768447875977,
      "learning_rate": 0.0001999860593125971,
      "loss": 0.5946,
      "step": 17
    },
    {
      "epoch": 0.013568904593639576,
      "grad_norm": 9.804558753967285,
      "learning_rate": 0.00019998179188473997,
      "loss": 0.5321,
      "step": 18
    },
    {
      "epoch": 0.014322732626619553,
      "grad_norm": 10.648846626281738,
      "learning_rate": 0.00019997695553989042,
      "loss": 0.5584,
      "step": 19
    },
    {
      "epoch": 0.015076560659599529,
      "grad_norm": 10.692992210388184,
      "learning_rate": 0.00019997155030556822,
      "loss": 0.5603,
      "step": 20
    },
    {
      "epoch": 0.015830388692579505,
      "grad_norm": 10.715287208557129,
      "learning_rate": 0.00019996557621253027,
      "loss": 0.584,
      "step": 21
    },
    {
      "epoch": 0.016584216725559483,
      "grad_norm": 9.866957664489746,
      "learning_rate": 0.0001999590332947704,
      "loss": 0.5571,
      "step": 22
    },
    {
      "epoch": 0.017338044758539457,
      "grad_norm": 9.68693733215332,
      "learning_rate": 0.00019995192158951919,
      "loss": 0.5415,
      "step": 23
    },
    {
      "epoch": 0.018091872791519435,
      "grad_norm": 10.831818580627441,
      "learning_rate": 0.00019994424113724363,
      "loss": 0.5458,
      "step": 24
    },
    {
      "epoch": 0.01884570082449941,
      "grad_norm": 9.90411376953125,
      "learning_rate": 0.00019993599198164715,
      "loss": 0.5368,
      "step": 25
    },
    {
      "epoch": 0.019599528857479388,
      "grad_norm": 8.305344581604004,
      "learning_rate": 0.0001999271741696691,
      "loss": 0.5271,
      "step": 26
    },
    {
      "epoch": 0.020353356890459365,
      "grad_norm": 9.10693645477295,
      "learning_rate": 0.00019991778775148465,
      "loss": 0.5038,
      "step": 27
    },
    {
      "epoch": 0.02110718492343934,
      "grad_norm": 8.622981071472168,
      "learning_rate": 0.00019990783278050448,
      "loss": 0.5039,
      "step": 28
    },
    {
      "epoch": 0.021861012956419318,
      "grad_norm": 10.21834945678711,
      "learning_rate": 0.0001998973093133744,
      "loss": 0.5499,
      "step": 29
    },
    {
      "epoch": 0.022614840989399292,
      "grad_norm": 10.313283920288086,
      "learning_rate": 0.00019988621740997512,
      "loss": 0.5042,
      "step": 30
    },
    {
      "epoch": 0.02336866902237927,
      "grad_norm": 8.889609336853027,
      "learning_rate": 0.00019987455713342187,
      "loss": 0.467,
      "step": 31
    },
    {
      "epoch": 0.024122497055359245,
      "grad_norm": 8.749794006347656,
      "learning_rate": 0.000199862328550064,
      "loss": 0.5357,
      "step": 32
    },
    {
      "epoch": 0.024876325088339223,
      "grad_norm": 8.97386360168457,
      "learning_rate": 0.00019984953172948465,
      "loss": 0.495,
      "step": 33
    },
    {
      "epoch": 0.0256301531213192,
      "grad_norm": 9.057605743408203,
      "learning_rate": 0.0001998361667445004,
      "loss": 0.487,
      "step": 34
    },
    {
      "epoch": 0.026383981154299175,
      "grad_norm": 9.346535682678223,
      "learning_rate": 0.00019982223367116076,
      "loss": 0.5348,
      "step": 35
    },
    {
      "epoch": 0.027137809187279153,
      "grad_norm": 10.248679161071777,
      "learning_rate": 0.00019980773258874778,
      "loss": 0.5234,
      "step": 36
    },
    {
      "epoch": 0.027891637220259127,
      "grad_norm": 9.637868881225586,
      "learning_rate": 0.00019979266357977564,
      "loss": 0.5,
      "step": 37
    },
    {
      "epoch": 0.028645465253239105,
      "grad_norm": 10.087867736816406,
      "learning_rate": 0.00019977702672999007,
      "loss": 0.4772,
      "step": 38
    },
    {
      "epoch": 0.02939929328621908,
      "grad_norm": 11.312880516052246,
      "learning_rate": 0.00019976082212836793,
      "loss": 0.4689,
      "step": 39
    },
    {
      "epoch": 0.030153121319199058,
      "grad_norm": 10.71940803527832,
      "learning_rate": 0.0001997440498671168,
      "loss": 0.4961,
      "step": 40
    },
    {
      "epoch": 0.030906949352179035,
      "grad_norm": 10.881596565246582,
      "learning_rate": 0.00019972671004167433,
      "loss": 0.5628,
      "step": 41
    },
    {
      "epoch": 0.03166077738515901,
      "grad_norm": 11.740187644958496,
      "learning_rate": 0.00019970880275070762,
      "loss": 0.5096,
      "step": 42
    },
    {
      "epoch": 0.03241460541813899,
      "grad_norm": 12.402807235717773,
      "learning_rate": 0.00019969032809611287,
      "loss": 0.6114,
      "step": 43
    },
    {
      "epoch": 0.033168433451118966,
      "grad_norm": 13.945646286010742,
      "learning_rate": 0.0001996712861830147,
      "loss": 0.6009,
      "step": 44
    },
    {
      "epoch": 0.03392226148409894,
      "grad_norm": 14.720582962036133,
      "learning_rate": 0.00019965167711976552,
      "loss": 0.5767,
      "step": 45
    },
    {
      "epoch": 0.034676089517078915,
      "grad_norm": 15.46834945678711,
      "learning_rate": 0.0001996315010179449,
      "loss": 0.5566,
      "step": 46
    },
    {
      "epoch": 0.03542991755005889,
      "grad_norm": 16.198299407958984,
      "learning_rate": 0.00019961075799235903,
      "loss": 0.6248,
      "step": 47
    },
    {
      "epoch": 0.03618374558303887,
      "grad_norm": 36.07707214355469,
      "learning_rate": 0.00019958944816104,
      "loss": 0.5949,
      "step": 48
    },
    {
      "epoch": 0.03693757361601885,
      "grad_norm": 25.19093894958496,
      "learning_rate": 0.00019956757164524516,
      "loss": 0.5619,
      "step": 49
    },
    {
      "epoch": 0.03769140164899882,
      "grad_norm": 20.562816619873047,
      "learning_rate": 0.00019954512856945632,
      "loss": 0.662,
      "step": 50
    },
    {
      "epoch": 0.0384452296819788,
      "grad_norm": 40.9443359375,
      "learning_rate": 0.00019952211906137932,
      "loss": 0.8705,
      "step": 51
    },
    {
      "epoch": 0.039199057714958775,
      "grad_norm": 29.929576873779297,
      "learning_rate": 0.00019949854325194294,
      "loss": 0.7504,
      "step": 52
    },
    {
      "epoch": 0.03995288574793875,
      "grad_norm": 18.468313217163086,
      "learning_rate": 0.00019947440127529836,
      "loss": 0.7158,
      "step": 53
    },
    {
      "epoch": 0.04070671378091873,
      "grad_norm": 9.704629898071289,
      "learning_rate": 0.00019944969326881845,
      "loss": 0.5938,
      "step": 54
    },
    {
      "epoch": 0.0414605418138987,
      "grad_norm": 9.891565322875977,
      "learning_rate": 0.00019942441937309684,
      "loss": 0.5693,
      "step": 55
    },
    {
      "epoch": 0.04221436984687868,
      "grad_norm": 11.08341121673584,
      "learning_rate": 0.00019939857973194717,
      "loss": 0.5726,
      "step": 56
    },
    {
      "epoch": 0.04296819787985866,
      "grad_norm": 10.182625770568848,
      "learning_rate": 0.0001993721744924024,
      "loss": 0.5854,
      "step": 57
    },
    {
      "epoch": 0.043722025912838636,
      "grad_norm": 10.336113929748535,
      "learning_rate": 0.00019934520380471372,
      "loss": 0.5341,
      "step": 58
    },
    {
      "epoch": 0.04447585394581861,
      "grad_norm": 7.881448745727539,
      "learning_rate": 0.0001993176678223499,
      "loss": 0.5013,
      "step": 59
    },
    {
      "epoch": 0.045229681978798585,
      "grad_norm": 10.487141609191895,
      "learning_rate": 0.0001992895667019964,
      "loss": 0.5395,
      "step": 60
    },
    {
      "epoch": 0.04598351001177856,
      "grad_norm": 10.38466739654541,
      "learning_rate": 0.0001992609006035543,
      "loss": 0.5214,
      "step": 61
    },
    {
      "epoch": 0.04673733804475854,
      "grad_norm": 9.553030014038086,
      "learning_rate": 0.0001992316696901397,
      "loss": 0.4825,
      "step": 62
    },
    {
      "epoch": 0.04749116607773852,
      "grad_norm": 8.298136711120605,
      "learning_rate": 0.00019920187412808248,
      "loss": 0.4797,
      "step": 63
    },
    {
      "epoch": 0.04824499411071849,
      "grad_norm": 7.880730628967285,
      "learning_rate": 0.0001991715140869255,
      "loss": 0.4722,
      "step": 64
    },
    {
      "epoch": 0.04899882214369847,
      "grad_norm": 8.825959205627441,
      "learning_rate": 0.00019914058973942368,
      "loss": 0.5022,
      "step": 65
    },
    {
      "epoch": 0.049752650176678445,
      "grad_norm": 8.143362998962402,
      "learning_rate": 0.00019910910126154293,
      "loss": 0.4975,
      "step": 66
    },
    {
      "epoch": 0.05050647820965842,
      "grad_norm": 7.704590797424316,
      "learning_rate": 0.00019907704883245916,
      "loss": 0.4973,
      "step": 67
    },
    {
      "epoch": 0.0512603062426384,
      "grad_norm": 7.914122104644775,
      "learning_rate": 0.00019904443263455728,
      "loss": 0.5046,
      "step": 68
    },
    {
      "epoch": 0.05201413427561837,
      "grad_norm": 8.946449279785156,
      "learning_rate": 0.00019901125285343022,
      "loss": 0.5124,
      "step": 69
    },
    {
      "epoch": 0.05276796230859835,
      "grad_norm": 7.793578147888184,
      "learning_rate": 0.0001989775096778777,
      "loss": 0.5141,
      "step": 70
    },
    {
      "epoch": 0.05352179034157833,
      "grad_norm": 7.8742756843566895,
      "learning_rate": 0.0001989432032999054,
      "loss": 0.5071,
      "step": 71
    },
    {
      "epoch": 0.054275618374558306,
      "grad_norm": 8.052972793579102,
      "learning_rate": 0.0001989083339147237,
      "loss": 0.4938,
      "step": 72
    },
    {
      "epoch": 0.055029446407538284,
      "grad_norm": 7.386316776275635,
      "learning_rate": 0.0001988729017207465,
      "loss": 0.4767,
      "step": 73
    },
    {
      "epoch": 0.055783274440518255,
      "grad_norm": 7.526272773742676,
      "learning_rate": 0.00019883690691959035,
      "loss": 0.4642,
      "step": 74
    },
    {
      "epoch": 0.05653710247349823,
      "grad_norm": 8.339061737060547,
      "learning_rate": 0.00019880034971607308,
      "loss": 0.4888,
      "step": 75
    },
    {
      "epoch": 0.05729093050647821,
      "grad_norm": 8.045515060424805,
      "learning_rate": 0.00019876323031821266,
      "loss": 0.4478,
      "step": 76
    },
    {
      "epoch": 0.05804475853945819,
      "grad_norm": 8.333029747009277,
      "learning_rate": 0.00019872554893722618,
      "loss": 0.4695,
      "step": 77
    },
    {
      "epoch": 0.05879858657243816,
      "grad_norm": 8.050617218017578,
      "learning_rate": 0.0001986873057875284,
      "loss": 0.4532,
      "step": 78
    },
    {
      "epoch": 0.05955241460541814,
      "grad_norm": 8.27062702178955,
      "learning_rate": 0.00019864850108673073,
      "loss": 0.4654,
      "step": 79
    },
    {
      "epoch": 0.060306242638398115,
      "grad_norm": 8.429513931274414,
      "learning_rate": 0.0001986091350556399,
      "loss": 0.4829,
      "step": 80
    },
    {
      "epoch": 0.06106007067137809,
      "grad_norm": 8.401616096496582,
      "learning_rate": 0.00019856920791825683,
      "loss": 0.5086,
      "step": 81
    },
    {
      "epoch": 0.06181389870435807,
      "grad_norm": 8.308648109436035,
      "learning_rate": 0.00019852871990177503,
      "loss": 0.4758,
      "step": 82
    },
    {
      "epoch": 0.06256772673733804,
      "grad_norm": 8.516093254089355,
      "learning_rate": 0.00019848767123657976,
      "loss": 0.4423,
      "step": 83
    },
    {
      "epoch": 0.06332155477031802,
      "grad_norm": 8.437211990356445,
      "learning_rate": 0.0001984460621562463,
      "loss": 0.4429,
      "step": 84
    },
    {
      "epoch": 0.064075382803298,
      "grad_norm": 8.637296676635742,
      "learning_rate": 0.00019840389289753896,
      "loss": 0.4956,
      "step": 85
    },
    {
      "epoch": 0.06482921083627798,
      "grad_norm": 8.39278507232666,
      "learning_rate": 0.00019836116370040944,
      "loss": 0.4483,
      "step": 86
    },
    {
      "epoch": 0.06558303886925795,
      "grad_norm": 9.617965698242188,
      "learning_rate": 0.00019831787480799568,
      "loss": 0.4714,
      "step": 87
    },
    {
      "epoch": 0.06633686690223793,
      "grad_norm": 8.52342700958252,
      "learning_rate": 0.00019827402646662047,
      "loss": 0.4375,
      "step": 88
    },
    {
      "epoch": 0.06709069493521791,
      "grad_norm": 9.882357597351074,
      "learning_rate": 0.0001982296189257898,
      "loss": 0.4796,
      "step": 89
    },
    {
      "epoch": 0.06784452296819787,
      "grad_norm": 9.361654281616211,
      "learning_rate": 0.00019818465243819184,
      "loss": 0.4871,
      "step": 90
    },
    {
      "epoch": 0.06859835100117785,
      "grad_norm": 9.959556579589844,
      "learning_rate": 0.00019813912725969509,
      "loss": 0.472,
      "step": 91
    },
    {
      "epoch": 0.06935217903415783,
      "grad_norm": 9.579131126403809,
      "learning_rate": 0.0001980930436493472,
      "loss": 0.4906,
      "step": 92
    },
    {
      "epoch": 0.07010600706713781,
      "grad_norm": 10.082910537719727,
      "learning_rate": 0.00019804640186937343,
      "loss": 0.537,
      "step": 93
    },
    {
      "epoch": 0.07085983510011779,
      "grad_norm": 10.720930099487305,
      "learning_rate": 0.0001979992021851751,
      "loss": 0.5277,
      "step": 94
    },
    {
      "epoch": 0.07161366313309776,
      "grad_norm": 10.86539363861084,
      "learning_rate": 0.00019795144486532814,
      "loss": 0.5511,
      "step": 95
    },
    {
      "epoch": 0.07236749116607774,
      "grad_norm": 13.410208702087402,
      "learning_rate": 0.00019790313018158156,
      "loss": 0.5658,
      "step": 96
    },
    {
      "epoch": 0.07312131919905772,
      "grad_norm": 14.898797988891602,
      "learning_rate": 0.0001978542584088558,
      "loss": 0.5529,
      "step": 97
    },
    {
      "epoch": 0.0738751472320377,
      "grad_norm": 14.036768913269043,
      "learning_rate": 0.00019780482982524142,
      "loss": 0.5396,
      "step": 98
    },
    {
      "epoch": 0.07462897526501767,
      "grad_norm": 15.9882173538208,
      "learning_rate": 0.00019775484471199715,
      "loss": 0.514,
      "step": 99
    },
    {
      "epoch": 0.07538280329799764,
      "grad_norm": 17.01093864440918,
      "learning_rate": 0.0001977043033535486,
      "loss": 0.5262,
      "step": 100
    },
    {
      "epoch": 0.07613663133097762,
      "grad_norm": 41.135196685791016,
      "learning_rate": 0.00019765320603748655,
      "loss": 0.7909,
      "step": 101
    },
    {
      "epoch": 0.0768904593639576,
      "grad_norm": 25.291397094726562,
      "learning_rate": 0.0001976015530545652,
      "loss": 0.714,
      "step": 102
    },
    {
      "epoch": 0.07764428739693757,
      "grad_norm": 12.169105529785156,
      "learning_rate": 0.0001975493446987007,
      "loss": 0.5999,
      "step": 103
    },
    {
      "epoch": 0.07839811542991755,
      "grad_norm": 8.400662422180176,
      "learning_rate": 0.00019749658126696934,
      "loss": 0.5707,
      "step": 104
    },
    {
      "epoch": 0.07915194346289753,
      "grad_norm": 10.622336387634277,
      "learning_rate": 0.00019744326305960595,
      "loss": 0.5798,
      "step": 105
    },
    {
      "epoch": 0.0799057714958775,
      "grad_norm": 10.29685115814209,
      "learning_rate": 0.00019738939038000205,
      "loss": 0.5752,
      "step": 106
    },
    {
      "epoch": 0.08065959952885748,
      "grad_norm": 7.853797435760498,
      "learning_rate": 0.00019733496353470433,
      "loss": 0.543,
      "step": 107
    },
    {
      "epoch": 0.08141342756183746,
      "grad_norm": 7.910231113433838,
      "learning_rate": 0.00019727998283341274,
      "loss": 0.5155,
      "step": 108
    },
    {
      "epoch": 0.08216725559481743,
      "grad_norm": 8.53306770324707,
      "learning_rate": 0.00019722444858897878,
      "loss": 0.5029,
      "step": 109
    },
    {
      "epoch": 0.0829210836277974,
      "grad_norm": 8.579912185668945,
      "learning_rate": 0.00019716836111740378,
      "loss": 0.487,
      "step": 110
    },
    {
      "epoch": 0.08367491166077738,
      "grad_norm": 8.553475379943848,
      "learning_rate": 0.00019711172073783696,
      "loss": 0.4853,
      "step": 111
    },
    {
      "epoch": 0.08442873969375736,
      "grad_norm": 9.386043548583984,
      "learning_rate": 0.00019705452777257377,
      "loss": 0.4941,
      "step": 112
    },
    {
      "epoch": 0.08518256772673734,
      "grad_norm": 8.391158103942871,
      "learning_rate": 0.000196996782547054,
      "loss": 0.4657,
      "step": 113
    },
    {
      "epoch": 0.08593639575971732,
      "grad_norm": 8.52602481842041,
      "learning_rate": 0.00019693848538985983,
      "loss": 0.4744,
      "step": 114
    },
    {
      "epoch": 0.0866902237926973,
      "grad_norm": 7.8026885986328125,
      "learning_rate": 0.00019687963663271409,
      "loss": 0.4742,
      "step": 115
    },
    {
      "epoch": 0.08744405182567727,
      "grad_norm": 8.957297325134277,
      "learning_rate": 0.00019682023661047836,
      "loss": 0.4846,
      "step": 116
    },
    {
      "epoch": 0.08819787985865725,
      "grad_norm": 8.33506965637207,
      "learning_rate": 0.00019676028566115102,
      "loss": 0.47,
      "step": 117
    },
    {
      "epoch": 0.08895170789163721,
      "grad_norm": 7.720737934112549,
      "learning_rate": 0.00019669978412586528,
      "loss": 0.4512,
      "step": 118
    },
    {
      "epoch": 0.08970553592461719,
      "grad_norm": 7.069596290588379,
      "learning_rate": 0.00019663873234888733,
      "loss": 0.4685,
      "step": 119
    },
    {
      "epoch": 0.09045936395759717,
      "grad_norm": 7.589311599731445,
      "learning_rate": 0.0001965771306776144,
      "loss": 0.4702,
      "step": 120
    },
    {
      "epoch": 0.09121319199057715,
      "grad_norm": 7.950814723968506,
      "learning_rate": 0.00019651497946257266,
      "loss": 0.4797,
      "step": 121
    },
    {
      "epoch": 0.09196702002355713,
      "grad_norm": 7.834803581237793,
      "learning_rate": 0.00019645227905741534,
      "loss": 0.4512,
      "step": 122
    },
    {
      "epoch": 0.0927208480565371,
      "grad_norm": 7.925727844238281,
      "learning_rate": 0.00019638902981892068,
      "loss": 0.4702,
      "step": 123
    },
    {
      "epoch": 0.09347467608951708,
      "grad_norm": 7.2047038078308105,
      "learning_rate": 0.00019632523210698987,
      "loss": 0.4586,
      "step": 124
    },
    {
      "epoch": 0.09422850412249706,
      "grad_norm": 8.701865196228027,
      "learning_rate": 0.00019626088628464498,
      "loss": 0.4629,
      "step": 125
    },
    {
      "epoch": 0.09498233215547704,
      "grad_norm": 7.792990684509277,
      "learning_rate": 0.00019619599271802706,
      "loss": 0.4578,
      "step": 126
    },
    {
      "epoch": 0.09573616018845701,
      "grad_norm": 7.0652642250061035,
      "learning_rate": 0.00019613055177639384,
      "loss": 0.4439,
      "step": 127
    },
    {
      "epoch": 0.09648998822143698,
      "grad_norm": 7.519805431365967,
      "learning_rate": 0.00019606456383211777,
      "loss": 0.4371,
      "step": 128
    },
    {
      "epoch": 0.09724381625441696,
      "grad_norm": 7.7905659675598145,
      "learning_rate": 0.00019599802926068384,
      "loss": 0.4631,
      "step": 129
    },
    {
      "epoch": 0.09799764428739693,
      "grad_norm": 7.713627338409424,
      "learning_rate": 0.00019593094844068748,
      "loss": 0.4415,
      "step": 130
    },
    {
      "epoch": 0.09875147232037691,
      "grad_norm": 7.864312171936035,
      "learning_rate": 0.00019586332175383238,
      "loss": 0.493,
      "step": 131
    },
    {
      "epoch": 0.09950530035335689,
      "grad_norm": 7.424186706542969,
      "learning_rate": 0.00019579514958492826,
      "loss": 0.4105,
      "step": 132
    },
    {
      "epoch": 0.10025912838633687,
      "grad_norm": 7.774516582489014,
      "learning_rate": 0.0001957264323218889,
      "loss": 0.4406,
      "step": 133
    },
    {
      "epoch": 0.10101295641931685,
      "grad_norm": 8.56273365020752,
      "learning_rate": 0.0001956571703557296,
      "loss": 0.4743,
      "step": 134
    },
    {
      "epoch": 0.10176678445229682,
      "grad_norm": 7.981069087982178,
      "learning_rate": 0.00019558736408056525,
      "loss": 0.4167,
      "step": 135
    },
    {
      "epoch": 0.1025206124852768,
      "grad_norm": 7.851569175720215,
      "learning_rate": 0.00019551701389360795,
      "loss": 0.4582,
      "step": 136
    },
    {
      "epoch": 0.10327444051825677,
      "grad_norm": 7.7381510734558105,
      "learning_rate": 0.00019544612019516472,
      "loss": 0.4336,
      "step": 137
    },
    {
      "epoch": 0.10402826855123674,
      "grad_norm": 8.127756118774414,
      "learning_rate": 0.00019537468338863537,
      "loss": 0.4588,
      "step": 138
    },
    {
      "epoch": 0.10478209658421672,
      "grad_norm": 7.989606857299805,
      "learning_rate": 0.00019530270388050998,
      "loss": 0.4269,
      "step": 139
    },
    {
      "epoch": 0.1055359246171967,
      "grad_norm": 8.431105613708496,
      "learning_rate": 0.00019523018208036677,
      "loss": 0.4645,
      "step": 140
    },
    {
      "epoch": 0.10628975265017668,
      "grad_norm": 8.575553894042969,
      "learning_rate": 0.0001951571184008698,
      "loss": 0.4587,
      "step": 141
    },
    {
      "epoch": 0.10704358068315666,
      "grad_norm": 9.703766822814941,
      "learning_rate": 0.00019508351325776642,
      "loss": 0.4826,
      "step": 142
    },
    {
      "epoch": 0.10779740871613663,
      "grad_norm": 10.319994926452637,
      "learning_rate": 0.00019500936706988502,
      "loss": 0.5255,
      "step": 143
    },
    {
      "epoch": 0.10855123674911661,
      "grad_norm": 11.801458358764648,
      "learning_rate": 0.00019493468025913276,
      "loss": 0.5143,
      "step": 144
    },
    {
      "epoch": 0.10930506478209659,
      "grad_norm": 11.02754020690918,
      "learning_rate": 0.00019485945325049288,
      "loss": 0.4947,
      "step": 145
    },
    {
      "epoch": 0.11005889281507657,
      "grad_norm": 11.526784896850586,
      "learning_rate": 0.00019478368647202264,
      "loss": 0.5627,
      "step": 146
    },
    {
      "epoch": 0.11081272084805653,
      "grad_norm": 11.704715728759766,
      "learning_rate": 0.00019470738035485058,
      "loss": 0.5015,
      "step": 147
    },
    {
      "epoch": 0.11156654888103651,
      "grad_norm": 14.198360443115234,
      "learning_rate": 0.00019463053533317425,
      "loss": 0.5488,
      "step": 148
    },
    {
      "epoch": 0.11232037691401649,
      "grad_norm": 14.75071907043457,
      "learning_rate": 0.0001945531518442576,
      "loss": 0.5327,
      "step": 149
    },
    {
      "epoch": 0.11307420494699646,
      "grad_norm": 17.345752716064453,
      "learning_rate": 0.0001944752303284287,
      "loss": 0.4909,
      "step": 150
    },
    {
      "epoch": 0.11382803297997644,
      "grad_norm": 25.253982543945312,
      "learning_rate": 0.00019439677122907697,
      "loss": 0.7106,
      "step": 151
    },
    {
      "epoch": 0.11458186101295642,
      "grad_norm": 22.05714988708496,
      "learning_rate": 0.00019431777499265087,
      "loss": 0.6719,
      "step": 152
    },
    {
      "epoch": 0.1153356890459364,
      "grad_norm": 14.386154174804688,
      "learning_rate": 0.00019423824206865527,
      "loss": 0.663,
      "step": 153
    },
    {
      "epoch": 0.11608951707891638,
      "grad_norm": 8.701356887817383,
      "learning_rate": 0.00019415817290964883,
      "loss": 0.5581,
      "step": 154
    },
    {
      "epoch": 0.11684334511189635,
      "grad_norm": 8.447550773620605,
      "learning_rate": 0.00019407756797124164,
      "loss": 0.5545,
      "step": 155
    },
    {
      "epoch": 0.11759717314487632,
      "grad_norm": 9.116722106933594,
      "learning_rate": 0.00019399642771209238,
      "loss": 0.5284,
      "step": 156
    },
    {
      "epoch": 0.1183510011778563,
      "grad_norm": 9.142845153808594,
      "learning_rate": 0.00019391475259390584,
      "loss": 0.5052,
      "step": 157
    },
    {
      "epoch": 0.11910482921083627,
      "grad_norm": 9.175527572631836,
      "learning_rate": 0.0001938325430814302,
      "loss": 0.524,
      "step": 158
    },
    {
      "epoch": 0.11985865724381625,
      "grad_norm": 8.684857368469238,
      "learning_rate": 0.00019374979964245463,
      "loss": 0.5387,
      "step": 159
    },
    {
      "epoch": 0.12061248527679623,
      "grad_norm": 9.40937328338623,
      "learning_rate": 0.00019366652274780628,
      "loss": 0.5081,
      "step": 160
    },
    {
      "epoch": 0.12136631330977621,
      "grad_norm": 9.983878135681152,
      "learning_rate": 0.00019358271287134784,
      "loss": 0.5234,
      "step": 161
    },
    {
      "epoch": 0.12212014134275619,
      "grad_norm": 8.468266487121582,
      "learning_rate": 0.00019349837048997478,
      "loss": 0.5008,
      "step": 162
    },
    {
      "epoch": 0.12287396937573616,
      "grad_norm": 7.315543174743652,
      "learning_rate": 0.00019341349608361267,
      "loss": 0.4778,
      "step": 163
    },
    {
      "epoch": 0.12362779740871614,
      "grad_norm": 8.254434585571289,
      "learning_rate": 0.00019332809013521428,
      "loss": 0.4949,
      "step": 164
    },
    {
      "epoch": 0.12438162544169612,
      "grad_norm": 9.409392356872559,
      "learning_rate": 0.00019324215313075706,
      "loss": 0.4842,
      "step": 165
    },
    {
      "epoch": 0.12513545347467608,
      "grad_norm": 7.584166526794434,
      "learning_rate": 0.00019315568555924035,
      "loss": 0.4859,
      "step": 166
    },
    {
      "epoch": 0.12588928150765608,
      "grad_norm": 7.280964374542236,
      "learning_rate": 0.0001930686879126824,
      "loss": 0.4436,
      "step": 167
    },
    {
      "epoch": 0.12664310954063604,
      "grad_norm": 7.54876708984375,
      "learning_rate": 0.0001929811606861177,
      "loss": 0.4636,
      "step": 168
    },
    {
      "epoch": 0.12739693757361603,
      "grad_norm": 8.36787223815918,
      "learning_rate": 0.00019289310437759427,
      "loss": 0.4862,
      "step": 169
    },
    {
      "epoch": 0.128150765606596,
      "grad_norm": 8.098321914672852,
      "learning_rate": 0.00019280451948817059,
      "loss": 0.4558,
      "step": 170
    },
    {
      "epoch": 0.12890459363957596,
      "grad_norm": 8.111252784729004,
      "learning_rate": 0.00019271540652191296,
      "loss": 0.461,
      "step": 171
    },
    {
      "epoch": 0.12965842167255595,
      "grad_norm": 7.394045829772949,
      "learning_rate": 0.0001926257659858925,
      "loss": 0.4397,
      "step": 172
    },
    {
      "epoch": 0.13041224970553592,
      "grad_norm": 7.361767768859863,
      "learning_rate": 0.00019253559839018235,
      "loss": 0.4811,
      "step": 173
    },
    {
      "epoch": 0.1311660777385159,
      "grad_norm": 7.598999500274658,
      "learning_rate": 0.00019244490424785468,
      "loss": 0.4353,
      "step": 174
    },
    {
      "epoch": 0.13191990577149587,
      "grad_norm": 7.871952056884766,
      "learning_rate": 0.00019235368407497788,
      "loss": 0.4847,
      "step": 175
    },
    {
      "epoch": 0.13267373380447586,
      "grad_norm": 7.250602722167969,
      "learning_rate": 0.00019226193839061347,
      "loss": 0.4482,
      "step": 176
    },
    {
      "epoch": 0.13342756183745583,
      "grad_norm": 7.890292644500732,
      "learning_rate": 0.0001921696677168133,
      "loss": 0.4475,
      "step": 177
    },
    {
      "epoch": 0.13418138987043582,
      "grad_norm": 7.192571640014648,
      "learning_rate": 0.00019207687257861655,
      "loss": 0.4093,
      "step": 178
    },
    {
      "epoch": 0.13493521790341578,
      "grad_norm": 8.001566886901855,
      "learning_rate": 0.00019198355350404667,
      "loss": 0.4729,
      "step": 179
    },
    {
      "epoch": 0.13568904593639575,
      "grad_norm": 7.559464454650879,
      "learning_rate": 0.00019188971102410837,
      "loss": 0.4455,
      "step": 180
    },
    {
      "epoch": 0.13644287396937574,
      "grad_norm": 7.921515941619873,
      "learning_rate": 0.00019179534567278475,
      "loss": 0.4421,
      "step": 181
    },
    {
      "epoch": 0.1371967020023557,
      "grad_norm": 7.778410911560059,
      "learning_rate": 0.00019170045798703406,
      "loss": 0.4485,
      "step": 182
    },
    {
      "epoch": 0.1379505300353357,
      "grad_norm": 7.606152534484863,
      "learning_rate": 0.0001916050485067868,
      "loss": 0.4235,
      "step": 183
    },
    {
      "epoch": 0.13870435806831566,
      "grad_norm": 7.29620361328125,
      "learning_rate": 0.00019150911777494258,
      "loss": 0.4433,
      "step": 184
    },
    {
      "epoch": 0.13945818610129565,
      "grad_norm": 7.7016072273254395,
      "learning_rate": 0.00019141266633736697,
      "loss": 0.444,
      "step": 185
    },
    {
      "epoch": 0.14021201413427561,
      "grad_norm": 7.524323463439941,
      "learning_rate": 0.0001913156947428886,
      "loss": 0.4481,
      "step": 186
    },
    {
      "epoch": 0.1409658421672556,
      "grad_norm": 7.7455525398254395,
      "learning_rate": 0.00019121820354329577,
      "loss": 0.4152,
      "step": 187
    },
    {
      "epoch": 0.14171967020023557,
      "grad_norm": 8.12897777557373,
      "learning_rate": 0.00019112019329333346,
      "loss": 0.4443,
      "step": 188
    },
    {
      "epoch": 0.14247349823321553,
      "grad_norm": 7.774250507354736,
      "learning_rate": 0.00019102166455070024,
      "loss": 0.4442,
      "step": 189
    },
    {
      "epoch": 0.14322732626619553,
      "grad_norm": 8.02647876739502,
      "learning_rate": 0.00019092261787604492,
      "loss": 0.4489,
      "step": 190
    },
    {
      "epoch": 0.1439811542991755,
      "grad_norm": 7.7611799240112305,
      "learning_rate": 0.00019082305383296352,
      "loss": 0.4122,
      "step": 191
    },
    {
      "epoch": 0.14473498233215548,
      "grad_norm": 9.484501838684082,
      "learning_rate": 0.00019072297298799589,
      "loss": 0.4725,
      "step": 192
    },
    {
      "epoch": 0.14548881036513545,
      "grad_norm": 9.696186065673828,
      "learning_rate": 0.00019062237591062272,
      "loss": 0.4913,
      "step": 193
    },
    {
      "epoch": 0.14624263839811544,
      "grad_norm": 11.048422813415527,
      "learning_rate": 0.00019052126317326207,
      "loss": 0.5425,
      "step": 194
    },
    {
      "epoch": 0.1469964664310954,
      "grad_norm": 10.327349662780762,
      "learning_rate": 0.00019041963535126625,
      "loss": 0.5171,
      "step": 195
    },
    {
      "epoch": 0.1477502944640754,
      "grad_norm": 11.808932304382324,
      "learning_rate": 0.0001903174930229185,
      "loss": 0.504,
      "step": 196
    },
    {
      "epoch": 0.14850412249705536,
      "grad_norm": 11.13871955871582,
      "learning_rate": 0.00019021483676942973,
      "loss": 0.5261,
      "step": 197
    },
    {
      "epoch": 0.14925795053003535,
      "grad_norm": 11.771498680114746,
      "learning_rate": 0.00019011166717493517,
      "loss": 0.5062,
      "step": 198
    },
    {
      "epoch": 0.1500117785630153,
      "grad_norm": 13.0664644241333,
      "learning_rate": 0.000190007984826491,
      "loss": 0.5488,
      "step": 199
    },
    {
      "epoch": 0.15076560659599528,
      "grad_norm": 15.87386417388916,
      "learning_rate": 0.00018990379031407124,
      "loss": 0.547,
      "step": 200
    },
    {
      "epoch": 0.15151943462897527,
      "grad_norm": 20.688980102539062,
      "learning_rate": 0.00018979908423056408,
      "loss": 0.7222,
      "step": 201
    },
    {
      "epoch": 0.15227326266195523,
      "grad_norm": 16.90519905090332,
      "learning_rate": 0.0001896938671717687,
      "loss": 0.6582,
      "step": 202
    },
    {
      "epoch": 0.15302709069493522,
      "grad_norm": 11.236451148986816,
      "learning_rate": 0.00018958813973639184,
      "loss": 0.6151,
      "step": 203
    },
    {
      "epoch": 0.1537809187279152,
      "grad_norm": 8.368070602416992,
      "learning_rate": 0.0001894819025260444,
      "loss": 0.5729,
      "step": 204
    },
    {
      "epoch": 0.15453474676089518,
      "grad_norm": 7.891096115112305,
      "learning_rate": 0.00018937515614523797,
      "loss": 0.5132,
      "step": 205
    },
    {
      "epoch": 0.15528857479387514,
      "grad_norm": 8.290247917175293,
      "learning_rate": 0.0001892679012013815,
      "loss": 0.5311,
      "step": 206
    },
    {
      "epoch": 0.15604240282685514,
      "grad_norm": 8.068524360656738,
      "learning_rate": 0.00018916013830477766,
      "loss": 0.5038,
      "step": 207
    },
    {
      "epoch": 0.1567962308598351,
      "grad_norm": 7.199114799499512,
      "learning_rate": 0.00018905186806861957,
      "loss": 0.4933,
      "step": 208
    },
    {
      "epoch": 0.15755005889281506,
      "grad_norm": 6.769901275634766,
      "learning_rate": 0.00018894309110898712,
      "loss": 0.4743,
      "step": 209
    },
    {
      "epoch": 0.15830388692579506,
      "grad_norm": 7.485007286071777,
      "learning_rate": 0.00018883380804484367,
      "loss": 0.4832,
      "step": 210
    },
    {
      "epoch": 0.15905771495877502,
      "grad_norm": 7.059638500213623,
      "learning_rate": 0.00018872401949803237,
      "loss": 0.4544,
      "step": 211
    },
    {
      "epoch": 0.159811542991755,
      "grad_norm": 7.6718549728393555,
      "learning_rate": 0.00018861372609327263,
      "loss": 0.4727,
      "step": 212
    },
    {
      "epoch": 0.16056537102473498,
      "grad_norm": 7.764082431793213,
      "learning_rate": 0.00018850292845815672,
      "loss": 0.4645,
      "step": 213
    },
    {
      "epoch": 0.16131919905771497,
      "grad_norm": 8.037138938903809,
      "learning_rate": 0.0001883916272231459,
      "loss": 0.4712,
      "step": 214
    },
    {
      "epoch": 0.16207302709069493,
      "grad_norm": 7.26751184463501,
      "learning_rate": 0.0001882798230215672,
      "loss": 0.4477,
      "step": 215
    },
    {
      "epoch": 0.16282685512367492,
      "grad_norm": 7.747137069702148,
      "learning_rate": 0.00018816751648960956,
      "loss": 0.4544,
      "step": 216
    },
    {
      "epoch": 0.1635806831566549,
      "grad_norm": 7.478286266326904,
      "learning_rate": 0.00018805470826632024,
      "loss": 0.4539,
      "step": 217
    },
    {
      "epoch": 0.16433451118963485,
      "grad_norm": 7.051617622375488,
      "learning_rate": 0.0001879413989936013,
      "loss": 0.4688,
      "step": 218
    },
    {
      "epoch": 0.16508833922261484,
      "grad_norm": 7.303111553192139,
      "learning_rate": 0.00018782758931620584,
      "loss": 0.4551,
      "step": 219
    },
    {
      "epoch": 0.1658421672555948,
      "grad_norm": 7.094053745269775,
      "learning_rate": 0.00018771327988173435,
      "loss": 0.4398,
      "step": 220
    },
    {
      "epoch": 0.1665959952885748,
      "grad_norm": 7.781626224517822,
      "learning_rate": 0.00018759847134063108,
      "loss": 0.4719,
      "step": 221
    },
    {
      "epoch": 0.16734982332155476,
      "grad_norm": 7.860665321350098,
      "learning_rate": 0.0001874831643461803,
      "loss": 0.4573,
      "step": 222
    },
    {
      "epoch": 0.16810365135453476,
      "grad_norm": 7.380893707275391,
      "learning_rate": 0.00018736735955450251,
      "loss": 0.4341,
      "step": 223
    },
    {
      "epoch": 0.16885747938751472,
      "grad_norm": 7.672417163848877,
      "learning_rate": 0.0001872510576245509,
      "loss": 0.4511,
      "step": 224
    },
    {
      "epoch": 0.1696113074204947,
      "grad_norm": 7.173273086547852,
      "learning_rate": 0.00018713425921810733,
      "loss": 0.4374,
      "step": 225
    },
    {
      "epoch": 0.17036513545347468,
      "grad_norm": 7.41825532913208,
      "learning_rate": 0.00018701696499977884,
      "loss": 0.4464,
      "step": 226
    },
    {
      "epoch": 0.17111896348645464,
      "grad_norm": 8.151430130004883,
      "learning_rate": 0.0001868991756369937,
      "loss": 0.4535,
      "step": 227
    },
    {
      "epoch": 0.17187279151943463,
      "grad_norm": 7.760961532592773,
      "learning_rate": 0.00018678089179999762,
      "loss": 0.4731,
      "step": 228
    },
    {
      "epoch": 0.1726266195524146,
      "grad_norm": 8.02840518951416,
      "learning_rate": 0.00018666211416184999,
      "loss": 0.4745,
      "step": 229
    },
    {
      "epoch": 0.1733804475853946,
      "grad_norm": 7.38688850402832,
      "learning_rate": 0.00018654284339842013,
      "loss": 0.4341,
      "step": 230
    },
    {
      "epoch": 0.17413427561837455,
      "grad_norm": 7.492348670959473,
      "learning_rate": 0.00018642308018838316,
      "loss": 0.4147,
      "step": 231
    },
    {
      "epoch": 0.17488810365135454,
      "grad_norm": 7.687479019165039,
      "learning_rate": 0.00018630282521321645,
      "loss": 0.4404,
      "step": 232
    },
    {
      "epoch": 0.1756419316843345,
      "grad_norm": 7.790548324584961,
      "learning_rate": 0.0001861820791571956,
      "loss": 0.4389,
      "step": 233
    },
    {
      "epoch": 0.1763957597173145,
      "grad_norm": 7.557417392730713,
      "learning_rate": 0.00018606084270739049,
      "loss": 0.4467,
      "step": 234
    },
    {
      "epoch": 0.17714958775029446,
      "grad_norm": 7.971850872039795,
      "learning_rate": 0.0001859391165536615,
      "loss": 0.415,
      "step": 235
    },
    {
      "epoch": 0.17790341578327443,
      "grad_norm": 8.08571720123291,
      "learning_rate": 0.0001858169013886556,
      "loss": 0.4488,
      "step": 236
    },
    {
      "epoch": 0.17865724381625442,
      "grad_norm": 7.706898212432861,
      "learning_rate": 0.00018569419790780218,
      "loss": 0.4296,
      "step": 237
    },
    {
      "epoch": 0.17941107184923438,
      "grad_norm": 7.6118245124816895,
      "learning_rate": 0.00018557100680930937,
      "loss": 0.4223,
      "step": 238
    },
    {
      "epoch": 0.18016489988221437,
      "grad_norm": 8.255146980285645,
      "learning_rate": 0.00018544732879415986,
      "loss": 0.4802,
      "step": 239
    },
    {
      "epoch": 0.18091872791519434,
      "grad_norm": 9.077119827270508,
      "learning_rate": 0.00018532316456610704,
      "loss": 0.4376,
      "step": 240
    },
    {
      "epoch": 0.18167255594817433,
      "grad_norm": 8.465483665466309,
      "learning_rate": 0.00018519851483167097,
      "loss": 0.4339,
      "step": 241
    },
    {
      "epoch": 0.1824263839811543,
      "grad_norm": 9.302364349365234,
      "learning_rate": 0.00018507338030013427,
      "loss": 0.4429,
      "step": 242
    },
    {
      "epoch": 0.18318021201413429,
      "grad_norm": 10.150344848632812,
      "learning_rate": 0.00018494776168353827,
      "loss": 0.4768,
      "step": 243
    },
    {
      "epoch": 0.18393404004711425,
      "grad_norm": 10.960404396057129,
      "learning_rate": 0.00018482165969667874,
      "loss": 0.5072,
      "step": 244
    },
    {
      "epoch": 0.18468786808009424,
      "grad_norm": 10.028700828552246,
      "learning_rate": 0.00018469507505710194,
      "loss": 0.5194,
      "step": 245
    },
    {
      "epoch": 0.1854416961130742,
      "grad_norm": 10.371344566345215,
      "learning_rate": 0.00018456800848510056,
      "loss": 0.4974,
      "step": 246
    },
    {
      "epoch": 0.18619552414605417,
      "grad_norm": 11.256722450256348,
      "learning_rate": 0.00018444046070370963,
      "loss": 0.4655,
      "step": 247
    },
    {
      "epoch": 0.18694935217903416,
      "grad_norm": 11.339438438415527,
      "learning_rate": 0.00018431243243870223,
      "loss": 0.5004,
      "step": 248
    },
    {
      "epoch": 0.18770318021201413,
      "grad_norm": 12.51115894317627,
      "learning_rate": 0.00018418392441858555,
      "loss": 0.5498,
      "step": 249
    },
    {
      "epoch": 0.18845700824499412,
      "grad_norm": 12.920282363891602,
      "learning_rate": 0.0001840549373745968,
      "loss": 0.4545,
      "step": 250
    },
    {
      "epoch": 0.18921083627797408,
      "grad_norm": 17.809480667114258,
      "learning_rate": 0.0001839254720406987,
      "loss": 0.6779,
      "step": 251
    },
    {
      "epoch": 0.18996466431095407,
      "grad_norm": 14.654753684997559,
      "learning_rate": 0.00018379552915357575,
      "loss": 0.639,
      "step": 252
    },
    {
      "epoch": 0.19071849234393404,
      "grad_norm": 10.703547477722168,
      "learning_rate": 0.00018366510945262972,
      "loss": 0.6024,
      "step": 253
    },
    {
      "epoch": 0.19147232037691403,
      "grad_norm": 9.329981803894043,
      "learning_rate": 0.00018353421367997563,
      "loss": 0.5221,
      "step": 254
    },
    {
      "epoch": 0.192226148409894,
      "grad_norm": 7.0998663902282715,
      "learning_rate": 0.00018340284258043732,
      "loss": 0.5203,
      "step": 255
    },
    {
      "epoch": 0.19297997644287396,
      "grad_norm": 8.919529914855957,
      "learning_rate": 0.00018327099690154344,
      "loss": 0.5286,
      "step": 256
    },
    {
      "epoch": 0.19373380447585395,
      "grad_norm": 8.378999710083008,
      "learning_rate": 0.00018313867739352304,
      "loss": 0.4929,
      "step": 257
    },
    {
      "epoch": 0.1944876325088339,
      "grad_norm": 7.437035083770752,
      "learning_rate": 0.00018300588480930143,
      "loss": 0.4622,
      "step": 258
    },
    {
      "epoch": 0.1952414605418139,
      "grad_norm": 7.368019104003906,
      "learning_rate": 0.0001828726199044957,
      "loss": 0.4824,
      "step": 259
    },
    {
      "epoch": 0.19599528857479387,
      "grad_norm": 7.174773693084717,
      "learning_rate": 0.0001827388834374107,
      "loss": 0.4601,
      "step": 260
    },
    {
      "epoch": 0.19674911660777386,
      "grad_norm": 7.612614154815674,
      "learning_rate": 0.0001826046761690344,
      "loss": 0.474,
      "step": 261
    },
    {
      "epoch": 0.19750294464075382,
      "grad_norm": 8.047442436218262,
      "learning_rate": 0.00018246999886303383,
      "loss": 0.4594,
      "step": 262
    },
    {
      "epoch": 0.19825677267373382,
      "grad_norm": 7.06972599029541,
      "learning_rate": 0.00018233485228575063,
      "loss": 0.4944,
      "step": 263
    },
    {
      "epoch": 0.19901060070671378,
      "grad_norm": 7.2451324462890625,
      "learning_rate": 0.00018219923720619663,
      "loss": 0.4748,
      "step": 264
    },
    {
      "epoch": 0.19976442873969374,
      "grad_norm": 8.119038581848145,
      "learning_rate": 0.0001820631543960496,
      "loss": 0.4286,
      "step": 265
    },
    {
      "epoch": 0.20051825677267374,
      "grad_norm": 8.046279907226562,
      "learning_rate": 0.0001819266046296487,
      "loss": 0.4566,
      "step": 266
    },
    {
      "epoch": 0.2012720848056537,
      "grad_norm": 6.79647970199585,
      "learning_rate": 0.00018178958868399033,
      "loss": 0.4214,
      "step": 267
    },
    {
      "epoch": 0.2020259128386337,
      "grad_norm": 6.761276721954346,
      "learning_rate": 0.00018165210733872336,
      "loss": 0.4272,
      "step": 268
    },
    {
      "epoch": 0.20277974087161366,
      "grad_norm": 7.771080493927002,
      "learning_rate": 0.000181514161376145,
      "loss": 0.4602,
      "step": 269
    },
    {
      "epoch": 0.20353356890459365,
      "grad_norm": 7.610669136047363,
      "learning_rate": 0.0001813757515811962,
      "loss": 0.4413,
      "step": 270
    },
    {
      "epoch": 0.2042873969375736,
      "grad_norm": 7.277632236480713,
      "learning_rate": 0.00018123687874145721,
      "loss": 0.417,
      "step": 271
    },
    {
      "epoch": 0.2050412249705536,
      "grad_norm": 7.344987869262695,
      "learning_rate": 0.00018109754364714305,
      "loss": 0.4326,
      "step": 272
    },
    {
      "epoch": 0.20579505300353357,
      "grad_norm": 7.373658180236816,
      "learning_rate": 0.0001809577470910992,
      "loss": 0.4107,
      "step": 273
    },
    {
      "epoch": 0.20654888103651353,
      "grad_norm": 8.498446464538574,
      "learning_rate": 0.00018081748986879679,
      "loss": 0.4463,
      "step": 274
    },
    {
      "epoch": 0.20730270906949352,
      "grad_norm": 7.138429164886475,
      "learning_rate": 0.00018067677277832834,
      "loss": 0.4354,
      "step": 275
    },
    {
      "epoch": 0.2080565371024735,
      "grad_norm": 7.916346073150635,
      "learning_rate": 0.00018053559662040302,
      "loss": 0.448,
      "step": 276
    },
    {
      "epoch": 0.20881036513545348,
      "grad_norm": 6.8389201164245605,
      "learning_rate": 0.00018039396219834237,
      "loss": 0.4095,
      "step": 277
    },
    {
      "epoch": 0.20956419316843344,
      "grad_norm": 7.184628009796143,
      "learning_rate": 0.00018025187031807532,
      "loss": 0.421,
      "step": 278
    },
    {
      "epoch": 0.21031802120141344,
      "grad_norm": 6.9601569175720215,
      "learning_rate": 0.00018010932178813397,
      "loss": 0.4329,
      "step": 279
    },
    {
      "epoch": 0.2110718492343934,
      "grad_norm": 7.579134464263916,
      "learning_rate": 0.00017996631741964888,
      "loss": 0.439,
      "step": 280
    },
    {
      "epoch": 0.2118256772673734,
      "grad_norm": 7.37368106842041,
      "learning_rate": 0.00017982285802634426,
      "loss": 0.4225,
      "step": 281
    },
    {
      "epoch": 0.21257950530035336,
      "grad_norm": 7.1782145500183105,
      "learning_rate": 0.0001796789444245337,
      "loss": 0.4094,
      "step": 282
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 7.470993995666504,
      "learning_rate": 0.00017953457743311523,
      "loss": 0.4267,
      "step": 283
    },
    {
      "epoch": 0.2140871613663133,
      "grad_norm": 7.285700798034668,
      "learning_rate": 0.00017938975787356673,
      "loss": 0.4113,
      "step": 284
    },
    {
      "epoch": 0.21484098939929328,
      "grad_norm": 7.5254130363464355,
      "learning_rate": 0.00017924448656994133,
      "loss": 0.4362,
      "step": 285
    },
    {
      "epoch": 0.21559481743227327,
      "grad_norm": 7.6265411376953125,
      "learning_rate": 0.00017909876434886273,
      "loss": 0.443,
      "step": 286
    },
    {
      "epoch": 0.21634864546525323,
      "grad_norm": 7.822786808013916,
      "learning_rate": 0.00017895259203952032,
      "loss": 0.4385,
      "step": 287
    },
    {
      "epoch": 0.21710247349823322,
      "grad_norm": 7.836915969848633,
      "learning_rate": 0.0001788059704736647,
      "loss": 0.4509,
      "step": 288
    },
    {
      "epoch": 0.2178563015312132,
      "grad_norm": 8.352907180786133,
      "learning_rate": 0.00017865890048560277,
      "loss": 0.4747,
      "step": 289
    },
    {
      "epoch": 0.21861012956419318,
      "grad_norm": 8.010136604309082,
      "learning_rate": 0.00017851138291219301,
      "loss": 0.4662,
      "step": 290
    },
    {
      "epoch": 0.21936395759717314,
      "grad_norm": 8.264348983764648,
      "learning_rate": 0.00017836341859284093,
      "loss": 0.4473,
      "step": 291
    },
    {
      "epoch": 0.22011778563015313,
      "grad_norm": 8.917752265930176,
      "learning_rate": 0.00017821500836949386,
      "loss": 0.4909,
      "step": 292
    },
    {
      "epoch": 0.2208716136631331,
      "grad_norm": 9.103057861328125,
      "learning_rate": 0.0001780661530866366,
      "loss": 0.4885,
      "step": 293
    },
    {
      "epoch": 0.22162544169611306,
      "grad_norm": 10.667252540588379,
      "learning_rate": 0.00017791685359128633,
      "loss": 0.5175,
      "step": 294
    },
    {
      "epoch": 0.22237926972909305,
      "grad_norm": 9.840495109558105,
      "learning_rate": 0.000177767110732988,
      "loss": 0.5175,
      "step": 295
    },
    {
      "epoch": 0.22313309776207302,
      "grad_norm": 10.290101051330566,
      "learning_rate": 0.00017761692536380928,
      "loss": 0.4749,
      "step": 296
    },
    {
      "epoch": 0.223886925795053,
      "grad_norm": 10.657001495361328,
      "learning_rate": 0.00017746629833833585,
      "loss": 0.534,
      "step": 297
    },
    {
      "epoch": 0.22464075382803297,
      "grad_norm": 10.042377471923828,
      "learning_rate": 0.00017731523051366658,
      "loss": 0.454,
      "step": 298
    },
    {
      "epoch": 0.22539458186101297,
      "grad_norm": 12.303505897521973,
      "learning_rate": 0.00017716372274940843,
      "loss": 0.5157,
      "step": 299
    },
    {
      "epoch": 0.22614840989399293,
      "grad_norm": 16.197650909423828,
      "learning_rate": 0.00017701177590767183,
      "loss": 0.5521,
      "step": 300
    },
    {
      "epoch": 0.22690223792697292,
      "grad_norm": 15.125090599060059,
      "learning_rate": 0.00017685939085306562,
      "loss": 0.6868,
      "step": 301
    },
    {
      "epoch": 0.22765606595995289,
      "grad_norm": 13.107701301574707,
      "learning_rate": 0.00017670656845269214,
      "loss": 0.6326,
      "step": 302
    },
    {
      "epoch": 0.22840989399293285,
      "grad_norm": 9.953380584716797,
      "learning_rate": 0.00017655330957614234,
      "loss": 0.596,
      "step": 303
    },
    {
      "epoch": 0.22916372202591284,
      "grad_norm": 7.864305019378662,
      "learning_rate": 0.00017639961509549078,
      "loss": 0.5477,
      "step": 304
    },
    {
      "epoch": 0.2299175500588928,
      "grad_norm": 6.731385707855225,
      "learning_rate": 0.00017624548588529072,
      "loss": 0.4891,
      "step": 305
    },
    {
      "epoch": 0.2306713780918728,
      "grad_norm": 6.979381084442139,
      "learning_rate": 0.00017609092282256912,
      "loss": 0.4611,
      "step": 306
    },
    {
      "epoch": 0.23142520612485276,
      "grad_norm": 8.147210121154785,
      "learning_rate": 0.00017593592678682166,
      "loss": 0.5077,
      "step": 307
    },
    {
      "epoch": 0.23217903415783275,
      "grad_norm": 7.303165435791016,
      "learning_rate": 0.0001757804986600077,
      "loss": 0.4771,
      "step": 308
    },
    {
      "epoch": 0.23293286219081272,
      "grad_norm": 7.042153358459473,
      "learning_rate": 0.0001756246393265453,
      "loss": 0.4718,
      "step": 309
    },
    {
      "epoch": 0.2336866902237927,
      "grad_norm": 7.572822570800781,
      "learning_rate": 0.00017546834967330617,
      "loss": 0.4719,
      "step": 310
    },
    {
      "epoch": 0.23444051825677267,
      "grad_norm": 7.078078269958496,
      "learning_rate": 0.00017531163058961066,
      "loss": 0.4345,
      "step": 311
    },
    {
      "epoch": 0.23519434628975264,
      "grad_norm": 7.183956623077393,
      "learning_rate": 0.00017515448296722262,
      "loss": 0.4631,
      "step": 312
    },
    {
      "epoch": 0.23594817432273263,
      "grad_norm": 7.140283584594727,
      "learning_rate": 0.00017499690770034443,
      "loss": 0.4554,
      "step": 313
    },
    {
      "epoch": 0.2367020023557126,
      "grad_norm": 7.176611423492432,
      "learning_rate": 0.00017483890568561173,
      "loss": 0.4603,
      "step": 314
    },
    {
      "epoch": 0.23745583038869258,
      "grad_norm": 6.916821002960205,
      "learning_rate": 0.00017468047782208865,
      "loss": 0.4406,
      "step": 315
    },
    {
      "epoch": 0.23820965842167255,
      "grad_norm": 7.564478874206543,
      "learning_rate": 0.00017452162501126227,
      "loss": 0.4608,
      "step": 316
    },
    {
      "epoch": 0.23896348645465254,
      "grad_norm": 7.078012466430664,
      "learning_rate": 0.00017436234815703788,
      "loss": 0.4254,
      "step": 317
    },
    {
      "epoch": 0.2397173144876325,
      "grad_norm": 7.39133358001709,
      "learning_rate": 0.0001742026481657335,
      "loss": 0.4412,
      "step": 318
    },
    {
      "epoch": 0.2404711425206125,
      "grad_norm": 7.540102005004883,
      "learning_rate": 0.0001740425259460751,
      "loss": 0.4444,
      "step": 319
    },
    {
      "epoch": 0.24122497055359246,
      "grad_norm": 7.027541160583496,
      "learning_rate": 0.00017388198240919102,
      "loss": 0.439,
      "step": 320
    },
    {
      "epoch": 0.24197879858657242,
      "grad_norm": 7.218184947967529,
      "learning_rate": 0.00017372101846860707,
      "loss": 0.4239,
      "step": 321
    },
    {
      "epoch": 0.24273262661955242,
      "grad_norm": 7.92561674118042,
      "learning_rate": 0.00017355963504024123,
      "loss": 0.4278,
      "step": 322
    },
    {
      "epoch": 0.24348645465253238,
      "grad_norm": 7.72558069229126,
      "learning_rate": 0.00017339783304239843,
      "loss": 0.4498,
      "step": 323
    },
    {
      "epoch": 0.24424028268551237,
      "grad_norm": 7.2504096031188965,
      "learning_rate": 0.00017323561339576543,
      "loss": 0.4355,
      "step": 324
    },
    {
      "epoch": 0.24499411071849234,
      "grad_norm": 7.207572937011719,
      "learning_rate": 0.0001730729770234054,
      "loss": 0.4192,
      "step": 325
    },
    {
      "epoch": 0.24574793875147233,
      "grad_norm": 7.010448455810547,
      "learning_rate": 0.00017290992485075282,
      "loss": 0.3983,
      "step": 326
    },
    {
      "epoch": 0.2465017667844523,
      "grad_norm": 7.16871452331543,
      "learning_rate": 0.0001727464578056081,
      "loss": 0.4454,
      "step": 327
    },
    {
      "epoch": 0.24725559481743228,
      "grad_norm": 7.185717582702637,
      "learning_rate": 0.00017258257681813244,
      "loss": 0.426,
      "step": 328
    },
    {
      "epoch": 0.24800942285041225,
      "grad_norm": 7.441746234893799,
      "learning_rate": 0.0001724182828208424,
      "loss": 0.4394,
      "step": 329
    },
    {
      "epoch": 0.24876325088339224,
      "grad_norm": 7.429843902587891,
      "learning_rate": 0.0001722535767486047,
      "loss": 0.4377,
      "step": 330
    },
    {
      "epoch": 0.2495170789163722,
      "grad_norm": 7.528452396392822,
      "learning_rate": 0.00017208845953863076,
      "loss": 0.4256,
      "step": 331
    },
    {
      "epoch": 0.25027090694935217,
      "grad_norm": 6.993783473968506,
      "learning_rate": 0.0001719229321304716,
      "loss": 0.4337,
      "step": 332
    },
    {
      "epoch": 0.25027090694935217,
      "eval_loss": 0.47317659854888916,
      "eval_runtime": 126.4401,
      "eval_samples_per_second": 17.676,
      "eval_steps_per_second": 8.842,
      "step": 332
    },
    {
      "epoch": 0.25102473498233213,
      "grad_norm": 7.080078601837158,
      "learning_rate": 0.00017175699546601223,
      "loss": 0.443,
      "step": 333
    },
    {
      "epoch": 0.25177856301531215,
      "grad_norm": 7.021576404571533,
      "learning_rate": 0.00017159065048946644,
      "loss": 0.4211,
      "step": 334
    },
    {
      "epoch": 0.2525323910482921,
      "grad_norm": 7.684916019439697,
      "learning_rate": 0.00017142389814737142,
      "loss": 0.4115,
      "step": 335
    },
    {
      "epoch": 0.2532862190812721,
      "grad_norm": 7.011744976043701,
      "learning_rate": 0.00017125673938858237,
      "loss": 0.4057,
      "step": 336
    },
    {
      "epoch": 0.25404004711425204,
      "grad_norm": 7.142672538757324,
      "learning_rate": 0.00017108917516426704,
      "loss": 0.4485,
      "step": 337
    },
    {
      "epoch": 0.25479387514723206,
      "grad_norm": 7.860468864440918,
      "learning_rate": 0.00017092120642790042,
      "loss": 0.4134,
      "step": 338
    },
    {
      "epoch": 0.255547703180212,
      "grad_norm": 8.12804889678955,
      "learning_rate": 0.00017075283413525916,
      "loss": 0.4449,
      "step": 339
    },
    {
      "epoch": 0.256301531213192,
      "grad_norm": 7.87144136428833,
      "learning_rate": 0.00017058405924441636,
      "loss": 0.3987,
      "step": 340
    },
    {
      "epoch": 0.25705535924617195,
      "grad_norm": 7.7459588050842285,
      "learning_rate": 0.00017041488271573587,
      "loss": 0.4271,
      "step": 341
    },
    {
      "epoch": 0.2578091872791519,
      "grad_norm": 8.934653282165527,
      "learning_rate": 0.00017024530551186702,
      "loss": 0.4722,
      "step": 342
    },
    {
      "epoch": 0.25856301531213194,
      "grad_norm": 8.811241149902344,
      "learning_rate": 0.000170075328597739,
      "loss": 0.4719,
      "step": 343
    },
    {
      "epoch": 0.2593168433451119,
      "grad_norm": 9.294290542602539,
      "learning_rate": 0.00016990495294055548,
      "loss": 0.4963,
      "step": 344
    },
    {
      "epoch": 0.26007067137809187,
      "grad_norm": 11.440875053405762,
      "learning_rate": 0.00016973417950978906,
      "loss": 0.5236,
      "step": 345
    },
    {
      "epoch": 0.26082449941107183,
      "grad_norm": 10.008340835571289,
      "learning_rate": 0.00016956300927717575,
      "loss": 0.5081,
      "step": 346
    },
    {
      "epoch": 0.26157832744405185,
      "grad_norm": 10.798213958740234,
      "learning_rate": 0.0001693914432167094,
      "loss": 0.5252,
      "step": 347
    },
    {
      "epoch": 0.2623321554770318,
      "grad_norm": 12.772528648376465,
      "learning_rate": 0.00016921948230463625,
      "loss": 0.5073,
      "step": 348
    },
    {
      "epoch": 0.2630859835100118,
      "grad_norm": 12.81511402130127,
      "learning_rate": 0.00016904712751944931,
      "loss": 0.4699,
      "step": 349
    },
    {
      "epoch": 0.26383981154299174,
      "grad_norm": 13.554988861083984,
      "learning_rate": 0.00016887437984188286,
      "loss": 0.4963,
      "step": 350
    },
    {
      "epoch": 0.2645936395759717,
      "grad_norm": 17.339111328125,
      "learning_rate": 0.00016870124025490673,
      "loss": 0.6331,
      "step": 351
    },
    {
      "epoch": 0.2653474676089517,
      "grad_norm": 14.55565357208252,
      "learning_rate": 0.0001685277097437208,
      "loss": 0.6053,
      "step": 352
    },
    {
      "epoch": 0.2661012956419317,
      "grad_norm": 11.207347869873047,
      "learning_rate": 0.0001683537892957495,
      "loss": 0.5787,
      "step": 353
    },
    {
      "epoch": 0.26685512367491165,
      "grad_norm": 8.820387840270996,
      "learning_rate": 0.00016817947990063598,
      "loss": 0.5605,
      "step": 354
    },
    {
      "epoch": 0.2676089517078916,
      "grad_norm": 7.382798194885254,
      "learning_rate": 0.0001680047825502366,
      "loss": 0.4917,
      "step": 355
    },
    {
      "epoch": 0.26836277974087164,
      "grad_norm": 7.330126762390137,
      "learning_rate": 0.00016782969823861526,
      "loss": 0.4976,
      "step": 356
    },
    {
      "epoch": 0.2691166077738516,
      "grad_norm": 8.046545028686523,
      "learning_rate": 0.0001676542279620378,
      "loss": 0.4864,
      "step": 357
    },
    {
      "epoch": 0.26987043580683157,
      "grad_norm": 7.838155746459961,
      "learning_rate": 0.00016747837271896622,
      "loss": 0.4797,
      "step": 358
    },
    {
      "epoch": 0.27062426383981153,
      "grad_norm": 7.075133323669434,
      "learning_rate": 0.00016730213351005303,
      "loss": 0.4655,
      "step": 359
    },
    {
      "epoch": 0.2713780918727915,
      "grad_norm": 6.840551853179932,
      "learning_rate": 0.00016712551133813572,
      "loss": 0.4453,
      "step": 360
    },
    {
      "epoch": 0.2721319199057715,
      "grad_norm": 7.175273418426514,
      "learning_rate": 0.0001669485072082308,
      "loss": 0.447,
      "step": 361
    },
    {
      "epoch": 0.2728857479387515,
      "grad_norm": 8.195796012878418,
      "learning_rate": 0.00016677112212752824,
      "loss": 0.4869,
      "step": 362
    },
    {
      "epoch": 0.27363957597173144,
      "grad_norm": 7.310915946960449,
      "learning_rate": 0.00016659335710538564,
      "loss": 0.4447,
      "step": 363
    },
    {
      "epoch": 0.2743934040047114,
      "grad_norm": 7.676048755645752,
      "learning_rate": 0.00016641521315332265,
      "loss": 0.4507,
      "step": 364
    },
    {
      "epoch": 0.2751472320376914,
      "grad_norm": 7.88531494140625,
      "learning_rate": 0.00016623669128501504,
      "loss": 0.4411,
      "step": 365
    },
    {
      "epoch": 0.2759010600706714,
      "grad_norm": 7.499680995941162,
      "learning_rate": 0.00016605779251628903,
      "loss": 0.4629,
      "step": 366
    },
    {
      "epoch": 0.27665488810365135,
      "grad_norm": 6.773830890655518,
      "learning_rate": 0.00016587851786511543,
      "loss": 0.4571,
      "step": 367
    },
    {
      "epoch": 0.2774087161366313,
      "grad_norm": 7.170431613922119,
      "learning_rate": 0.00016569886835160399,
      "loss": 0.4313,
      "step": 368
    },
    {
      "epoch": 0.2781625441696113,
      "grad_norm": 6.66681432723999,
      "learning_rate": 0.0001655188449979974,
      "loss": 0.425,
      "step": 369
    },
    {
      "epoch": 0.2789163722025913,
      "grad_norm": 6.042294025421143,
      "learning_rate": 0.00016533844882866568,
      "loss": 0.4236,
      "step": 370
    },
    {
      "epoch": 0.27967020023557126,
      "grad_norm": 6.5642924308776855,
      "learning_rate": 0.00016515768087010013,
      "loss": 0.4404,
      "step": 371
    },
    {
      "epoch": 0.28042402826855123,
      "grad_norm": 7.063207626342773,
      "learning_rate": 0.00016497654215090772,
      "loss": 0.428,
      "step": 372
    },
    {
      "epoch": 0.2811778563015312,
      "grad_norm": 6.705799579620361,
      "learning_rate": 0.00016479503370180507,
      "loss": 0.431,
      "step": 373
    },
    {
      "epoch": 0.2819316843345112,
      "grad_norm": 6.578817367553711,
      "learning_rate": 0.00016461315655561263,
      "loss": 0.4126,
      "step": 374
    },
    {
      "epoch": 0.2826855123674912,
      "grad_norm": 6.545943260192871,
      "learning_rate": 0.00016443091174724885,
      "loss": 0.4198,
      "step": 375
    },
    {
      "epoch": 0.28343934040047114,
      "grad_norm": 6.834047794342041,
      "learning_rate": 0.00016424830031372425,
      "loss": 0.4378,
      "step": 376
    },
    {
      "epoch": 0.2841931684334511,
      "grad_norm": 7.931153774261475,
      "learning_rate": 0.00016406532329413546,
      "loss": 0.4529,
      "step": 377
    },
    {
      "epoch": 0.28494699646643107,
      "grad_norm": 7.077485084533691,
      "learning_rate": 0.00016388198172965942,
      "loss": 0.4281,
      "step": 378
    },
    {
      "epoch": 0.2857008244994111,
      "grad_norm": 7.532230854034424,
      "learning_rate": 0.00016369827666354745,
      "loss": 0.4064,
      "step": 379
    },
    {
      "epoch": 0.28645465253239105,
      "grad_norm": 7.111504554748535,
      "learning_rate": 0.00016351420914111916,
      "loss": 0.4392,
      "step": 380
    },
    {
      "epoch": 0.287208480565371,
      "grad_norm": 7.107287883758545,
      "learning_rate": 0.0001633297802097567,
      "loss": 0.3896,
      "step": 381
    },
    {
      "epoch": 0.287962308598351,
      "grad_norm": 6.906205654144287,
      "learning_rate": 0.0001631449909188987,
      "loss": 0.4263,
      "step": 382
    },
    {
      "epoch": 0.288716136631331,
      "grad_norm": 7.226500034332275,
      "learning_rate": 0.00016295984232003426,
      "loss": 0.4482,
      "step": 383
    },
    {
      "epoch": 0.28946996466431096,
      "grad_norm": 6.622352123260498,
      "learning_rate": 0.00016277433546669703,
      "loss": 0.4044,
      "step": 384
    },
    {
      "epoch": 0.2902237926972909,
      "grad_norm": 7.164252281188965,
      "learning_rate": 0.00016258847141445928,
      "loss": 0.4253,
      "step": 385
    },
    {
      "epoch": 0.2909776207302709,
      "grad_norm": 7.356839656829834,
      "learning_rate": 0.00016240225122092573,
      "loss": 0.427,
      "step": 386
    },
    {
      "epoch": 0.29173144876325086,
      "grad_norm": 8.345090866088867,
      "learning_rate": 0.00016221567594572762,
      "loss": 0.4204,
      "step": 387
    },
    {
      "epoch": 0.2924852767962309,
      "grad_norm": 7.662243366241455,
      "learning_rate": 0.00016202874665051674,
      "loss": 0.393,
      "step": 388
    },
    {
      "epoch": 0.29323910482921084,
      "grad_norm": 7.708904266357422,
      "learning_rate": 0.00016184146439895928,
      "loss": 0.411,
      "step": 389
    },
    {
      "epoch": 0.2939929328621908,
      "grad_norm": 7.000946044921875,
      "learning_rate": 0.00016165383025672981,
      "loss": 0.3893,
      "step": 390
    },
    {
      "epoch": 0.29474676089517077,
      "grad_norm": 7.401767253875732,
      "learning_rate": 0.00016146584529150526,
      "loss": 0.3869,
      "step": 391
    },
    {
      "epoch": 0.2955005889281508,
      "grad_norm": 7.715709209442139,
      "learning_rate": 0.0001612775105729588,
      "loss": 0.402,
      "step": 392
    },
    {
      "epoch": 0.29625441696113075,
      "grad_norm": 8.78487491607666,
      "learning_rate": 0.00016108882717275384,
      "loss": 0.4899,
      "step": 393
    },
    {
      "epoch": 0.2970082449941107,
      "grad_norm": 9.631272315979004,
      "learning_rate": 0.0001608997961645377,
      "loss": 0.4919,
      "step": 394
    },
    {
      "epoch": 0.2977620730270907,
      "grad_norm": 9.458671569824219,
      "learning_rate": 0.00016071041862393578,
      "loss": 0.4955,
      "step": 395
    },
    {
      "epoch": 0.2985159010600707,
      "grad_norm": 10.232501029968262,
      "learning_rate": 0.0001605206956285454,
      "loss": 0.4977,
      "step": 396
    },
    {
      "epoch": 0.29926972909305066,
      "grad_norm": 9.963619232177734,
      "learning_rate": 0.00016033062825792935,
      "loss": 0.4679,
      "step": 397
    },
    {
      "epoch": 0.3000235571260306,
      "grad_norm": 12.23200798034668,
      "learning_rate": 0.0001601402175936102,
      "loss": 0.5541,
      "step": 398
    },
    {
      "epoch": 0.3007773851590106,
      "grad_norm": 11.938904762268066,
      "learning_rate": 0.00015994946471906382,
      "loss": 0.4678,
      "step": 399
    },
    {
      "epoch": 0.30153121319199055,
      "grad_norm": 14.236066818237305,
      "learning_rate": 0.0001597583707197134,
      "loss": 0.534,
      "step": 400
    },
    {
      "epoch": 0.3022850412249706,
      "grad_norm": 12.790224075317383,
      "learning_rate": 0.00015956693668292313,
      "loss": 0.6361,
      "step": 401
    },
    {
      "epoch": 0.30303886925795054,
      "grad_norm": 14.324430465698242,
      "learning_rate": 0.00015937516369799216,
      "loss": 0.6471,
      "step": 402
    },
    {
      "epoch": 0.3037926972909305,
      "grad_norm": 10.209970474243164,
      "learning_rate": 0.00015918305285614822,
      "loss": 0.5906,
      "step": 403
    },
    {
      "epoch": 0.30454652532391047,
      "grad_norm": 7.869755744934082,
      "learning_rate": 0.00015899060525054157,
      "loss": 0.5408,
      "step": 404
    },
    {
      "epoch": 0.3053003533568905,
      "grad_norm": 6.786082744598389,
      "learning_rate": 0.0001587978219762388,
      "loss": 0.5095,
      "step": 405
    },
    {
      "epoch": 0.30605418138987045,
      "grad_norm": 8.50927448272705,
      "learning_rate": 0.00015860470413021642,
      "loss": 0.5117,
      "step": 406
    },
    {
      "epoch": 0.3068080094228504,
      "grad_norm": 7.6895833015441895,
      "learning_rate": 0.00015841125281135473,
      "loss": 0.4919,
      "step": 407
    },
    {
      "epoch": 0.3075618374558304,
      "grad_norm": 7.566605567932129,
      "learning_rate": 0.00015821746912043165,
      "loss": 0.4561,
      "step": 408
    },
    {
      "epoch": 0.30831566548881034,
      "grad_norm": 7.5333452224731445,
      "learning_rate": 0.00015802335416011625,
      "loss": 0.4735,
      "step": 409
    },
    {
      "epoch": 0.30906949352179036,
      "grad_norm": 7.508667469024658,
      "learning_rate": 0.00015782890903496264,
      "loss": 0.4461,
      "step": 410
    },
    {
      "epoch": 0.3098233215547703,
      "grad_norm": 6.778057098388672,
      "learning_rate": 0.00015763413485140365,
      "loss": 0.4589,
      "step": 411
    },
    {
      "epoch": 0.3105771495877503,
      "grad_norm": 6.7967915534973145,
      "learning_rate": 0.00015743903271774455,
      "loss": 0.4438,
      "step": 412
    },
    {
      "epoch": 0.31133097762073025,
      "grad_norm": 7.60194730758667,
      "learning_rate": 0.0001572436037441566,
      "loss": 0.4371,
      "step": 413
    },
    {
      "epoch": 0.3120848056537103,
      "grad_norm": 7.298644065856934,
      "learning_rate": 0.00015704784904267097,
      "loss": 0.4678,
      "step": 414
    },
    {
      "epoch": 0.31283863368669024,
      "grad_norm": 6.711719036102295,
      "learning_rate": 0.00015685176972717223,
      "loss": 0.4511,
      "step": 415
    },
    {
      "epoch": 0.3135924617196702,
      "grad_norm": 8.647915840148926,
      "learning_rate": 0.00015665536691339207,
      "loss": 0.4697,
      "step": 416
    },
    {
      "epoch": 0.31434628975265017,
      "grad_norm": 7.388605117797852,
      "learning_rate": 0.00015645864171890295,
      "loss": 0.4322,
      "step": 417
    },
    {
      "epoch": 0.31510011778563013,
      "grad_norm": 7.3222198486328125,
      "learning_rate": 0.00015626159526311174,
      "loss": 0.4366,
      "step": 418
    },
    {
      "epoch": 0.31585394581861015,
      "grad_norm": 6.875087738037109,
      "learning_rate": 0.00015606422866725343,
      "loss": 0.4464,
      "step": 419
    },
    {
      "epoch": 0.3166077738515901,
      "grad_norm": 6.434317111968994,
      "learning_rate": 0.00015586654305438456,
      "loss": 0.4161,
      "step": 420
    },
    {
      "epoch": 0.3173616018845701,
      "grad_norm": 7.1308488845825195,
      "learning_rate": 0.00015566853954937694,
      "loss": 0.4558,
      "step": 421
    },
    {
      "epoch": 0.31811542991755004,
      "grad_norm": 7.582878112792969,
      "learning_rate": 0.00015547021927891144,
      "loss": 0.4789,
      "step": 422
    },
    {
      "epoch": 0.31886925795053006,
      "grad_norm": 6.73392391204834,
      "learning_rate": 0.00015527158337147112,
      "loss": 0.45,
      "step": 423
    },
    {
      "epoch": 0.31962308598351,
      "grad_norm": 7.364933967590332,
      "learning_rate": 0.00015507263295733528,
      "loss": 0.4156,
      "step": 424
    },
    {
      "epoch": 0.32037691401649,
      "grad_norm": 6.4493842124938965,
      "learning_rate": 0.00015487336916857278,
      "loss": 0.4147,
      "step": 425
    },
    {
      "epoch": 0.32113074204946995,
      "grad_norm": 6.886701583862305,
      "learning_rate": 0.00015467379313903557,
      "loss": 0.4271,
      "step": 426
    },
    {
      "epoch": 0.3218845700824499,
      "grad_norm": 6.938616752624512,
      "learning_rate": 0.00015447390600435238,
      "loss": 0.4356,
      "step": 427
    },
    {
      "epoch": 0.32263839811542994,
      "grad_norm": 7.1376214027404785,
      "learning_rate": 0.00015427370890192224,
      "loss": 0.411,
      "step": 428
    },
    {
      "epoch": 0.3233922261484099,
      "grad_norm": 7.260872840881348,
      "learning_rate": 0.00015407320297090786,
      "loss": 0.4505,
      "step": 429
    },
    {
      "epoch": 0.32414605418138986,
      "grad_norm": 7.035525321960449,
      "learning_rate": 0.00015387238935222927,
      "loss": 0.4032,
      "step": 430
    },
    {
      "epoch": 0.32489988221436983,
      "grad_norm": 6.7771782875061035,
      "learning_rate": 0.00015367126918855738,
      "loss": 0.4135,
      "step": 431
    },
    {
      "epoch": 0.32565371024734985,
      "grad_norm": 7.255315780639648,
      "learning_rate": 0.0001534698436243073,
      "loss": 0.4376,
      "step": 432
    },
    {
      "epoch": 0.3264075382803298,
      "grad_norm": 6.563286781311035,
      "learning_rate": 0.00015326811380563204,
      "loss": 0.3936,
      "step": 433
    },
    {
      "epoch": 0.3271613663133098,
      "grad_norm": 8.582233428955078,
      "learning_rate": 0.0001530660808804158,
      "loss": 0.3979,
      "step": 434
    },
    {
      "epoch": 0.32791519434628974,
      "grad_norm": 6.628231048583984,
      "learning_rate": 0.00015286374599826754,
      "loss": 0.4143,
      "step": 435
    },
    {
      "epoch": 0.3286690223792697,
      "grad_norm": 6.581121921539307,
      "learning_rate": 0.00015266111031051442,
      "loss": 0.4313,
      "step": 436
    },
    {
      "epoch": 0.3294228504122497,
      "grad_norm": 6.923291206359863,
      "learning_rate": 0.00015245817497019524,
      "loss": 0.3921,
      "step": 437
    },
    {
      "epoch": 0.3301766784452297,
      "grad_norm": 7.172369480133057,
      "learning_rate": 0.00015225494113205393,
      "loss": 0.4249,
      "step": 438
    },
    {
      "epoch": 0.33093050647820965,
      "grad_norm": 7.134575843811035,
      "learning_rate": 0.00015205140995253283,
      "loss": 0.4148,
      "step": 439
    },
    {
      "epoch": 0.3316843345111896,
      "grad_norm": 8.403553009033203,
      "learning_rate": 0.00015184758258976637,
      "loss": 0.447,
      "step": 440
    },
    {
      "epoch": 0.33243816254416964,
      "grad_norm": 7.707136154174805,
      "learning_rate": 0.00015164346020357417,
      "loss": 0.4165,
      "step": 441
    },
    {
      "epoch": 0.3331919905771496,
      "grad_norm": 8.08395004272461,
      "learning_rate": 0.00015143904395545466,
      "loss": 0.461,
      "step": 442
    },
    {
      "epoch": 0.33394581861012956,
      "grad_norm": 9.609329223632812,
      "learning_rate": 0.0001512343350085784,
      "loss": 0.5137,
      "step": 443
    },
    {
      "epoch": 0.3346996466431095,
      "grad_norm": 9.876978874206543,
      "learning_rate": 0.0001510293345277815,
      "loss": 0.5053,
      "step": 444
    },
    {
      "epoch": 0.3354534746760895,
      "grad_norm": 9.40042495727539,
      "learning_rate": 0.0001508240436795589,
      "loss": 0.5114,
      "step": 445
    },
    {
      "epoch": 0.3362073027090695,
      "grad_norm": 10.623950958251953,
      "learning_rate": 0.00015061846363205784,
      "loss": 0.497,
      "step": 446
    },
    {
      "epoch": 0.3369611307420495,
      "grad_norm": 10.993450164794922,
      "learning_rate": 0.00015041259555507108,
      "loss": 0.49,
      "step": 447
    },
    {
      "epoch": 0.33771495877502944,
      "grad_norm": 11.963092803955078,
      "learning_rate": 0.00015020644062003046,
      "loss": 0.5261,
      "step": 448
    },
    {
      "epoch": 0.3384687868080094,
      "grad_norm": 11.985857963562012,
      "learning_rate": 0.00015000000000000001,
      "loss": 0.5063,
      "step": 449
    },
    {
      "epoch": 0.3392226148409894,
      "grad_norm": 13.582792282104492,
      "learning_rate": 0.00014979327486966938,
      "loss": 0.4568,
      "step": 450
    },
    {
      "epoch": 0.3399764428739694,
      "grad_norm": 10.956193923950195,
      "learning_rate": 0.0001495862664053471,
      "loss": 0.6271,
      "step": 451
    },
    {
      "epoch": 0.34073027090694935,
      "grad_norm": 10.826944351196289,
      "learning_rate": 0.0001493789757849541,
      "loss": 0.5646,
      "step": 452
    },
    {
      "epoch": 0.3414840989399293,
      "grad_norm": 9.086105346679688,
      "learning_rate": 0.00014917140418801655,
      "loss": 0.5347,
      "step": 453
    },
    {
      "epoch": 0.3422379269729093,
      "grad_norm": 7.542895317077637,
      "learning_rate": 0.00014896355279565976,
      "loss": 0.547,
      "step": 454
    },
    {
      "epoch": 0.3429917550058893,
      "grad_norm": 6.925205707550049,
      "learning_rate": 0.00014875542279060085,
      "loss": 0.5174,
      "step": 455
    },
    {
      "epoch": 0.34374558303886926,
      "grad_norm": 6.2740159034729,
      "learning_rate": 0.00014854701535714244,
      "loss": 0.4569,
      "step": 456
    },
    {
      "epoch": 0.3444994110718492,
      "grad_norm": 6.751154899597168,
      "learning_rate": 0.00014833833168116582,
      "loss": 0.4848,
      "step": 457
    },
    {
      "epoch": 0.3452532391048292,
      "grad_norm": 6.805966854095459,
      "learning_rate": 0.00014812937295012406,
      "loss": 0.454,
      "step": 458
    },
    {
      "epoch": 0.3460070671378092,
      "grad_norm": 6.805473327636719,
      "learning_rate": 0.00014792014035303535,
      "loss": 0.4459,
      "step": 459
    },
    {
      "epoch": 0.3467608951707892,
      "grad_norm": 6.896597385406494,
      "learning_rate": 0.00014771063508047636,
      "loss": 0.4492,
      "step": 460
    },
    {
      "epoch": 0.34751472320376914,
      "grad_norm": 6.992384433746338,
      "learning_rate": 0.00014750085832457519,
      "loss": 0.4737,
      "step": 461
    },
    {
      "epoch": 0.3482685512367491,
      "grad_norm": 7.02846622467041,
      "learning_rate": 0.00014729081127900476,
      "loss": 0.4786,
      "step": 462
    },
    {
      "epoch": 0.34902237926972907,
      "grad_norm": 7.123291015625,
      "learning_rate": 0.0001470804951389761,
      "loss": 0.4397,
      "step": 463
    },
    {
      "epoch": 0.3497762073027091,
      "grad_norm": 6.681251049041748,
      "learning_rate": 0.00014686991110123135,
      "loss": 0.4398,
      "step": 464
    },
    {
      "epoch": 0.35053003533568905,
      "grad_norm": 7.414073944091797,
      "learning_rate": 0.00014665906036403706,
      "loss": 0.4626,
      "step": 465
    },
    {
      "epoch": 0.351283863368669,
      "grad_norm": 6.917845726013184,
      "learning_rate": 0.00014644794412717736,
      "loss": 0.4312,
      "step": 466
    },
    {
      "epoch": 0.352037691401649,
      "grad_norm": 6.451867580413818,
      "learning_rate": 0.00014623656359194712,
      "loss": 0.4101,
      "step": 467
    },
    {
      "epoch": 0.352791519434629,
      "grad_norm": 7.152139663696289,
      "learning_rate": 0.00014602491996114516,
      "loss": 0.4518,
      "step": 468
    },
    {
      "epoch": 0.35354534746760896,
      "grad_norm": 7.701825141906738,
      "learning_rate": 0.0001458130144390673,
      "loss": 0.4568,
      "step": 469
    },
    {
      "epoch": 0.3542991755005889,
      "grad_norm": 7.278562545776367,
      "learning_rate": 0.00014560084823149965,
      "loss": 0.4222,
      "step": 470
    },
    {
      "epoch": 0.3550530035335689,
      "grad_norm": 6.47285270690918,
      "learning_rate": 0.0001453884225457116,
      "loss": 0.465,
      "step": 471
    },
    {
      "epoch": 0.35580683156654885,
      "grad_norm": 6.140552520751953,
      "learning_rate": 0.00014517573859044907,
      "loss": 0.4219,
      "step": 472
    },
    {
      "epoch": 0.3565606595995289,
      "grad_norm": 6.481984615325928,
      "learning_rate": 0.00014496279757592766,
      "loss": 0.4446,
      "step": 473
    },
    {
      "epoch": 0.35731448763250884,
      "grad_norm": 6.575818061828613,
      "learning_rate": 0.0001447496007138255,
      "loss": 0.4297,
      "step": 474
    },
    {
      "epoch": 0.3580683156654888,
      "grad_norm": 6.637454509735107,
      "learning_rate": 0.00014453614921727668,
      "loss": 0.4311,
      "step": 475
    },
    {
      "epoch": 0.35882214369846877,
      "grad_norm": 6.832921981811523,
      "learning_rate": 0.00014432244430086423,
      "loss": 0.4469,
      "step": 476
    },
    {
      "epoch": 0.3595759717314488,
      "grad_norm": 7.260216236114502,
      "learning_rate": 0.00014410848718061312,
      "loss": 0.4206,
      "step": 477
    },
    {
      "epoch": 0.36032979976442875,
      "grad_norm": 6.812548637390137,
      "learning_rate": 0.00014389427907398342,
      "loss": 0.4146,
      "step": 478
    },
    {
      "epoch": 0.3610836277974087,
      "grad_norm": 6.668044090270996,
      "learning_rate": 0.00014367982119986342,
      "loss": 0.4333,
      "step": 479
    },
    {
      "epoch": 0.3618374558303887,
      "grad_norm": 7.100220680236816,
      "learning_rate": 0.00014346511477856259,
      "loss": 0.4174,
      "step": 480
    },
    {
      "epoch": 0.3625912838633687,
      "grad_norm": 7.15718936920166,
      "learning_rate": 0.0001432501610318047,
      "loss": 0.4258,
      "step": 481
    },
    {
      "epoch": 0.36334511189634866,
      "grad_norm": 7.051331520080566,
      "learning_rate": 0.00014303496118272084,
      "loss": 0.4048,
      "step": 482
    },
    {
      "epoch": 0.3640989399293286,
      "grad_norm": 7.344452381134033,
      "learning_rate": 0.0001428195164558425,
      "loss": 0.4137,
      "step": 483
    },
    {
      "epoch": 0.3648527679623086,
      "grad_norm": 7.5303850173950195,
      "learning_rate": 0.00014260382807709457,
      "loss": 0.421,
      "step": 484
    },
    {
      "epoch": 0.36560659599528855,
      "grad_norm": 6.944647789001465,
      "learning_rate": 0.0001423878972737883,
      "loss": 0.4059,
      "step": 485
    },
    {
      "epoch": 0.36636042402826857,
      "grad_norm": 7.10966682434082,
      "learning_rate": 0.0001421717252746145,
      "loss": 0.4038,
      "step": 486
    },
    {
      "epoch": 0.36711425206124854,
      "grad_norm": 6.702695369720459,
      "learning_rate": 0.00014195531330963635,
      "loss": 0.3999,
      "step": 487
    },
    {
      "epoch": 0.3678680800942285,
      "grad_norm": 8.255915641784668,
      "learning_rate": 0.0001417386626102825,
      "loss": 0.3961,
      "step": 488
    },
    {
      "epoch": 0.36862190812720846,
      "grad_norm": 8.199605941772461,
      "learning_rate": 0.00014152177440934012,
      "loss": 0.4079,
      "step": 489
    },
    {
      "epoch": 0.3693757361601885,
      "grad_norm": 7.717386245727539,
      "learning_rate": 0.0001413046499409477,
      "loss": 0.3932,
      "step": 490
    },
    {
      "epoch": 0.37012956419316845,
      "grad_norm": 7.842260837554932,
      "learning_rate": 0.0001410872904405882,
      "loss": 0.4383,
      "step": 491
    },
    {
      "epoch": 0.3708833922261484,
      "grad_norm": 8.819681167602539,
      "learning_rate": 0.00014086969714508196,
      "loss": 0.4763,
      "step": 492
    },
    {
      "epoch": 0.3716372202591284,
      "grad_norm": 8.904485702514648,
      "learning_rate": 0.00014065187129257964,
      "loss": 0.4711,
      "step": 493
    },
    {
      "epoch": 0.37239104829210834,
      "grad_norm": 9.481599807739258,
      "learning_rate": 0.00014043381412255526,
      "loss": 0.5002,
      "step": 494
    },
    {
      "epoch": 0.37314487632508836,
      "grad_norm": 9.55698013305664,
      "learning_rate": 0.00014021552687579902,
      "loss": 0.454,
      "step": 495
    },
    {
      "epoch": 0.3738987043580683,
      "grad_norm": 9.685362815856934,
      "learning_rate": 0.00013999701079441028,
      "loss": 0.4687,
      "step": 496
    },
    {
      "epoch": 0.3746525323910483,
      "grad_norm": 10.087312698364258,
      "learning_rate": 0.00013977826712179058,
      "loss": 0.4855,
      "step": 497
    },
    {
      "epoch": 0.37540636042402825,
      "grad_norm": 10.978914260864258,
      "learning_rate": 0.00013955929710263653,
      "loss": 0.485,
      "step": 498
    },
    {
      "epoch": 0.37616018845700827,
      "grad_norm": 11.427350044250488,
      "learning_rate": 0.00013934010198293257,
      "loss": 0.4536,
      "step": 499
    },
    {
      "epoch": 0.37691401648998824,
      "grad_norm": 12.61874771118164,
      "learning_rate": 0.00013912068300994413,
      "loss": 0.4844,
      "step": 500
    },
    {
      "epoch": 0.3776678445229682,
      "grad_norm": 11.156290054321289,
      "learning_rate": 0.0001389010414322104,
      "loss": 0.6025,
      "step": 501
    },
    {
      "epoch": 0.37842167255594816,
      "grad_norm": 10.892552375793457,
      "learning_rate": 0.0001386811784995371,
      "loss": 0.6063,
      "step": 502
    },
    {
      "epoch": 0.3791755005889281,
      "grad_norm": 9.48608112335205,
      "learning_rate": 0.00013846109546298971,
      "loss": 0.5153,
      "step": 503
    },
    {
      "epoch": 0.37992932862190815,
      "grad_norm": 7.735827922821045,
      "learning_rate": 0.00013824079357488598,
      "loss": 0.5102,
      "step": 504
    },
    {
      "epoch": 0.3806831566548881,
      "grad_norm": 6.837904453277588,
      "learning_rate": 0.0001380202740887891,
      "loss": 0.4952,
      "step": 505
    },
    {
      "epoch": 0.3814369846878681,
      "grad_norm": 6.260585308074951,
      "learning_rate": 0.00013779953825950034,
      "loss": 0.4751,
      "step": 506
    },
    {
      "epoch": 0.38219081272084804,
      "grad_norm": 6.398446083068848,
      "learning_rate": 0.00013757858734305203,
      "loss": 0.4449,
      "step": 507
    },
    {
      "epoch": 0.38294464075382806,
      "grad_norm": 7.3623881340026855,
      "learning_rate": 0.0001373574225967004,
      "loss": 0.4859,
      "step": 508
    },
    {
      "epoch": 0.383698468786808,
      "grad_norm": 7.673310279846191,
      "learning_rate": 0.00013713604527891844,
      "loss": 0.4804,
      "step": 509
    },
    {
      "epoch": 0.384452296819788,
      "grad_norm": 6.531475067138672,
      "learning_rate": 0.00013691445664938866,
      "loss": 0.4491,
      "step": 510
    },
    {
      "epoch": 0.38520612485276795,
      "grad_norm": 6.5302300453186035,
      "learning_rate": 0.00013669265796899607,
      "loss": 0.4277,
      "step": 511
    },
    {
      "epoch": 0.3859599528857479,
      "grad_norm": 6.498359680175781,
      "learning_rate": 0.00013647065049982078,
      "loss": 0.4473,
      "step": 512
    },
    {
      "epoch": 0.38671378091872793,
      "grad_norm": 7.777768135070801,
      "learning_rate": 0.0001362484355051311,
      "loss": 0.4485,
      "step": 513
    },
    {
      "epoch": 0.3874676089517079,
      "grad_norm": 6.4952192306518555,
      "learning_rate": 0.00013602601424937604,
      "loss": 0.4144,
      "step": 514
    },
    {
      "epoch": 0.38822143698468786,
      "grad_norm": 7.111438274383545,
      "learning_rate": 0.00013580338799817844,
      "loss": 0.4314,
      "step": 515
    },
    {
      "epoch": 0.3889752650176678,
      "grad_norm": 6.711978435516357,
      "learning_rate": 0.00013558055801832748,
      "loss": 0.4476,
      "step": 516
    },
    {
      "epoch": 0.38972909305064785,
      "grad_norm": 6.2299370765686035,
      "learning_rate": 0.0001353575255777717,
      "loss": 0.4211,
      "step": 517
    },
    {
      "epoch": 0.3904829210836278,
      "grad_norm": 6.2404046058654785,
      "learning_rate": 0.0001351342919456116,
      "loss": 0.4195,
      "step": 518
    },
    {
      "epoch": 0.3912367491166078,
      "grad_norm": 7.3141679763793945,
      "learning_rate": 0.0001349108583920925,
      "loss": 0.4473,
      "step": 519
    },
    {
      "epoch": 0.39199057714958774,
      "grad_norm": 7.678971767425537,
      "learning_rate": 0.00013468722618859743,
      "loss": 0.4102,
      "step": 520
    },
    {
      "epoch": 0.3927444051825677,
      "grad_norm": 6.773143291473389,
      "learning_rate": 0.0001344633966076396,
      "loss": 0.4518,
      "step": 521
    },
    {
      "epoch": 0.3934982332155477,
      "grad_norm": 6.161088943481445,
      "learning_rate": 0.00013423937092285555,
      "loss": 0.4,
      "step": 522
    },
    {
      "epoch": 0.3942520612485277,
      "grad_norm": 6.478328227996826,
      "learning_rate": 0.00013401515040899746,
      "loss": 0.4607,
      "step": 523
    },
    {
      "epoch": 0.39500588928150765,
      "grad_norm": 6.1380157470703125,
      "learning_rate": 0.00013379073634192632,
      "loss": 0.4108,
      "step": 524
    },
    {
      "epoch": 0.3957597173144876,
      "grad_norm": 6.8945441246032715,
      "learning_rate": 0.00013356612999860436,
      "loss": 0.4032,
      "step": 525
    },
    {
      "epoch": 0.39651354534746763,
      "grad_norm": 6.745527267456055,
      "learning_rate": 0.000133341332657088,
      "loss": 0.402,
      "step": 526
    },
    {
      "epoch": 0.3972673733804476,
      "grad_norm": 6.959543704986572,
      "learning_rate": 0.00013311634559652036,
      "loss": 0.4258,
      "step": 527
    },
    {
      "epoch": 0.39802120141342756,
      "grad_norm": 6.5237298011779785,
      "learning_rate": 0.00013289117009712418,
      "loss": 0.4042,
      "step": 528
    },
    {
      "epoch": 0.3987750294464075,
      "grad_norm": 6.997231483459473,
      "learning_rate": 0.00013266580744019445,
      "loss": 0.424,
      "step": 529
    },
    {
      "epoch": 0.3995288574793875,
      "grad_norm": 7.053787708282471,
      "learning_rate": 0.00013244025890809112,
      "loss": 0.4436,
      "step": 530
    },
    {
      "epoch": 0.4002826855123675,
      "grad_norm": 6.5921831130981445,
      "learning_rate": 0.00013221452578423176,
      "loss": 0.4262,
      "step": 531
    },
    {
      "epoch": 0.4010365135453475,
      "grad_norm": 7.524543285369873,
      "learning_rate": 0.00013198860935308444,
      "loss": 0.4205,
      "step": 532
    },
    {
      "epoch": 0.40179034157832744,
      "grad_norm": 6.691077709197998,
      "learning_rate": 0.00013176251090016007,
      "loss": 0.4303,
      "step": 533
    },
    {
      "epoch": 0.4025441696113074,
      "grad_norm": 6.8649749755859375,
      "learning_rate": 0.0001315362317120055,
      "loss": 0.4293,
      "step": 534
    },
    {
      "epoch": 0.4032979976442874,
      "grad_norm": 7.226325035095215,
      "learning_rate": 0.00013130977307619594,
      "loss": 0.4118,
      "step": 535
    },
    {
      "epoch": 0.4040518256772674,
      "grad_norm": 6.9132843017578125,
      "learning_rate": 0.0001310831362813276,
      "loss": 0.4086,
      "step": 536
    },
    {
      "epoch": 0.40480565371024735,
      "grad_norm": 6.638665199279785,
      "learning_rate": 0.00013085632261701063,
      "loss": 0.404,
      "step": 537
    },
    {
      "epoch": 0.4055594817432273,
      "grad_norm": 6.809209823608398,
      "learning_rate": 0.00013062933337386142,
      "loss": 0.378,
      "step": 538
    },
    {
      "epoch": 0.4063133097762073,
      "grad_norm": 6.697812557220459,
      "learning_rate": 0.00013040216984349555,
      "loss": 0.4068,
      "step": 539
    },
    {
      "epoch": 0.4070671378091873,
      "grad_norm": 7.231639862060547,
      "learning_rate": 0.00013017483331852035,
      "loss": 0.4167,
      "step": 540
    },
    {
      "epoch": 0.40782096584216726,
      "grad_norm": 7.607770919799805,
      "learning_rate": 0.00012994732509252744,
      "loss": 0.4298,
      "step": 541
    },
    {
      "epoch": 0.4085747938751472,
      "grad_norm": 7.685420989990234,
      "learning_rate": 0.00012971964646008542,
      "loss": 0.4435,
      "step": 542
    },
    {
      "epoch": 0.4093286219081272,
      "grad_norm": 9.00213623046875,
      "learning_rate": 0.00012949179871673278,
      "loss": 0.5072,
      "step": 543
    },
    {
      "epoch": 0.4100824499411072,
      "grad_norm": 9.699268341064453,
      "learning_rate": 0.00012926378315896998,
      "loss": 0.5158,
      "step": 544
    },
    {
      "epoch": 0.41083627797408717,
      "grad_norm": 10.096549987792969,
      "learning_rate": 0.00012903560108425258,
      "loss": 0.479,
      "step": 545
    },
    {
      "epoch": 0.41159010600706714,
      "grad_norm": 9.205822944641113,
      "learning_rate": 0.00012880725379098352,
      "loss": 0.4844,
      "step": 546
    },
    {
      "epoch": 0.4123439340400471,
      "grad_norm": 10.534090995788574,
      "learning_rate": 0.00012857874257850605,
      "loss": 0.4998,
      "step": 547
    },
    {
      "epoch": 0.41309776207302706,
      "grad_norm": 11.49348258972168,
      "learning_rate": 0.00012835006874709594,
      "loss": 0.4969,
      "step": 548
    },
    {
      "epoch": 0.4138515901060071,
      "grad_norm": 11.891164779663086,
      "learning_rate": 0.00012812123359795446,
      "loss": 0.5109,
      "step": 549
    },
    {
      "epoch": 0.41460541813898705,
      "grad_norm": 12.372316360473633,
      "learning_rate": 0.00012789223843320073,
      "loss": 0.4808,
      "step": 550
    },
    {
      "epoch": 0.415359246171967,
      "grad_norm": 9.265199661254883,
      "learning_rate": 0.0001276630845558644,
      "loss": 0.6065,
      "step": 551
    },
    {
      "epoch": 0.416113074204947,
      "grad_norm": 10.428581237792969,
      "learning_rate": 0.00012743377326987826,
      "loss": 0.5885,
      "step": 552
    },
    {
      "epoch": 0.416866902237927,
      "grad_norm": 8.8326997756958,
      "learning_rate": 0.00012720430588007077,
      "loss": 0.5599,
      "step": 553
    },
    {
      "epoch": 0.41762073027090696,
      "grad_norm": 6.87199592590332,
      "learning_rate": 0.00012697468369215863,
      "loss": 0.5212,
      "step": 554
    },
    {
      "epoch": 0.4183745583038869,
      "grad_norm": 6.59550142288208,
      "learning_rate": 0.00012674490801273938,
      "loss": 0.5265,
      "step": 555
    },
    {
      "epoch": 0.4191283863368669,
      "grad_norm": 5.809760093688965,
      "learning_rate": 0.00012651498014928402,
      "loss": 0.4861,
      "step": 556
    },
    {
      "epoch": 0.41988221436984685,
      "grad_norm": 5.872656345367432,
      "learning_rate": 0.00012628490141012937,
      "loss": 0.4476,
      "step": 557
    },
    {
      "epoch": 0.42063604240282687,
      "grad_norm": 6.835720062255859,
      "learning_rate": 0.000126054673104471,
      "loss": 0.4838,
      "step": 558
    },
    {
      "epoch": 0.42138987043580683,
      "grad_norm": 6.669496059417725,
      "learning_rate": 0.00012582429654235523,
      "loss": 0.4167,
      "step": 559
    },
    {
      "epoch": 0.4221436984687868,
      "grad_norm": 6.77216100692749,
      "learning_rate": 0.00012559377303467226,
      "loss": 0.4469,
      "step": 560
    },
    {
      "epoch": 0.42289752650176676,
      "grad_norm": 6.118035793304443,
      "learning_rate": 0.00012536310389314832,
      "loss": 0.439,
      "step": 561
    },
    {
      "epoch": 0.4236513545347468,
      "grad_norm": 6.0063886642456055,
      "learning_rate": 0.0001251322904303383,
      "loss": 0.4246,
      "step": 562
    },
    {
      "epoch": 0.42440518256772675,
      "grad_norm": 6.384454727172852,
      "learning_rate": 0.00012490133395961844,
      "loss": 0.4427,
      "step": 563
    },
    {
      "epoch": 0.4251590106007067,
      "grad_norm": 6.875798225402832,
      "learning_rate": 0.00012467023579517856,
      "loss": 0.4746,
      "step": 564
    },
    {
      "epoch": 0.4259128386336867,
      "grad_norm": 6.876395225524902,
      "learning_rate": 0.00012443899725201482,
      "loss": 0.4639,
      "step": 565
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 7.060841083526611,
      "learning_rate": 0.00012420761964592223,
      "loss": 0.4449,
      "step": 566
    },
    {
      "epoch": 0.42742049469964666,
      "grad_norm": 6.859095573425293,
      "learning_rate": 0.000123976104293487,
      "loss": 0.4127,
      "step": 567
    },
    {
      "epoch": 0.4281743227326266,
      "grad_norm": 6.3295135498046875,
      "learning_rate": 0.00012374445251207914,
      "loss": 0.4436,
      "step": 568
    },
    {
      "epoch": 0.4289281507656066,
      "grad_norm": 6.203479766845703,
      "learning_rate": 0.00012351266561984507,
      "loss": 0.4493,
      "step": 569
    },
    {
      "epoch": 0.42968197879858655,
      "grad_norm": 6.393275737762451,
      "learning_rate": 0.00012328074493569993,
      "loss": 0.451,
      "step": 570
    },
    {
      "epoch": 0.43043580683156657,
      "grad_norm": 6.78492546081543,
      "learning_rate": 0.0001230486917793202,
      "loss": 0.4278,
      "step": 571
    },
    {
      "epoch": 0.43118963486454653,
      "grad_norm": 6.327200889587402,
      "learning_rate": 0.00012281650747113612,
      "loss": 0.4422,
      "step": 572
    },
    {
      "epoch": 0.4319434628975265,
      "grad_norm": 6.7098822593688965,
      "learning_rate": 0.0001225841933323242,
      "loss": 0.4556,
      "step": 573
    },
    {
      "epoch": 0.43269729093050646,
      "grad_norm": 6.249898910522461,
      "learning_rate": 0.00012235175068479984,
      "loss": 0.4184,
      "step": 574
    },
    {
      "epoch": 0.4334511189634865,
      "grad_norm": 6.380219459533691,
      "learning_rate": 0.00012211918085120954,
      "loss": 0.437,
      "step": 575
    },
    {
      "epoch": 0.43420494699646645,
      "grad_norm": 6.367920875549316,
      "learning_rate": 0.00012188648515492355,
      "loss": 0.4269,
      "step": 576
    },
    {
      "epoch": 0.4349587750294464,
      "grad_norm": 6.438598155975342,
      "learning_rate": 0.00012165366492002832,
      "loss": 0.4298,
      "step": 577
    },
    {
      "epoch": 0.4357126030624264,
      "grad_norm": 6.798791408538818,
      "learning_rate": 0.00012142072147131898,
      "loss": 0.4204,
      "step": 578
    },
    {
      "epoch": 0.43646643109540634,
      "grad_norm": 6.528103828430176,
      "learning_rate": 0.00012118765613429173,
      "loss": 0.4448,
      "step": 579
    },
    {
      "epoch": 0.43722025912838636,
      "grad_norm": 6.5673909187316895,
      "learning_rate": 0.0001209544702351363,
      "loss": 0.432,
      "step": 580
    },
    {
      "epoch": 0.4379740871613663,
      "grad_norm": 7.303831577301025,
      "learning_rate": 0.00012072116510072858,
      "loss": 0.4125,
      "step": 581
    },
    {
      "epoch": 0.4387279151943463,
      "grad_norm": 6.5421576499938965,
      "learning_rate": 0.00012048774205862279,
      "loss": 0.4171,
      "step": 582
    },
    {
      "epoch": 0.43948174322732625,
      "grad_norm": 6.537741661071777,
      "learning_rate": 0.0001202542024370441,
      "loss": 0.385,
      "step": 583
    },
    {
      "epoch": 0.44023557126030627,
      "grad_norm": 6.6051530838012695,
      "learning_rate": 0.00012002054756488115,
      "loss": 0.3888,
      "step": 584
    },
    {
      "epoch": 0.44098939929328623,
      "grad_norm": 6.796999454498291,
      "learning_rate": 0.00011978677877167822,
      "loss": 0.4049,
      "step": 585
    },
    {
      "epoch": 0.4417432273262662,
      "grad_norm": 7.154036521911621,
      "learning_rate": 0.00011955289738762796,
      "loss": 0.4168,
      "step": 586
    },
    {
      "epoch": 0.44249705535924616,
      "grad_norm": 6.852260112762451,
      "learning_rate": 0.00011931890474356358,
      "loss": 0.381,
      "step": 587
    },
    {
      "epoch": 0.4432508833922261,
      "grad_norm": 6.91892671585083,
      "learning_rate": 0.00011908480217095141,
      "loss": 0.3895,
      "step": 588
    },
    {
      "epoch": 0.44400471142520614,
      "grad_norm": 7.690057277679443,
      "learning_rate": 0.00011885059100188341,
      "loss": 0.4504,
      "step": 589
    },
    {
      "epoch": 0.4447585394581861,
      "grad_norm": 7.000772476196289,
      "learning_rate": 0.00011861627256906929,
      "loss": 0.3868,
      "step": 590
    },
    {
      "epoch": 0.4455123674911661,
      "grad_norm": 7.221988201141357,
      "learning_rate": 0.00011838184820582923,
      "loss": 0.4119,
      "step": 591
    },
    {
      "epoch": 0.44626619552414604,
      "grad_norm": 8.583606719970703,
      "learning_rate": 0.00011814731924608616,
      "loss": 0.4087,
      "step": 592
    },
    {
      "epoch": 0.44702002355712606,
      "grad_norm": 8.559534072875977,
      "learning_rate": 0.00011791268702435816,
      "loss": 0.4469,
      "step": 593
    },
    {
      "epoch": 0.447773851590106,
      "grad_norm": 8.477254867553711,
      "learning_rate": 0.0001176779528757509,
      "loss": 0.476,
      "step": 594
    },
    {
      "epoch": 0.448527679623086,
      "grad_norm": 9.82533073425293,
      "learning_rate": 0.00011744311813595006,
      "loss": 0.5395,
      "step": 595
    },
    {
      "epoch": 0.44928150765606595,
      "grad_norm": 9.407917022705078,
      "learning_rate": 0.00011720818414121368,
      "loss": 0.4716,
      "step": 596
    },
    {
      "epoch": 0.4500353356890459,
      "grad_norm": 11.39129638671875,
      "learning_rate": 0.00011697315222836458,
      "loss": 0.4827,
      "step": 597
    },
    {
      "epoch": 0.45078916372202593,
      "grad_norm": 11.540337562561035,
      "learning_rate": 0.0001167380237347828,
      "loss": 0.4713,
      "step": 598
    },
    {
      "epoch": 0.4515429917550059,
      "grad_norm": 10.345648765563965,
      "learning_rate": 0.00011650279999839787,
      "loss": 0.4148,
      "step": 599
    },
    {
      "epoch": 0.45229681978798586,
      "grad_norm": 12.826940536499023,
      "learning_rate": 0.00011626748235768128,
      "loss": 0.487,
      "step": 600
    },
    {
      "epoch": 0.4530506478209658,
      "grad_norm": 9.553250312805176,
      "learning_rate": 0.00011603207215163894,
      "loss": 0.5809,
      "step": 601
    },
    {
      "epoch": 0.45380447585394584,
      "grad_norm": 9.77419662475586,
      "learning_rate": 0.0001157965707198034,
      "loss": 0.5538,
      "step": 602
    },
    {
      "epoch": 0.4545583038869258,
      "grad_norm": 8.743382453918457,
      "learning_rate": 0.00011556097940222628,
      "loss": 0.5516,
      "step": 603
    },
    {
      "epoch": 0.45531213191990577,
      "grad_norm": 7.538958549499512,
      "learning_rate": 0.00011532529953947075,
      "loss": 0.5119,
      "step": 604
    },
    {
      "epoch": 0.45606595995288574,
      "grad_norm": 6.539525032043457,
      "learning_rate": 0.00011508953247260379,
      "loss": 0.499,
      "step": 605
    },
    {
      "epoch": 0.4568197879858657,
      "grad_norm": 6.682277679443359,
      "learning_rate": 0.00011485367954318856,
      "loss": 0.4594,
      "step": 606
    },
    {
      "epoch": 0.4575736160188457,
      "grad_norm": 5.594506740570068,
      "learning_rate": 0.0001146177420932768,
      "loss": 0.4609,
      "step": 607
    },
    {
      "epoch": 0.4583274440518257,
      "grad_norm": 6.195127964019775,
      "learning_rate": 0.00011438172146540123,
      "loss": 0.4413,
      "step": 608
    },
    {
      "epoch": 0.45908127208480565,
      "grad_norm": 6.665927410125732,
      "learning_rate": 0.00011414561900256784,
      "loss": 0.4492,
      "step": 609
    },
    {
      "epoch": 0.4598351001177856,
      "grad_norm": 7.045360088348389,
      "learning_rate": 0.00011390943604824826,
      "loss": 0.4508,
      "step": 610
    },
    {
      "epoch": 0.46058892815076563,
      "grad_norm": 7.470615386962891,
      "learning_rate": 0.00011367317394637218,
      "loss": 0.46,
      "step": 611
    },
    {
      "epoch": 0.4613427561837456,
      "grad_norm": 6.948364734649658,
      "learning_rate": 0.00011343683404131964,
      "loss": 0.477,
      "step": 612
    },
    {
      "epoch": 0.46209658421672556,
      "grad_norm": 6.797374248504639,
      "learning_rate": 0.00011320041767791336,
      "loss": 0.4726,
      "step": 613
    },
    {
      "epoch": 0.4628504122497055,
      "grad_norm": 6.488336563110352,
      "learning_rate": 0.00011296392620141114,
      "loss": 0.4403,
      "step": 614
    },
    {
      "epoch": 0.4636042402826855,
      "grad_norm": 7.050676345825195,
      "learning_rate": 0.00011272736095749823,
      "loss": 0.475,
      "step": 615
    },
    {
      "epoch": 0.4643580683156655,
      "grad_norm": 6.4435038566589355,
      "learning_rate": 0.00011249072329227959,
      "loss": 0.4188,
      "step": 616
    },
    {
      "epoch": 0.46511189634864547,
      "grad_norm": 6.662125110626221,
      "learning_rate": 0.0001122540145522723,
      "loss": 0.4365,
      "step": 617
    },
    {
      "epoch": 0.46586572438162543,
      "grad_norm": 6.387564659118652,
      "learning_rate": 0.00011201723608439778,
      "loss": 0.4237,
      "step": 618
    },
    {
      "epoch": 0.4666195524146054,
      "grad_norm": 6.151999473571777,
      "learning_rate": 0.0001117803892359744,
      "loss": 0.3967,
      "step": 619
    },
    {
      "epoch": 0.4673733804475854,
      "grad_norm": 6.0764055252075195,
      "learning_rate": 0.00011154347535470947,
      "loss": 0.4032,
      "step": 620
    },
    {
      "epoch": 0.4681272084805654,
      "grad_norm": 6.069274425506592,
      "learning_rate": 0.00011130649578869173,
      "loss": 0.4234,
      "step": 621
    },
    {
      "epoch": 0.46888103651354535,
      "grad_norm": 6.283833980560303,
      "learning_rate": 0.00011106945188638378,
      "loss": 0.4115,
      "step": 622
    },
    {
      "epoch": 0.4696348645465253,
      "grad_norm": 6.327964782714844,
      "learning_rate": 0.00011083234499661426,
      "loss": 0.4293,
      "step": 623
    },
    {
      "epoch": 0.4703886925795053,
      "grad_norm": 6.516750812530518,
      "learning_rate": 0.00011059517646857023,
      "loss": 0.3893,
      "step": 624
    },
    {
      "epoch": 0.4711425206124853,
      "grad_norm": 7.370739936828613,
      "learning_rate": 0.00011035794765178941,
      "loss": 0.4385,
      "step": 625
    },
    {
      "epoch": 0.47189634864546526,
      "grad_norm": 7.1700568199157715,
      "learning_rate": 0.0001101206598961527,
      "loss": 0.4221,
      "step": 626
    },
    {
      "epoch": 0.4726501766784452,
      "grad_norm": 6.261050701141357,
      "learning_rate": 0.00010988331455187628,
      "loss": 0.4389,
      "step": 627
    },
    {
      "epoch": 0.4734040047114252,
      "grad_norm": 6.810924530029297,
      "learning_rate": 0.00010964591296950406,
      "loss": 0.4653,
      "step": 628
    },
    {
      "epoch": 0.4741578327444052,
      "grad_norm": 6.419404983520508,
      "learning_rate": 0.00010940845649989994,
      "loss": 0.4074,
      "step": 629
    },
    {
      "epoch": 0.47491166077738517,
      "grad_norm": 6.0266008377075195,
      "learning_rate": 0.00010917094649424018,
      "loss": 0.3729,
      "step": 630
    },
    {
      "epoch": 0.47566548881036513,
      "grad_norm": 6.674122333526611,
      "learning_rate": 0.00010893338430400562,
      "loss": 0.4016,
      "step": 631
    },
    {
      "epoch": 0.4764193168433451,
      "grad_norm": 6.93697452545166,
      "learning_rate": 0.00010869577128097404,
      "loss": 0.3884,
      "step": 632
    },
    {
      "epoch": 0.47717314487632506,
      "grad_norm": 6.370805263519287,
      "learning_rate": 0.00010845810877721252,
      "loss": 0.3835,
      "step": 633
    },
    {
      "epoch": 0.4779269729093051,
      "grad_norm": 6.402405738830566,
      "learning_rate": 0.00010822039814506964,
      "loss": 0.396,
      "step": 634
    },
    {
      "epoch": 0.47868080094228505,
      "grad_norm": 6.631165027618408,
      "learning_rate": 0.00010798264073716791,
      "loss": 0.4034,
      "step": 635
    },
    {
      "epoch": 0.479434628975265,
      "grad_norm": 7.069218635559082,
      "learning_rate": 0.00010774483790639591,
      "loss": 0.4071,
      "step": 636
    },
    {
      "epoch": 0.480188457008245,
      "grad_norm": 6.614718914031982,
      "learning_rate": 0.00010750699100590076,
      "loss": 0.3959,
      "step": 637
    },
    {
      "epoch": 0.480942285041225,
      "grad_norm": 6.693352699279785,
      "learning_rate": 0.00010726910138908032,
      "loss": 0.3853,
      "step": 638
    },
    {
      "epoch": 0.48169611307420496,
      "grad_norm": 6.8856940269470215,
      "learning_rate": 0.00010703117040957553,
      "loss": 0.3904,
      "step": 639
    },
    {
      "epoch": 0.4824499411071849,
      "grad_norm": 7.3366522789001465,
      "learning_rate": 0.00010679319942126264,
      "loss": 0.4061,
      "step": 640
    },
    {
      "epoch": 0.4832037691401649,
      "grad_norm": 7.205180644989014,
      "learning_rate": 0.00010655518977824566,
      "loss": 0.4066,
      "step": 641
    },
    {
      "epoch": 0.48395759717314485,
      "grad_norm": 9.314166069030762,
      "learning_rate": 0.00010631714283484842,
      "loss": 0.4507,
      "step": 642
    },
    {
      "epoch": 0.48471142520612487,
      "grad_norm": 8.445844650268555,
      "learning_rate": 0.0001060790599456071,
      "loss": 0.4467,
      "step": 643
    },
    {
      "epoch": 0.48546525323910483,
      "grad_norm": 8.920785903930664,
      "learning_rate": 0.00010584094246526237,
      "loss": 0.4593,
      "step": 644
    },
    {
      "epoch": 0.4862190812720848,
      "grad_norm": 9.759257316589355,
      "learning_rate": 0.00010560279174875179,
      "loss": 0.5054,
      "step": 645
    },
    {
      "epoch": 0.48697290930506476,
      "grad_norm": 9.649422645568848,
      "learning_rate": 0.0001053646091512019,
      "loss": 0.4891,
      "step": 646
    },
    {
      "epoch": 0.4877267373380448,
      "grad_norm": 9.831908226013184,
      "learning_rate": 0.00010512639602792088,
      "loss": 0.4805,
      "step": 647
    },
    {
      "epoch": 0.48848056537102474,
      "grad_norm": 11.026556968688965,
      "learning_rate": 0.00010488815373439036,
      "loss": 0.4875,
      "step": 648
    },
    {
      "epoch": 0.4892343934040047,
      "grad_norm": 10.98789119720459,
      "learning_rate": 0.00010464988362625812,
      "loss": 0.4852,
      "step": 649
    },
    {
      "epoch": 0.48998822143698467,
      "grad_norm": 12.804154396057129,
      "learning_rate": 0.00010441158705933016,
      "loss": 0.5069,
      "step": 650
    },
    {
      "epoch": 0.4907420494699647,
      "grad_norm": 7.31414270401001,
      "learning_rate": 0.00010417326538956305,
      "loss": 0.5666,
      "step": 651
    },
    {
      "epoch": 0.49149587750294466,
      "grad_norm": 7.537758827209473,
      "learning_rate": 0.00010393491997305613,
      "loss": 0.5592,
      "step": 652
    },
    {
      "epoch": 0.4922497055359246,
      "grad_norm": 7.580841064453125,
      "learning_rate": 0.00010369655216604397,
      "loss": 0.4984,
      "step": 653
    },
    {
      "epoch": 0.4930035335689046,
      "grad_norm": 7.048511028289795,
      "learning_rate": 0.0001034581633248885,
      "loss": 0.5271,
      "step": 654
    },
    {
      "epoch": 0.49375736160188455,
      "grad_norm": 6.32865047454834,
      "learning_rate": 0.00010321975480607129,
      "loss": 0.4999,
      "step": 655
    },
    {
      "epoch": 0.49451118963486457,
      "grad_norm": 5.981396675109863,
      "learning_rate": 0.00010298132796618596,
      "loss": 0.4717,
      "step": 656
    },
    {
      "epoch": 0.49526501766784453,
      "grad_norm": 5.971866130828857,
      "learning_rate": 0.00010274288416193034,
      "loss": 0.4357,
      "step": 657
    },
    {
      "epoch": 0.4960188457008245,
      "grad_norm": 5.870616912841797,
      "learning_rate": 0.0001025044247500988,
      "loss": 0.4475,
      "step": 658
    },
    {
      "epoch": 0.49677267373380446,
      "grad_norm": 6.04547119140625,
      "learning_rate": 0.00010226595108757451,
      "loss": 0.4641,
      "step": 659
    },
    {
      "epoch": 0.4975265017667845,
      "grad_norm": 6.311388969421387,
      "learning_rate": 0.00010202746453132172,
      "loss": 0.4697,
      "step": 660
    },
    {
      "epoch": 0.49828032979976444,
      "grad_norm": 5.957773208618164,
      "learning_rate": 0.00010178896643837809,
      "loss": 0.4381,
      "step": 661
    },
    {
      "epoch": 0.4990341578327444,
      "grad_norm": 6.014715671539307,
      "learning_rate": 0.00010155045816584691,
      "loss": 0.4429,
      "step": 662
    },
    {
      "epoch": 0.49978798586572437,
      "grad_norm": 5.99500846862793,
      "learning_rate": 0.00010131194107088935,
      "loss": 0.4544,
      "step": 663
    },
    {
      "epoch": 0.5005418138987043,
      "grad_norm": 6.102397918701172,
      "learning_rate": 0.00010107341651071684,
      "loss": 0.4437,
      "step": 664
    },
    {
      "epoch": 0.5005418138987043,
      "eval_loss": 0.44807884097099304,
      "eval_runtime": 126.4853,
      "eval_samples_per_second": 17.67,
      "eval_steps_per_second": 8.839,
      "step": 664
    },
    {
      "epoch": 0.5012956419316843,
      "grad_norm": 5.838627338409424,
      "learning_rate": 0.00010083488584258326,
      "loss": 0.3961,
      "step": 665
    },
    {
      "epoch": 0.5020494699646643,
      "grad_norm": 6.225624084472656,
      "learning_rate": 0.00010059635042377725,
      "loss": 0.4199,
      "step": 666
    },
    {
      "epoch": 0.5028032979976443,
      "grad_norm": 5.906275749206543,
      "learning_rate": 0.00010035781161161446,
      "loss": 0.4164,
      "step": 667
    },
    {
      "epoch": 0.5035571260306243,
      "grad_norm": 5.818455696105957,
      "learning_rate": 0.0001001192707634299,
      "loss": 0.3753,
      "step": 668
    },
    {
      "epoch": 0.5043109540636043,
      "grad_norm": 6.505937099456787,
      "learning_rate": 9.988072923657012e-05,
      "loss": 0.4058,
      "step": 669
    },
    {
      "epoch": 0.5050647820965842,
      "grad_norm": 6.205794811248779,
      "learning_rate": 9.964218838838554e-05,
      "loss": 0.4176,
      "step": 670
    },
    {
      "epoch": 0.5058186101295642,
      "grad_norm": 6.019129753112793,
      "learning_rate": 9.940364957622276e-05,
      "loss": 0.4253,
      "step": 671
    },
    {
      "epoch": 0.5065724381625442,
      "grad_norm": 5.988311290740967,
      "learning_rate": 9.916511415741676e-05,
      "loss": 0.399,
      "step": 672
    },
    {
      "epoch": 0.5073262661955241,
      "grad_norm": 6.607666492462158,
      "learning_rate": 9.892658348928316e-05,
      "loss": 0.4154,
      "step": 673
    },
    {
      "epoch": 0.5080800942285041,
      "grad_norm": 5.99027156829834,
      "learning_rate": 9.868805892911067e-05,
      "loss": 0.387,
      "step": 674
    },
    {
      "epoch": 0.508833922261484,
      "grad_norm": 6.09193229675293,
      "learning_rate": 9.84495418341531e-05,
      "loss": 0.3817,
      "step": 675
    },
    {
      "epoch": 0.5095877502944641,
      "grad_norm": 6.635573863983154,
      "learning_rate": 9.821103356162189e-05,
      "loss": 0.4021,
      "step": 676
    },
    {
      "epoch": 0.5103415783274441,
      "grad_norm": 6.2010884284973145,
      "learning_rate": 9.797253546867831e-05,
      "loss": 0.3915,
      "step": 677
    },
    {
      "epoch": 0.511095406360424,
      "grad_norm": 6.824472427368164,
      "learning_rate": 9.773404891242551e-05,
      "loss": 0.3946,
      "step": 678
    },
    {
      "epoch": 0.511849234393404,
      "grad_norm": 7.179849147796631,
      "learning_rate": 9.749557524990121e-05,
      "loss": 0.4281,
      "step": 679
    },
    {
      "epoch": 0.512603062426384,
      "grad_norm": 6.765272617340088,
      "learning_rate": 9.72571158380697e-05,
      "loss": 0.4113,
      "step": 680
    },
    {
      "epoch": 0.513356890459364,
      "grad_norm": 6.409517765045166,
      "learning_rate": 9.701867203381405e-05,
      "loss": 0.387,
      "step": 681
    },
    {
      "epoch": 0.5141107184923439,
      "grad_norm": 6.494263172149658,
      "learning_rate": 9.678024519392871e-05,
      "loss": 0.3783,
      "step": 682
    },
    {
      "epoch": 0.5148645465253239,
      "grad_norm": 6.259777545928955,
      "learning_rate": 9.654183667511154e-05,
      "loss": 0.3996,
      "step": 683
    },
    {
      "epoch": 0.5156183745583038,
      "grad_norm": 6.5478363037109375,
      "learning_rate": 9.630344783395604e-05,
      "loss": 0.3838,
      "step": 684
    },
    {
      "epoch": 0.5163722025912839,
      "grad_norm": 7.6854071617126465,
      "learning_rate": 9.606508002694386e-05,
      "loss": 0.4235,
      "step": 685
    },
    {
      "epoch": 0.5171260306242639,
      "grad_norm": 7.029118537902832,
      "learning_rate": 9.5826734610437e-05,
      "loss": 0.418,
      "step": 686
    },
    {
      "epoch": 0.5178798586572438,
      "grad_norm": 7.062952518463135,
      "learning_rate": 9.558841294066985e-05,
      "loss": 0.4281,
      "step": 687
    },
    {
      "epoch": 0.5186336866902238,
      "grad_norm": 6.547257900238037,
      "learning_rate": 9.535011637374189e-05,
      "loss": 0.4008,
      "step": 688
    },
    {
      "epoch": 0.5193875147232038,
      "grad_norm": 7.128522872924805,
      "learning_rate": 9.511184626560968e-05,
      "loss": 0.4072,
      "step": 689
    },
    {
      "epoch": 0.5201413427561837,
      "grad_norm": 6.604221343994141,
      "learning_rate": 9.487360397207916e-05,
      "loss": 0.3906,
      "step": 690
    },
    {
      "epoch": 0.5208951707891637,
      "grad_norm": 7.471280574798584,
      "learning_rate": 9.463539084879809e-05,
      "loss": 0.4373,
      "step": 691
    },
    {
      "epoch": 0.5216489988221437,
      "grad_norm": 7.444307804107666,
      "learning_rate": 9.439720825124827e-05,
      "loss": 0.4245,
      "step": 692
    },
    {
      "epoch": 0.5224028268551236,
      "grad_norm": 7.748506546020508,
      "learning_rate": 9.415905753473765e-05,
      "loss": 0.4267,
      "step": 693
    },
    {
      "epoch": 0.5231566548881037,
      "grad_norm": 8.47761344909668,
      "learning_rate": 9.392094005439291e-05,
      "loss": 0.4861,
      "step": 694
    },
    {
      "epoch": 0.5239104829210837,
      "grad_norm": 9.239935874938965,
      "learning_rate": 9.368285716515162e-05,
      "loss": 0.45,
      "step": 695
    },
    {
      "epoch": 0.5246643109540636,
      "grad_norm": 9.59188461303711,
      "learning_rate": 9.344481022175436e-05,
      "loss": 0.4876,
      "step": 696
    },
    {
      "epoch": 0.5254181389870436,
      "grad_norm": 10.498910903930664,
      "learning_rate": 9.320680057873735e-05,
      "loss": 0.5021,
      "step": 697
    },
    {
      "epoch": 0.5261719670200236,
      "grad_norm": 11.162120819091797,
      "learning_rate": 9.29688295904245e-05,
      "loss": 0.5001,
      "step": 698
    },
    {
      "epoch": 0.5269257950530035,
      "grad_norm": 11.781893730163574,
      "learning_rate": 9.273089861091969e-05,
      "loss": 0.456,
      "step": 699
    },
    {
      "epoch": 0.5276796230859835,
      "grad_norm": 15.090996742248535,
      "learning_rate": 9.249300899409924e-05,
      "loss": 0.5593,
      "step": 700
    },
    {
      "epoch": 0.5284334511189634,
      "grad_norm": 9.527992248535156,
      "learning_rate": 9.225516209360413e-05,
      "loss": 0.5803,
      "step": 701
    },
    {
      "epoch": 0.5291872791519434,
      "grad_norm": 8.856983184814453,
      "learning_rate": 9.201735926283213e-05,
      "loss": 0.5268,
      "step": 702
    },
    {
      "epoch": 0.5299411071849235,
      "grad_norm": 7.78725528717041,
      "learning_rate": 9.177960185493036e-05,
      "loss": 0.5227,
      "step": 703
    },
    {
      "epoch": 0.5306949352179035,
      "grad_norm": 7.152993679046631,
      "learning_rate": 9.154189122278754e-05,
      "loss": 0.5067,
      "step": 704
    },
    {
      "epoch": 0.5314487632508834,
      "grad_norm": 6.18569278717041,
      "learning_rate": 9.1304228719026e-05,
      "loss": 0.476,
      "step": 705
    },
    {
      "epoch": 0.5322025912838634,
      "grad_norm": 6.376234531402588,
      "learning_rate": 9.106661569599442e-05,
      "loss": 0.4734,
      "step": 706
    },
    {
      "epoch": 0.5329564193168433,
      "grad_norm": 6.275115489959717,
      "learning_rate": 9.082905350575986e-05,
      "loss": 0.4468,
      "step": 707
    },
    {
      "epoch": 0.5337102473498233,
      "grad_norm": 5.899405479431152,
      "learning_rate": 9.059154350010008e-05,
      "loss": 0.4738,
      "step": 708
    },
    {
      "epoch": 0.5344640753828033,
      "grad_norm": 6.213337421417236,
      "learning_rate": 9.035408703049596e-05,
      "loss": 0.4732,
      "step": 709
    },
    {
      "epoch": 0.5352179034157832,
      "grad_norm": 6.043967247009277,
      "learning_rate": 9.011668544812377e-05,
      "loss": 0.4514,
      "step": 710
    },
    {
      "epoch": 0.5359717314487632,
      "grad_norm": 6.495950698852539,
      "learning_rate": 8.987934010384733e-05,
      "loss": 0.4468,
      "step": 711
    },
    {
      "epoch": 0.5367255594817433,
      "grad_norm": 6.062058448791504,
      "learning_rate": 8.96420523482106e-05,
      "loss": 0.4311,
      "step": 712
    },
    {
      "epoch": 0.5374793875147232,
      "grad_norm": 6.561244964599609,
      "learning_rate": 8.940482353142983e-05,
      "loss": 0.4621,
      "step": 713
    },
    {
      "epoch": 0.5382332155477032,
      "grad_norm": 5.8635029792785645,
      "learning_rate": 8.916765500338575e-05,
      "loss": 0.4189,
      "step": 714
    },
    {
      "epoch": 0.5389870435806832,
      "grad_norm": 6.959576606750488,
      "learning_rate": 8.893054811361624e-05,
      "loss": 0.4382,
      "step": 715
    },
    {
      "epoch": 0.5397408716136631,
      "grad_norm": 5.93906307220459,
      "learning_rate": 8.869350421130831e-05,
      "loss": 0.4202,
      "step": 716
    },
    {
      "epoch": 0.5404946996466431,
      "grad_norm": 5.888154029846191,
      "learning_rate": 8.845652464529057e-05,
      "loss": 0.4098,
      "step": 717
    },
    {
      "epoch": 0.5412485276796231,
      "grad_norm": 6.113773345947266,
      "learning_rate": 8.821961076402563e-05,
      "loss": 0.412,
      "step": 718
    },
    {
      "epoch": 0.542002355712603,
      "grad_norm": 6.2954607009887695,
      "learning_rate": 8.79827639156022e-05,
      "loss": 0.4472,
      "step": 719
    },
    {
      "epoch": 0.542756183745583,
      "grad_norm": 6.085266590118408,
      "learning_rate": 8.774598544772774e-05,
      "loss": 0.4134,
      "step": 720
    },
    {
      "epoch": 0.5435100117785631,
      "grad_norm": 5.995761871337891,
      "learning_rate": 8.750927670772044e-05,
      "loss": 0.4236,
      "step": 721
    },
    {
      "epoch": 0.544263839811543,
      "grad_norm": 6.094368934631348,
      "learning_rate": 8.727263904250178e-05,
      "loss": 0.4344,
      "step": 722
    },
    {
      "epoch": 0.545017667844523,
      "grad_norm": 6.14577579498291,
      "learning_rate": 8.703607379858889e-05,
      "loss": 0.396,
      "step": 723
    },
    {
      "epoch": 0.545771495877503,
      "grad_norm": 5.814198970794678,
      "learning_rate": 8.679958232208668e-05,
      "loss": 0.3987,
      "step": 724
    },
    {
      "epoch": 0.5465253239104829,
      "grad_norm": 6.348716735839844,
      "learning_rate": 8.656316595868037e-05,
      "loss": 0.4263,
      "step": 725
    },
    {
      "epoch": 0.5472791519434629,
      "grad_norm": 6.51011323928833,
      "learning_rate": 8.632682605362784e-05,
      "loss": 0.4361,
      "step": 726
    },
    {
      "epoch": 0.5480329799764428,
      "grad_norm": 6.134734630584717,
      "learning_rate": 8.609056395175175e-05,
      "loss": 0.3946,
      "step": 727
    },
    {
      "epoch": 0.5487868080094228,
      "grad_norm": 6.129810333251953,
      "learning_rate": 8.585438099743217e-05,
      "loss": 0.3948,
      "step": 728
    },
    {
      "epoch": 0.5495406360424028,
      "grad_norm": 6.51365852355957,
      "learning_rate": 8.56182785345988e-05,
      "loss": 0.4182,
      "step": 729
    },
    {
      "epoch": 0.5502944640753828,
      "grad_norm": 6.257938861846924,
      "learning_rate": 8.538225790672322e-05,
      "loss": 0.4041,
      "step": 730
    },
    {
      "epoch": 0.5510482921083628,
      "grad_norm": 6.626195430755615,
      "learning_rate": 8.514632045681145e-05,
      "loss": 0.4291,
      "step": 731
    },
    {
      "epoch": 0.5518021201413428,
      "grad_norm": 6.350541591644287,
      "learning_rate": 8.491046752739624e-05,
      "loss": 0.4113,
      "step": 732
    },
    {
      "epoch": 0.5525559481743227,
      "grad_norm": 6.342377185821533,
      "learning_rate": 8.467470046052927e-05,
      "loss": 0.3725,
      "step": 733
    },
    {
      "epoch": 0.5533097762073027,
      "grad_norm": 6.338717460632324,
      "learning_rate": 8.443902059777373e-05,
      "loss": 0.4044,
      "step": 734
    },
    {
      "epoch": 0.5540636042402827,
      "grad_norm": 6.489543914794922,
      "learning_rate": 8.420342928019666e-05,
      "loss": 0.3806,
      "step": 735
    },
    {
      "epoch": 0.5548174322732626,
      "grad_norm": 6.675236701965332,
      "learning_rate": 8.396792784836108e-05,
      "loss": 0.3937,
      "step": 736
    },
    {
      "epoch": 0.5555712603062426,
      "grad_norm": 7.242746829986572,
      "learning_rate": 8.373251764231872e-05,
      "loss": 0.3968,
      "step": 737
    },
    {
      "epoch": 0.5563250883392226,
      "grad_norm": 6.987369537353516,
      "learning_rate": 8.349720000160218e-05,
      "loss": 0.3878,
      "step": 738
    },
    {
      "epoch": 0.5570789163722026,
      "grad_norm": 7.393560886383057,
      "learning_rate": 8.326197626521723e-05,
      "loss": 0.3883,
      "step": 739
    },
    {
      "epoch": 0.5578327444051826,
      "grad_norm": 7.474055290222168,
      "learning_rate": 8.30268477716354e-05,
      "loss": 0.4183,
      "step": 740
    },
    {
      "epoch": 0.5585865724381626,
      "grad_norm": 7.556806564331055,
      "learning_rate": 8.279181585878635e-05,
      "loss": 0.4282,
      "step": 741
    },
    {
      "epoch": 0.5593404004711425,
      "grad_norm": 8.794517517089844,
      "learning_rate": 8.255688186404996e-05,
      "loss": 0.4694,
      "step": 742
    },
    {
      "epoch": 0.5600942285041225,
      "grad_norm": 9.162858963012695,
      "learning_rate": 8.232204712424911e-05,
      "loss": 0.4888,
      "step": 743
    },
    {
      "epoch": 0.5608480565371025,
      "grad_norm": 9.154852867126465,
      "learning_rate": 8.208731297564189e-05,
      "loss": 0.4735,
      "step": 744
    },
    {
      "epoch": 0.5616018845700824,
      "grad_norm": 9.025120735168457,
      "learning_rate": 8.185268075391388e-05,
      "loss": 0.4743,
      "step": 745
    },
    {
      "epoch": 0.5623557126030624,
      "grad_norm": 9.328535079956055,
      "learning_rate": 8.161815179417078e-05,
      "loss": 0.4575,
      "step": 746
    },
    {
      "epoch": 0.5631095406360423,
      "grad_norm": 9.941339492797852,
      "learning_rate": 8.138372743093076e-05,
      "loss": 0.4969,
      "step": 747
    },
    {
      "epoch": 0.5638633686690224,
      "grad_norm": 9.928484916687012,
      "learning_rate": 8.114940899811662e-05,
      "loss": 0.4634,
      "step": 748
    },
    {
      "epoch": 0.5646171967020024,
      "grad_norm": 10.29101848602295,
      "learning_rate": 8.091519782904857e-05,
      "loss": 0.4114,
      "step": 749
    },
    {
      "epoch": 0.5653710247349824,
      "grad_norm": 15.212136268615723,
      "learning_rate": 8.068109525643647e-05,
      "loss": 0.516,
      "step": 750
    },
    {
      "epoch": 0.5661248527679623,
      "grad_norm": 8.223611831665039,
      "learning_rate": 8.044710261237207e-05,
      "loss": 0.541,
      "step": 751
    },
    {
      "epoch": 0.5668786808009423,
      "grad_norm": 8.392924308776855,
      "learning_rate": 8.021322122832178e-05,
      "loss": 0.5317,
      "step": 752
    },
    {
      "epoch": 0.5676325088339222,
      "grad_norm": 8.130448341369629,
      "learning_rate": 7.99794524351189e-05,
      "loss": 0.4935,
      "step": 753
    },
    {
      "epoch": 0.5683863368669022,
      "grad_norm": 6.9753899574279785,
      "learning_rate": 7.974579756295591e-05,
      "loss": 0.4941,
      "step": 754
    },
    {
      "epoch": 0.5691401648998822,
      "grad_norm": 6.365013122558594,
      "learning_rate": 7.951225794137724e-05,
      "loss": 0.4539,
      "step": 755
    },
    {
      "epoch": 0.5698939929328621,
      "grad_norm": 5.7341628074646,
      "learning_rate": 7.927883489927147e-05,
      "loss": 0.4197,
      "step": 756
    },
    {
      "epoch": 0.5706478209658422,
      "grad_norm": 6.036746025085449,
      "learning_rate": 7.904552976486372e-05,
      "loss": 0.4361,
      "step": 757
    },
    {
      "epoch": 0.5714016489988222,
      "grad_norm": 5.587414264678955,
      "learning_rate": 7.88123438657083e-05,
      "loss": 0.4294,
      "step": 758
    },
    {
      "epoch": 0.5721554770318021,
      "grad_norm": 5.824455738067627,
      "learning_rate": 7.857927852868107e-05,
      "loss": 0.426,
      "step": 759
    },
    {
      "epoch": 0.5729093050647821,
      "grad_norm": 5.811740398406982,
      "learning_rate": 7.83463350799717e-05,
      "loss": 0.4336,
      "step": 760
    },
    {
      "epoch": 0.5736631330977621,
      "grad_norm": 5.9260945320129395,
      "learning_rate": 7.811351484507647e-05,
      "loss": 0.4609,
      "step": 761
    },
    {
      "epoch": 0.574416961130742,
      "grad_norm": 6.589666843414307,
      "learning_rate": 7.788081914879051e-05,
      "loss": 0.4384,
      "step": 762
    },
    {
      "epoch": 0.575170789163722,
      "grad_norm": 5.957409858703613,
      "learning_rate": 7.764824931520018e-05,
      "loss": 0.4261,
      "step": 763
    },
    {
      "epoch": 0.575924617196702,
      "grad_norm": 6.138071060180664,
      "learning_rate": 7.741580666767583e-05,
      "loss": 0.4189,
      "step": 764
    },
    {
      "epoch": 0.5766784452296819,
      "grad_norm": 5.744472503662109,
      "learning_rate": 7.718349252886395e-05,
      "loss": 0.4086,
      "step": 765
    },
    {
      "epoch": 0.577432273262662,
      "grad_norm": 6.045204162597656,
      "learning_rate": 7.695130822067984e-05,
      "loss": 0.4306,
      "step": 766
    },
    {
      "epoch": 0.578186101295642,
      "grad_norm": 5.609772682189941,
      "learning_rate": 7.67192550643001e-05,
      "loss": 0.3998,
      "step": 767
    },
    {
      "epoch": 0.5789399293286219,
      "grad_norm": 5.921622276306152,
      "learning_rate": 7.648733438015493e-05,
      "loss": 0.4225,
      "step": 768
    },
    {
      "epoch": 0.5796937573616019,
      "grad_norm": 6.352652072906494,
      "learning_rate": 7.625554748792085e-05,
      "loss": 0.4193,
      "step": 769
    },
    {
      "epoch": 0.5804475853945819,
      "grad_norm": 6.210894584655762,
      "learning_rate": 7.602389570651303e-05,
      "loss": 0.4119,
      "step": 770
    },
    {
      "epoch": 0.5812014134275618,
      "grad_norm": 6.061959743499756,
      "learning_rate": 7.579238035407776e-05,
      "loss": 0.4097,
      "step": 771
    },
    {
      "epoch": 0.5819552414605418,
      "grad_norm": 6.42627477645874,
      "learning_rate": 7.556100274798519e-05,
      "loss": 0.4226,
      "step": 772
    },
    {
      "epoch": 0.5827090694935217,
      "grad_norm": 6.124332904815674,
      "learning_rate": 7.532976420482146e-05,
      "loss": 0.396,
      "step": 773
    },
    {
      "epoch": 0.5834628975265017,
      "grad_norm": 5.928023815155029,
      "learning_rate": 7.509866604038157e-05,
      "loss": 0.3897,
      "step": 774
    },
    {
      "epoch": 0.5842167255594818,
      "grad_norm": 6.037590503692627,
      "learning_rate": 7.486770956966171e-05,
      "loss": 0.3958,
      "step": 775
    },
    {
      "epoch": 0.5849705535924618,
      "grad_norm": 6.051185131072998,
      "learning_rate": 7.463689610685171e-05,
      "loss": 0.4072,
      "step": 776
    },
    {
      "epoch": 0.5857243816254417,
      "grad_norm": 6.234012126922607,
      "learning_rate": 7.440622696532775e-05,
      "loss": 0.4151,
      "step": 777
    },
    {
      "epoch": 0.5864782096584217,
      "grad_norm": 6.273362636566162,
      "learning_rate": 7.417570345764481e-05,
      "loss": 0.418,
      "step": 778
    },
    {
      "epoch": 0.5872320376914016,
      "grad_norm": 6.810718059539795,
      "learning_rate": 7.394532689552905e-05,
      "loss": 0.4082,
      "step": 779
    },
    {
      "epoch": 0.5879858657243816,
      "grad_norm": 7.068334102630615,
      "learning_rate": 7.371509858987061e-05,
      "loss": 0.4031,
      "step": 780
    },
    {
      "epoch": 0.5887396937573616,
      "grad_norm": 6.441345691680908,
      "learning_rate": 7.348501985071603e-05,
      "loss": 0.3973,
      "step": 781
    },
    {
      "epoch": 0.5894935217903415,
      "grad_norm": 6.285884380340576,
      "learning_rate": 7.325509198726064e-05,
      "loss": 0.3888,
      "step": 782
    },
    {
      "epoch": 0.5902473498233216,
      "grad_norm": 5.942330360412598,
      "learning_rate": 7.302531630784137e-05,
      "loss": 0.3656,
      "step": 783
    },
    {
      "epoch": 0.5910011778563016,
      "grad_norm": 6.333634376525879,
      "learning_rate": 7.279569411992926e-05,
      "loss": 0.4081,
      "step": 784
    },
    {
      "epoch": 0.5917550058892815,
      "grad_norm": 6.436288833618164,
      "learning_rate": 7.256622673012175e-05,
      "loss": 0.4118,
      "step": 785
    },
    {
      "epoch": 0.5925088339222615,
      "grad_norm": 6.464933395385742,
      "learning_rate": 7.233691544413558e-05,
      "loss": 0.4269,
      "step": 786
    },
    {
      "epoch": 0.5932626619552415,
      "grad_norm": 6.593018054962158,
      "learning_rate": 7.210776156679931e-05,
      "loss": 0.4124,
      "step": 787
    },
    {
      "epoch": 0.5940164899882214,
      "grad_norm": 6.8628363609313965,
      "learning_rate": 7.187876640204556e-05,
      "loss": 0.4109,
      "step": 788
    },
    {
      "epoch": 0.5947703180212014,
      "grad_norm": 7.0224151611328125,
      "learning_rate": 7.164993125290407e-05,
      "loss": 0.4141,
      "step": 789
    },
    {
      "epoch": 0.5955241460541814,
      "grad_norm": 6.763969421386719,
      "learning_rate": 7.1421257421494e-05,
      "loss": 0.4093,
      "step": 790
    },
    {
      "epoch": 0.5962779740871613,
      "grad_norm": 7.6155781745910645,
      "learning_rate": 7.119274620901649e-05,
      "loss": 0.413,
      "step": 791
    },
    {
      "epoch": 0.5970318021201414,
      "grad_norm": 7.919892311096191,
      "learning_rate": 7.096439891574745e-05,
      "loss": 0.422,
      "step": 792
    },
    {
      "epoch": 0.5977856301531214,
      "grad_norm": 9.18865966796875,
      "learning_rate": 7.073621684103007e-05,
      "loss": 0.4679,
      "step": 793
    },
    {
      "epoch": 0.5985394581861013,
      "grad_norm": 8.299490928649902,
      "learning_rate": 7.050820128326724e-05,
      "loss": 0.4638,
      "step": 794
    },
    {
      "epoch": 0.5992932862190813,
      "grad_norm": 9.120932579040527,
      "learning_rate": 7.028035353991456e-05,
      "loss": 0.451,
      "step": 795
    },
    {
      "epoch": 0.6000471142520613,
      "grad_norm": 9.830779075622559,
      "learning_rate": 7.005267490747263e-05,
      "loss": 0.4778,
      "step": 796
    },
    {
      "epoch": 0.6008009422850412,
      "grad_norm": 10.880460739135742,
      "learning_rate": 6.982516668147967e-05,
      "loss": 0.4404,
      "step": 797
    },
    {
      "epoch": 0.6015547703180212,
      "grad_norm": 10.648106575012207,
      "learning_rate": 6.959783015650446e-05,
      "loss": 0.5199,
      "step": 798
    },
    {
      "epoch": 0.6023085983510011,
      "grad_norm": 11.122642517089844,
      "learning_rate": 6.937066662613863e-05,
      "loss": 0.4476,
      "step": 799
    },
    {
      "epoch": 0.6030624263839811,
      "grad_norm": 12.062220573425293,
      "learning_rate": 6.914367738298941e-05,
      "loss": 0.4763,
      "step": 800
    },
    {
      "epoch": 0.6038162544169612,
      "grad_norm": 6.382950782775879,
      "learning_rate": 6.891686371867239e-05,
      "loss": 0.5237,
      "step": 801
    },
    {
      "epoch": 0.6045700824499411,
      "grad_norm": 7.342101097106934,
      "learning_rate": 6.869022692380411e-05,
      "loss": 0.51,
      "step": 802
    },
    {
      "epoch": 0.6053239104829211,
      "grad_norm": 7.170543670654297,
      "learning_rate": 6.846376828799451e-05,
      "loss": 0.4846,
      "step": 803
    },
    {
      "epoch": 0.6060777385159011,
      "grad_norm": 6.772843360900879,
      "learning_rate": 6.823748909983994e-05,
      "loss": 0.4899,
      "step": 804
    },
    {
      "epoch": 0.606831566548881,
      "grad_norm": 6.159712314605713,
      "learning_rate": 6.801139064691562e-05,
      "loss": 0.4651,
      "step": 805
    },
    {
      "epoch": 0.607585394581861,
      "grad_norm": 6.47841739654541,
      "learning_rate": 6.778547421576825e-05,
      "loss": 0.4699,
      "step": 806
    },
    {
      "epoch": 0.608339222614841,
      "grad_norm": 5.620822906494141,
      "learning_rate": 6.75597410919089e-05,
      "loss": 0.4317,
      "step": 807
    },
    {
      "epoch": 0.6090930506478209,
      "grad_norm": 5.6669392585754395,
      "learning_rate": 6.733419255980559e-05,
      "loss": 0.4504,
      "step": 808
    },
    {
      "epoch": 0.6098468786808009,
      "grad_norm": 5.989339828491211,
      "learning_rate": 6.710882990287585e-05,
      "loss": 0.4576,
      "step": 809
    },
    {
      "epoch": 0.610600706713781,
      "grad_norm": 5.7165751457214355,
      "learning_rate": 6.688365440347965e-05,
      "loss": 0.4179,
      "step": 810
    },
    {
      "epoch": 0.6113545347467609,
      "grad_norm": 6.0307087898254395,
      "learning_rate": 6.665866734291205e-05,
      "loss": 0.4815,
      "step": 811
    },
    {
      "epoch": 0.6121083627797409,
      "grad_norm": 6.319530010223389,
      "learning_rate": 6.643387000139565e-05,
      "loss": 0.4407,
      "step": 812
    },
    {
      "epoch": 0.6128621908127209,
      "grad_norm": 5.93934440612793,
      "learning_rate": 6.620926365807372e-05,
      "loss": 0.4081,
      "step": 813
    },
    {
      "epoch": 0.6136160188457008,
      "grad_norm": 5.771956443786621,
      "learning_rate": 6.598484959100257e-05,
      "loss": 0.3936,
      "step": 814
    },
    {
      "epoch": 0.6143698468786808,
      "grad_norm": 6.20790433883667,
      "learning_rate": 6.576062907714448e-05,
      "loss": 0.4513,
      "step": 815
    },
    {
      "epoch": 0.6151236749116608,
      "grad_norm": 5.739172458648682,
      "learning_rate": 6.553660339236041e-05,
      "loss": 0.399,
      "step": 816
    },
    {
      "epoch": 0.6158775029446407,
      "grad_norm": 6.355349540710449,
      "learning_rate": 6.53127738114026e-05,
      "loss": 0.4259,
      "step": 817
    },
    {
      "epoch": 0.6166313309776207,
      "grad_norm": 5.847348213195801,
      "learning_rate": 6.508914160790752e-05,
      "loss": 0.4091,
      "step": 818
    },
    {
      "epoch": 0.6173851590106008,
      "grad_norm": 5.917300224304199,
      "learning_rate": 6.486570805438843e-05,
      "loss": 0.4258,
      "step": 819
    },
    {
      "epoch": 0.6181389870435807,
      "grad_norm": 6.199348449707031,
      "learning_rate": 6.46424744222283e-05,
      "loss": 0.4054,
      "step": 820
    },
    {
      "epoch": 0.6188928150765607,
      "grad_norm": 6.075807571411133,
      "learning_rate": 6.441944198167253e-05,
      "loss": 0.4334,
      "step": 821
    },
    {
      "epoch": 0.6196466431095407,
      "grad_norm": 5.835407257080078,
      "learning_rate": 6.419661200182158e-05,
      "loss": 0.4124,
      "step": 822
    },
    {
      "epoch": 0.6204004711425206,
      "grad_norm": 6.856280326843262,
      "learning_rate": 6.397398575062396e-05,
      "loss": 0.4316,
      "step": 823
    },
    {
      "epoch": 0.6211542991755006,
      "grad_norm": 6.388029098510742,
      "learning_rate": 6.375156449486895e-05,
      "loss": 0.4096,
      "step": 824
    },
    {
      "epoch": 0.6219081272084805,
      "grad_norm": 6.334976673126221,
      "learning_rate": 6.352934950017921e-05,
      "loss": 0.4267,
      "step": 825
    },
    {
      "epoch": 0.6226619552414605,
      "grad_norm": 6.394600868225098,
      "learning_rate": 6.330734203100394e-05,
      "loss": 0.4151,
      "step": 826
    },
    {
      "epoch": 0.6234157832744405,
      "grad_norm": 6.139026165008545,
      "learning_rate": 6.308554335061135e-05,
      "loss": 0.4307,
      "step": 827
    },
    {
      "epoch": 0.6241696113074205,
      "grad_norm": 6.6982102394104,
      "learning_rate": 6.286395472108158e-05,
      "loss": 0.4285,
      "step": 828
    },
    {
      "epoch": 0.6249234393404005,
      "grad_norm": 5.852738857269287,
      "learning_rate": 6.26425774032996e-05,
      "loss": 0.3874,
      "step": 829
    },
    {
      "epoch": 0.6256772673733805,
      "grad_norm": 6.24067497253418,
      "learning_rate": 6.2421412656948e-05,
      "loss": 0.3924,
      "step": 830
    },
    {
      "epoch": 0.6264310954063604,
      "grad_norm": 6.479643821716309,
      "learning_rate": 6.220046174049968e-05,
      "loss": 0.4109,
      "step": 831
    },
    {
      "epoch": 0.6271849234393404,
      "grad_norm": 6.55532169342041,
      "learning_rate": 6.19797259112109e-05,
      "loss": 0.4151,
      "step": 832
    },
    {
      "epoch": 0.6279387514723204,
      "grad_norm": 5.995844841003418,
      "learning_rate": 6.175920642511404e-05,
      "loss": 0.3872,
      "step": 833
    },
    {
      "epoch": 0.6286925795053003,
      "grad_norm": 6.913110256195068,
      "learning_rate": 6.153890453701031e-05,
      "loss": 0.4105,
      "step": 834
    },
    {
      "epoch": 0.6294464075382803,
      "grad_norm": 6.36851692199707,
      "learning_rate": 6.131882150046291e-05,
      "loss": 0.4048,
      "step": 835
    },
    {
      "epoch": 0.6302002355712603,
      "grad_norm": 5.844064712524414,
      "learning_rate": 6.109895856778967e-05,
      "loss": 0.3689,
      "step": 836
    },
    {
      "epoch": 0.6309540636042403,
      "grad_norm": 7.132351398468018,
      "learning_rate": 6.087931699005588e-05,
      "loss": 0.4218,
      "step": 837
    },
    {
      "epoch": 0.6317078916372203,
      "grad_norm": 6.560583114624023,
      "learning_rate": 6.065989801706744e-05,
      "loss": 0.4053,
      "step": 838
    },
    {
      "epoch": 0.6324617196702003,
      "grad_norm": 6.6530351638793945,
      "learning_rate": 6.044070289736352e-05,
      "loss": 0.4061,
      "step": 839
    },
    {
      "epoch": 0.6332155477031802,
      "grad_norm": 6.5088677406311035,
      "learning_rate": 6.0221732878209425e-05,
      "loss": 0.376,
      "step": 840
    },
    {
      "epoch": 0.6339693757361602,
      "grad_norm": 6.723409175872803,
      "learning_rate": 6.0002989205589734e-05,
      "loss": 0.3978,
      "step": 841
    },
    {
      "epoch": 0.6347232037691402,
      "grad_norm": 9.00965404510498,
      "learning_rate": 5.978447312420103e-05,
      "loss": 0.4661,
      "step": 842
    },
    {
      "epoch": 0.6354770318021201,
      "grad_norm": 8.346488952636719,
      "learning_rate": 5.9566185877444755e-05,
      "loss": 0.4812,
      "step": 843
    },
    {
      "epoch": 0.6362308598351001,
      "grad_norm": 9.07754135131836,
      "learning_rate": 5.934812870742036e-05,
      "loss": 0.5042,
      "step": 844
    },
    {
      "epoch": 0.63698468786808,
      "grad_norm": 9.425755500793457,
      "learning_rate": 5.913030285491808e-05,
      "loss": 0.5273,
      "step": 845
    },
    {
      "epoch": 0.6377385159010601,
      "grad_norm": 8.991804122924805,
      "learning_rate": 5.891270955941184e-05,
      "loss": 0.4724,
      "step": 846
    },
    {
      "epoch": 0.6384923439340401,
      "grad_norm": 9.069438934326172,
      "learning_rate": 5.869535005905232e-05,
      "loss": 0.4694,
      "step": 847
    },
    {
      "epoch": 0.63924617196702,
      "grad_norm": 9.837794303894043,
      "learning_rate": 5.847822559065992e-05,
      "loss": 0.4601,
      "step": 848
    },
    {
      "epoch": 0.64,
      "grad_norm": 10.19363021850586,
      "learning_rate": 5.8261337389717506e-05,
      "loss": 0.4776,
      "step": 849
    },
    {
      "epoch": 0.64075382803298,
      "grad_norm": 11.673394203186035,
      "learning_rate": 5.804468669036369e-05,
      "loss": 0.4425,
      "step": 850
    },
    {
      "epoch": 0.6415076560659599,
      "grad_norm": 6.468347072601318,
      "learning_rate": 5.7828274725385544e-05,
      "loss": 0.5469,
      "step": 851
    },
    {
      "epoch": 0.6422614840989399,
      "grad_norm": 7.060529708862305,
      "learning_rate": 5.761210272621175e-05,
      "loss": 0.5067,
      "step": 852
    },
    {
      "epoch": 0.6430153121319199,
      "grad_norm": 7.569014072418213,
      "learning_rate": 5.739617192290545e-05,
      "loss": 0.5057,
      "step": 853
    },
    {
      "epoch": 0.6437691401648998,
      "grad_norm": 7.41010046005249,
      "learning_rate": 5.7180483544157546e-05,
      "loss": 0.4897,
      "step": 854
    },
    {
      "epoch": 0.6445229681978799,
      "grad_norm": 6.627238750457764,
      "learning_rate": 5.696503881727917e-05,
      "loss": 0.5036,
      "step": 855
    },
    {
      "epoch": 0.6452767962308599,
      "grad_norm": 6.318825721740723,
      "learning_rate": 5.6749838968195326e-05,
      "loss": 0.4619,
      "step": 856
    },
    {
      "epoch": 0.6460306242638398,
      "grad_norm": 5.585279941558838,
      "learning_rate": 5.653488522143744e-05,
      "loss": 0.4331,
      "step": 857
    },
    {
      "epoch": 0.6467844522968198,
      "grad_norm": 5.902019500732422,
      "learning_rate": 5.6320178800136626e-05,
      "loss": 0.4596,
      "step": 858
    },
    {
      "epoch": 0.6475382803297998,
      "grad_norm": 5.5325164794921875,
      "learning_rate": 5.610572092601659e-05,
      "loss": 0.4362,
      "step": 859
    },
    {
      "epoch": 0.6482921083627797,
      "grad_norm": 5.381384372711182,
      "learning_rate": 5.589151281938695e-05,
      "loss": 0.4294,
      "step": 860
    },
    {
      "epoch": 0.6490459363957597,
      "grad_norm": 6.080218315124512,
      "learning_rate": 5.56775556991358e-05,
      "loss": 0.4304,
      "step": 861
    },
    {
      "epoch": 0.6497997644287397,
      "grad_norm": 5.510005950927734,
      "learning_rate": 5.5463850782723346e-05,
      "loss": 0.4157,
      "step": 862
    },
    {
      "epoch": 0.6505535924617196,
      "grad_norm": 5.572638511657715,
      "learning_rate": 5.5250399286174546e-05,
      "loss": 0.4238,
      "step": 863
    },
    {
      "epoch": 0.6513074204946997,
      "grad_norm": 5.32048225402832,
      "learning_rate": 5.50372024240724e-05,
      "loss": 0.3929,
      "step": 864
    },
    {
      "epoch": 0.6520612485276797,
      "grad_norm": 5.80560827255249,
      "learning_rate": 5.48242614095509e-05,
      "loss": 0.4251,
      "step": 865
    },
    {
      "epoch": 0.6528150765606596,
      "grad_norm": 5.714180946350098,
      "learning_rate": 5.461157745428841e-05,
      "loss": 0.4318,
      "step": 866
    },
    {
      "epoch": 0.6535689045936396,
      "grad_norm": 5.553015232086182,
      "learning_rate": 5.439915176850037e-05,
      "loss": 0.3996,
      "step": 867
    },
    {
      "epoch": 0.6543227326266196,
      "grad_norm": 5.774811744689941,
      "learning_rate": 5.418698556093271e-05,
      "loss": 0.4298,
      "step": 868
    },
    {
      "epoch": 0.6550765606595995,
      "grad_norm": 5.804990291595459,
      "learning_rate": 5.397508003885483e-05,
      "loss": 0.4119,
      "step": 869
    },
    {
      "epoch": 0.6558303886925795,
      "grad_norm": 5.6263556480407715,
      "learning_rate": 5.3763436408052904e-05,
      "loss": 0.394,
      "step": 870
    },
    {
      "epoch": 0.6565842167255594,
      "grad_norm": 5.699732303619385,
      "learning_rate": 5.3552055872822636e-05,
      "loss": 0.4152,
      "step": 871
    },
    {
      "epoch": 0.6573380447585394,
      "grad_norm": 5.353825569152832,
      "learning_rate": 5.334093963596294e-05,
      "loss": 0.3798,
      "step": 872
    },
    {
      "epoch": 0.6580918727915195,
      "grad_norm": 5.929776668548584,
      "learning_rate": 5.313008889876865e-05,
      "loss": 0.4142,
      "step": 873
    },
    {
      "epoch": 0.6588457008244994,
      "grad_norm": 6.101897716522217,
      "learning_rate": 5.2919504861023903e-05,
      "loss": 0.4396,
      "step": 874
    },
    {
      "epoch": 0.6595995288574794,
      "grad_norm": 6.041595458984375,
      "learning_rate": 5.270918872099522e-05,
      "loss": 0.4455,
      "step": 875
    },
    {
      "epoch": 0.6603533568904594,
      "grad_norm": 5.795607566833496,
      "learning_rate": 5.249914167542486e-05,
      "loss": 0.3927,
      "step": 876
    },
    {
      "epoch": 0.6611071849234393,
      "grad_norm": 6.169924259185791,
      "learning_rate": 5.228936491952363e-05,
      "loss": 0.4022,
      "step": 877
    },
    {
      "epoch": 0.6618610129564193,
      "grad_norm": 5.870789527893066,
      "learning_rate": 5.207985964696462e-05,
      "loss": 0.4012,
      "step": 878
    },
    {
      "epoch": 0.6626148409893993,
      "grad_norm": 6.345909595489502,
      "learning_rate": 5.1870627049875954e-05,
      "loss": 0.3814,
      "step": 879
    },
    {
      "epoch": 0.6633686690223792,
      "grad_norm": 6.1364569664001465,
      "learning_rate": 5.16616683188342e-05,
      "loss": 0.4032,
      "step": 880
    },
    {
      "epoch": 0.6641224970553592,
      "grad_norm": 5.976447582244873,
      "learning_rate": 5.145298464285757e-05,
      "loss": 0.3814,
      "step": 881
    },
    {
      "epoch": 0.6648763250883393,
      "grad_norm": 7.229459285736084,
      "learning_rate": 5.12445772093992e-05,
      "loss": 0.4171,
      "step": 882
    },
    {
      "epoch": 0.6656301531213192,
      "grad_norm": 5.863222599029541,
      "learning_rate": 5.103644720434027e-05,
      "loss": 0.3782,
      "step": 883
    },
    {
      "epoch": 0.6663839811542992,
      "grad_norm": 6.049070835113525,
      "learning_rate": 5.082859581198344e-05,
      "loss": 0.3789,
      "step": 884
    },
    {
      "epoch": 0.6671378091872792,
      "grad_norm": 6.35960578918457,
      "learning_rate": 5.062102421504593e-05,
      "loss": 0.4086,
      "step": 885
    },
    {
      "epoch": 0.6678916372202591,
      "grad_norm": 6.470669746398926,
      "learning_rate": 5.041373359465289e-05,
      "loss": 0.4076,
      "step": 886
    },
    {
      "epoch": 0.6686454652532391,
      "grad_norm": 6.241630554199219,
      "learning_rate": 5.020672513033066e-05,
      "loss": 0.4007,
      "step": 887
    },
    {
      "epoch": 0.669399293286219,
      "grad_norm": 6.308516502380371,
      "learning_rate": 5.000000000000002e-05,
      "loss": 0.3754,
      "step": 888
    },
    {
      "epoch": 0.670153121319199,
      "grad_norm": 6.356692314147949,
      "learning_rate": 4.9793559379969566e-05,
      "loss": 0.3973,
      "step": 889
    },
    {
      "epoch": 0.670906949352179,
      "grad_norm": 7.087871074676514,
      "learning_rate": 4.958740444492892e-05,
      "loss": 0.4128,
      "step": 890
    },
    {
      "epoch": 0.6716607773851591,
      "grad_norm": 7.447615623474121,
      "learning_rate": 4.9381536367942195e-05,
      "loss": 0.4111,
      "step": 891
    },
    {
      "epoch": 0.672414605418139,
      "grad_norm": 7.260590076446533,
      "learning_rate": 4.917595632044113e-05,
      "loss": 0.3799,
      "step": 892
    },
    {
      "epoch": 0.673168433451119,
      "grad_norm": 7.701971530914307,
      "learning_rate": 4.8970665472218537e-05,
      "loss": 0.4017,
      "step": 893
    },
    {
      "epoch": 0.673922261484099,
      "grad_norm": 8.021989822387695,
      "learning_rate": 4.8765664991421634e-05,
      "loss": 0.4536,
      "step": 894
    },
    {
      "epoch": 0.6746760895170789,
      "grad_norm": 8.987250328063965,
      "learning_rate": 4.856095604454539e-05,
      "loss": 0.4939,
      "step": 895
    },
    {
      "epoch": 0.6754299175500589,
      "grad_norm": 10.436625480651855,
      "learning_rate": 4.835653979642585e-05,
      "loss": 0.5239,
      "step": 896
    },
    {
      "epoch": 0.6761837455830388,
      "grad_norm": 9.789538383483887,
      "learning_rate": 4.815241741023367e-05,
      "loss": 0.4798,
      "step": 897
    },
    {
      "epoch": 0.6769375736160188,
      "grad_norm": 9.678764343261719,
      "learning_rate": 4.7948590047467153e-05,
      "loss": 0.4441,
      "step": 898
    },
    {
      "epoch": 0.6776914016489988,
      "grad_norm": 10.444610595703125,
      "learning_rate": 4.774505886794609e-05,
      "loss": 0.4201,
      "step": 899
    },
    {
      "epoch": 0.6784452296819788,
      "grad_norm": 12.58081340789795,
      "learning_rate": 4.754182502980477e-05,
      "loss": 0.4634,
      "step": 900
    },
    {
      "epoch": 0.6791990577149588,
      "grad_norm": 5.85378885269165,
      "learning_rate": 4.7338889689485624e-05,
      "loss": 0.5182,
      "step": 901
    },
    {
      "epoch": 0.6799528857479388,
      "grad_norm": 6.6499857902526855,
      "learning_rate": 4.713625400173247e-05,
      "loss": 0.5216,
      "step": 902
    },
    {
      "epoch": 0.6807067137809187,
      "grad_norm": 6.543797016143799,
      "learning_rate": 4.693391911958426e-05,
      "loss": 0.4798,
      "step": 903
    },
    {
      "epoch": 0.6814605418138987,
      "grad_norm": 6.197330951690674,
      "learning_rate": 4.673188619436798e-05,
      "loss": 0.4892,
      "step": 904
    },
    {
      "epoch": 0.6822143698468787,
      "grad_norm": 6.185276031494141,
      "learning_rate": 4.6530156375692726e-05,
      "loss": 0.474,
      "step": 905
    },
    {
      "epoch": 0.6829681978798586,
      "grad_norm": 5.581246376037598,
      "learning_rate": 4.632873081144267e-05,
      "loss": 0.4498,
      "step": 906
    },
    {
      "epoch": 0.6837220259128386,
      "grad_norm": 5.916640281677246,
      "learning_rate": 4.6127610647770767e-05,
      "loss": 0.4619,
      "step": 907
    },
    {
      "epoch": 0.6844758539458186,
      "grad_norm": 5.591888904571533,
      "learning_rate": 4.592679702909216e-05,
      "loss": 0.4275,
      "step": 908
    },
    {
      "epoch": 0.6852296819787986,
      "grad_norm": 5.287500858306885,
      "learning_rate": 4.572629109807782e-05,
      "loss": 0.4073,
      "step": 909
    },
    {
      "epoch": 0.6859835100117786,
      "grad_norm": 5.325054168701172,
      "learning_rate": 4.552609399564762e-05,
      "loss": 0.3894,
      "step": 910
    },
    {
      "epoch": 0.6867373380447586,
      "grad_norm": 5.576198101043701,
      "learning_rate": 4.532620686096446e-05,
      "loss": 0.4185,
      "step": 911
    },
    {
      "epoch": 0.6874911660777385,
      "grad_norm": 5.555250644683838,
      "learning_rate": 4.5126630831427264e-05,
      "loss": 0.3818,
      "step": 912
    },
    {
      "epoch": 0.6882449941107185,
      "grad_norm": 5.309383869171143,
      "learning_rate": 4.492736704266475e-05,
      "loss": 0.3835,
      "step": 913
    },
    {
      "epoch": 0.6889988221436985,
      "grad_norm": 5.426351547241211,
      "learning_rate": 4.472841662852888e-05,
      "loss": 0.4087,
      "step": 914
    },
    {
      "epoch": 0.6897526501766784,
      "grad_norm": 5.882096767425537,
      "learning_rate": 4.452978072108859e-05,
      "loss": 0.4398,
      "step": 915
    },
    {
      "epoch": 0.6905064782096584,
      "grad_norm": 5.80626916885376,
      "learning_rate": 4.4331460450623064e-05,
      "loss": 0.4234,
      "step": 916
    },
    {
      "epoch": 0.6912603062426383,
      "grad_norm": 5.8705291748046875,
      "learning_rate": 4.413345694561549e-05,
      "loss": 0.4223,
      "step": 917
    },
    {
      "epoch": 0.6920141342756184,
      "grad_norm": 5.822587966918945,
      "learning_rate": 4.393577133274658e-05,
      "loss": 0.4314,
      "step": 918
    },
    {
      "epoch": 0.6927679623085984,
      "grad_norm": 6.2686872482299805,
      "learning_rate": 4.373840473688829e-05,
      "loss": 0.459,
      "step": 919
    },
    {
      "epoch": 0.6935217903415783,
      "grad_norm": 5.543201923370361,
      "learning_rate": 4.354135828109707e-05,
      "loss": 0.3963,
      "step": 920
    },
    {
      "epoch": 0.6942756183745583,
      "grad_norm": 5.7019267082214355,
      "learning_rate": 4.3344633086607955e-05,
      "loss": 0.3964,
      "step": 921
    },
    {
      "epoch": 0.6950294464075383,
      "grad_norm": 5.6861958503723145,
      "learning_rate": 4.3148230272827784e-05,
      "loss": 0.4175,
      "step": 922
    },
    {
      "epoch": 0.6957832744405182,
      "grad_norm": 5.791751384735107,
      "learning_rate": 4.295215095732904e-05,
      "loss": 0.4196,
      "step": 923
    },
    {
      "epoch": 0.6965371024734982,
      "grad_norm": 6.20761251449585,
      "learning_rate": 4.275639625584338e-05,
      "loss": 0.4159,
      "step": 924
    },
    {
      "epoch": 0.6972909305064782,
      "grad_norm": 6.440983772277832,
      "learning_rate": 4.256096728225548e-05,
      "loss": 0.418,
      "step": 925
    },
    {
      "epoch": 0.6980447585394581,
      "grad_norm": 5.713172435760498,
      "learning_rate": 4.236586514859633e-05,
      "loss": 0.4084,
      "step": 926
    },
    {
      "epoch": 0.6987985865724382,
      "grad_norm": 5.674785137176514,
      "learning_rate": 4.217109096503736e-05,
      "loss": 0.3978,
      "step": 927
    },
    {
      "epoch": 0.6995524146054182,
      "grad_norm": 6.123269081115723,
      "learning_rate": 4.197664583988376e-05,
      "loss": 0.421,
      "step": 928
    },
    {
      "epoch": 0.7003062426383981,
      "grad_norm": 5.961802959442139,
      "learning_rate": 4.1782530879568374e-05,
      "loss": 0.4027,
      "step": 929
    },
    {
      "epoch": 0.7010600706713781,
      "grad_norm": 6.020455360412598,
      "learning_rate": 4.1588747188645275e-05,
      "loss": 0.3978,
      "step": 930
    },
    {
      "epoch": 0.7018138987043581,
      "grad_norm": 5.788726329803467,
      "learning_rate": 4.1395295869783615e-05,
      "loss": 0.3744,
      "step": 931
    },
    {
      "epoch": 0.702567726737338,
      "grad_norm": 6.581162929534912,
      "learning_rate": 4.1202178023761195e-05,
      "loss": 0.4003,
      "step": 932
    },
    {
      "epoch": 0.703321554770318,
      "grad_norm": 5.601202011108398,
      "learning_rate": 4.100939474945843e-05,
      "loss": 0.37,
      "step": 933
    },
    {
      "epoch": 0.704075382803298,
      "grad_norm": 6.49223518371582,
      "learning_rate": 4.0816947143851816e-05,
      "loss": 0.4088,
      "step": 934
    },
    {
      "epoch": 0.7048292108362779,
      "grad_norm": 6.10722541809082,
      "learning_rate": 4.0624836302007886e-05,
      "loss": 0.3835,
      "step": 935
    },
    {
      "epoch": 0.705583038869258,
      "grad_norm": 6.136714935302734,
      "learning_rate": 4.0433063317076893e-05,
      "loss": 0.4056,
      "step": 936
    },
    {
      "epoch": 0.706336866902238,
      "grad_norm": 6.344220161437988,
      "learning_rate": 4.024162928028663e-05,
      "loss": 0.386,
      "step": 937
    },
    {
      "epoch": 0.7070906949352179,
      "grad_norm": 7.188864231109619,
      "learning_rate": 4.0050535280936205e-05,
      "loss": 0.3849,
      "step": 938
    },
    {
      "epoch": 0.7078445229681979,
      "grad_norm": 6.800889492034912,
      "learning_rate": 3.985978240638981e-05,
      "loss": 0.3989,
      "step": 939
    },
    {
      "epoch": 0.7085983510011779,
      "grad_norm": 7.130059242248535,
      "learning_rate": 3.966937174207066e-05,
      "loss": 0.3821,
      "step": 940
    },
    {
      "epoch": 0.7093521790341578,
      "grad_norm": 6.849576473236084,
      "learning_rate": 3.947930437145464e-05,
      "loss": 0.3843,
      "step": 941
    },
    {
      "epoch": 0.7101060070671378,
      "grad_norm": 7.004662036895752,
      "learning_rate": 3.928958137606421e-05,
      "loss": 0.3686,
      "step": 942
    },
    {
      "epoch": 0.7108598351001177,
      "grad_norm": 8.136757850646973,
      "learning_rate": 3.910020383546233e-05,
      "loss": 0.4558,
      "step": 943
    },
    {
      "epoch": 0.7116136631330977,
      "grad_norm": 8.616293907165527,
      "learning_rate": 3.8911172827246215e-05,
      "loss": 0.4368,
      "step": 944
    },
    {
      "epoch": 0.7123674911660778,
      "grad_norm": 8.701359748840332,
      "learning_rate": 3.8722489427041185e-05,
      "loss": 0.4512,
      "step": 945
    },
    {
      "epoch": 0.7131213191990577,
      "grad_norm": 9.437173843383789,
      "learning_rate": 3.853415470849479e-05,
      "loss": 0.481,
      "step": 946
    },
    {
      "epoch": 0.7138751472320377,
      "grad_norm": 10.383941650390625,
      "learning_rate": 3.834616974327021e-05,
      "loss": 0.5005,
      "step": 947
    },
    {
      "epoch": 0.7146289752650177,
      "grad_norm": 9.366165161132812,
      "learning_rate": 3.815853560104075e-05,
      "loss": 0.4548,
      "step": 948
    },
    {
      "epoch": 0.7153828032979976,
      "grad_norm": 9.855792999267578,
      "learning_rate": 3.7971253349483285e-05,
      "loss": 0.4908,
      "step": 949
    },
    {
      "epoch": 0.7161366313309776,
      "grad_norm": 11.261048316955566,
      "learning_rate": 3.7784324054272405e-05,
      "loss": 0.4601,
      "step": 950
    },
    {
      "epoch": 0.7168904593639576,
      "grad_norm": 5.492030143737793,
      "learning_rate": 3.759774877907428e-05,
      "loss": 0.5291,
      "step": 951
    },
    {
      "epoch": 0.7176442873969375,
      "grad_norm": 6.00732421875,
      "learning_rate": 3.741152858554077e-05,
      "loss": 0.5058,
      "step": 952
    },
    {
      "epoch": 0.7183981154299176,
      "grad_norm": 5.992036819458008,
      "learning_rate": 3.722566453330298e-05,
      "loss": 0.5028,
      "step": 953
    },
    {
      "epoch": 0.7191519434628976,
      "grad_norm": 5.949222564697266,
      "learning_rate": 3.7040157679965796e-05,
      "loss": 0.4631,
      "step": 954
    },
    {
      "epoch": 0.7199057714958775,
      "grad_norm": 5.833024978637695,
      "learning_rate": 3.6855009081101355e-05,
      "loss": 0.449,
      "step": 955
    },
    {
      "epoch": 0.7206595995288575,
      "grad_norm": 5.746013641357422,
      "learning_rate": 3.6670219790243344e-05,
      "loss": 0.4442,
      "step": 956
    },
    {
      "epoch": 0.7214134275618375,
      "grad_norm": 5.595402240753174,
      "learning_rate": 3.648579085888085e-05,
      "loss": 0.4353,
      "step": 957
    },
    {
      "epoch": 0.7221672555948174,
      "grad_norm": 5.437952995300293,
      "learning_rate": 3.630172333645261e-05,
      "loss": 0.434,
      "step": 958
    },
    {
      "epoch": 0.7229210836277974,
      "grad_norm": 5.620044231414795,
      "learning_rate": 3.611801827034059e-05,
      "loss": 0.4137,
      "step": 959
    },
    {
      "epoch": 0.7236749116607774,
      "grad_norm": 5.448288440704346,
      "learning_rate": 3.593467670586457e-05,
      "loss": 0.4197,
      "step": 960
    },
    {
      "epoch": 0.7244287396937573,
      "grad_norm": 5.672021389007568,
      "learning_rate": 3.5751699686275786e-05,
      "loss": 0.4495,
      "step": 961
    },
    {
      "epoch": 0.7251825677267374,
      "grad_norm": 5.292520046234131,
      "learning_rate": 3.556908825275117e-05,
      "loss": 0.4203,
      "step": 962
    },
    {
      "epoch": 0.7259363957597174,
      "grad_norm": 5.522578239440918,
      "learning_rate": 3.538684344438736e-05,
      "loss": 0.4043,
      "step": 963
    },
    {
      "epoch": 0.7266902237926973,
      "grad_norm": 5.811888694763184,
      "learning_rate": 3.520496629819494e-05,
      "loss": 0.4239,
      "step": 964
    },
    {
      "epoch": 0.7274440518256773,
      "grad_norm": 5.410277366638184,
      "learning_rate": 3.502345784909229e-05,
      "loss": 0.4163,
      "step": 965
    },
    {
      "epoch": 0.7281978798586572,
      "grad_norm": 5.810190677642822,
      "learning_rate": 3.484231912989989e-05,
      "loss": 0.4323,
      "step": 966
    },
    {
      "epoch": 0.7289517078916372,
      "grad_norm": 5.343920707702637,
      "learning_rate": 3.466155117133433e-05,
      "loss": 0.4153,
      "step": 967
    },
    {
      "epoch": 0.7297055359246172,
      "grad_norm": 5.489987373352051,
      "learning_rate": 3.448115500200263e-05,
      "loss": 0.3828,
      "step": 968
    },
    {
      "epoch": 0.7304593639575971,
      "grad_norm": 5.753129005432129,
      "learning_rate": 3.430113164839601e-05,
      "loss": 0.4047,
      "step": 969
    },
    {
      "epoch": 0.7312131919905771,
      "grad_norm": 5.8478569984436035,
      "learning_rate": 3.4121482134884575e-05,
      "loss": 0.4231,
      "step": 970
    },
    {
      "epoch": 0.7319670200235572,
      "grad_norm": 6.3078413009643555,
      "learning_rate": 3.3942207483710986e-05,
      "loss": 0.3913,
      "step": 971
    },
    {
      "epoch": 0.7327208480565371,
      "grad_norm": 5.719088077545166,
      "learning_rate": 3.3763308714984974e-05,
      "loss": 0.4149,
      "step": 972
    },
    {
      "epoch": 0.7334746760895171,
      "grad_norm": 5.784895420074463,
      "learning_rate": 3.358478684667734e-05,
      "loss": 0.3997,
      "step": 973
    },
    {
      "epoch": 0.7342285041224971,
      "grad_norm": 5.888166427612305,
      "learning_rate": 3.3406642894614394e-05,
      "loss": 0.4064,
      "step": 974
    },
    {
      "epoch": 0.734982332155477,
      "grad_norm": 6.573143482208252,
      "learning_rate": 3.3228877872471786e-05,
      "loss": 0.4188,
      "step": 975
    },
    {
      "epoch": 0.735736160188457,
      "grad_norm": 5.861452102661133,
      "learning_rate": 3.305149279176921e-05,
      "loss": 0.3993,
      "step": 976
    },
    {
      "epoch": 0.736489988221437,
      "grad_norm": 5.746969223022461,
      "learning_rate": 3.287448866186428e-05,
      "loss": 0.4014,
      "step": 977
    },
    {
      "epoch": 0.7372438162544169,
      "grad_norm": 5.95499849319458,
      "learning_rate": 3.269786648994697e-05,
      "loss": 0.4129,
      "step": 978
    },
    {
      "epoch": 0.7379976442873969,
      "grad_norm": 5.868785858154297,
      "learning_rate": 3.252162728103382e-05,
      "loss": 0.4006,
      "step": 979
    },
    {
      "epoch": 0.738751472320377,
      "grad_norm": 6.216129779815674,
      "learning_rate": 3.234577203796223e-05,
      "loss": 0.4097,
      "step": 980
    },
    {
      "epoch": 0.7395053003533569,
      "grad_norm": 5.94473934173584,
      "learning_rate": 3.217030176138474e-05,
      "loss": 0.3947,
      "step": 981
    },
    {
      "epoch": 0.7402591283863369,
      "grad_norm": 5.822911262512207,
      "learning_rate": 3.199521744976342e-05,
      "loss": 0.3838,
      "step": 982
    },
    {
      "epoch": 0.7410129564193169,
      "grad_norm": 5.968900203704834,
      "learning_rate": 3.182052009936404e-05,
      "loss": 0.3945,
      "step": 983
    },
    {
      "epoch": 0.7417667844522968,
      "grad_norm": 6.497354984283447,
      "learning_rate": 3.164621070425051e-05,
      "loss": 0.4138,
      "step": 984
    },
    {
      "epoch": 0.7425206124852768,
      "grad_norm": 6.382023334503174,
      "learning_rate": 3.147229025627922e-05,
      "loss": 0.37,
      "step": 985
    },
    {
      "epoch": 0.7432744405182568,
      "grad_norm": 6.162110328674316,
      "learning_rate": 3.129875974509332e-05,
      "loss": 0.3743,
      "step": 986
    },
    {
      "epoch": 0.7440282685512367,
      "grad_norm": 6.0412116050720215,
      "learning_rate": 3.1125620158117186e-05,
      "loss": 0.3714,
      "step": 987
    },
    {
      "epoch": 0.7447820965842167,
      "grad_norm": 6.072629451751709,
      "learning_rate": 3.095287248055069e-05,
      "loss": 0.369,
      "step": 988
    },
    {
      "epoch": 0.7455359246171968,
      "grad_norm": 6.4712958335876465,
      "learning_rate": 3.078051769536378e-05,
      "loss": 0.3956,
      "step": 989
    },
    {
      "epoch": 0.7462897526501767,
      "grad_norm": 6.292232036590576,
      "learning_rate": 3.060855678329063e-05,
      "loss": 0.3755,
      "step": 990
    },
    {
      "epoch": 0.7470435806831567,
      "grad_norm": 6.797161102294922,
      "learning_rate": 3.043699072282429e-05,
      "loss": 0.3941,
      "step": 991
    },
    {
      "epoch": 0.7477974087161366,
      "grad_norm": 7.063961029052734,
      "learning_rate": 3.0265820490210973e-05,
      "loss": 0.4085,
      "step": 992
    },
    {
      "epoch": 0.7485512367491166,
      "grad_norm": 8.036771774291992,
      "learning_rate": 3.0095047059444546e-05,
      "loss": 0.4553,
      "step": 993
    },
    {
      "epoch": 0.7493050647820966,
      "grad_norm": 8.343942642211914,
      "learning_rate": 2.9924671402261018e-05,
      "loss": 0.4532,
      "step": 994
    },
    {
      "epoch": 0.7500588928150765,
      "grad_norm": 8.597431182861328,
      "learning_rate": 2.9754694488133038e-05,
      "loss": 0.4544,
      "step": 995
    },
    {
      "epoch": 0.7508127208480565,
      "grad_norm": 8.797038078308105,
      "learning_rate": 2.958511728426414e-05,
      "loss": 0.4565,
      "step": 996
    },
    {
      "epoch": 0.7508127208480565,
      "eval_loss": 0.42347389459609985,
      "eval_runtime": 127.0592,
      "eval_samples_per_second": 17.59,
      "eval_steps_per_second": 8.799,
      "step": 996
    },
    {
      "epoch": 0.7515665488810365,
      "grad_norm": 9.90727710723877,
      "learning_rate": 2.941594075558366e-05,
      "loss": 0.4791,
      "step": 997
    },
    {
      "epoch": 0.7523203769140165,
      "grad_norm": 9.148994445800781,
      "learning_rate": 2.9247165864740856e-05,
      "loss": 0.4488,
      "step": 998
    },
    {
      "epoch": 0.7530742049469965,
      "grad_norm": 10.751917839050293,
      "learning_rate": 2.9078793572099616e-05,
      "loss": 0.4695,
      "step": 999
    },
    {
      "epoch": 0.7538280329799765,
      "grad_norm": 12.66123104095459,
      "learning_rate": 2.8910824835732952e-05,
      "loss": 0.4773,
      "step": 1000
    },
    {
      "epoch": 0.7545818610129564,
      "grad_norm": 5.507136821746826,
      "learning_rate": 2.8743260611417665e-05,
      "loss": 0.5073,
      "step": 1001
    },
    {
      "epoch": 0.7553356890459364,
      "grad_norm": 5.805990695953369,
      "learning_rate": 2.857610185262859e-05,
      "loss": 0.4735,
      "step": 1002
    },
    {
      "epoch": 0.7560895170789164,
      "grad_norm": 5.612555980682373,
      "learning_rate": 2.8409349510533578e-05,
      "loss": 0.4536,
      "step": 1003
    },
    {
      "epoch": 0.7568433451118963,
      "grad_norm": 5.850246906280518,
      "learning_rate": 2.8243004533987793e-05,
      "loss": 0.4578,
      "step": 1004
    },
    {
      "epoch": 0.7575971731448763,
      "grad_norm": 5.569720268249512,
      "learning_rate": 2.8077067869528417e-05,
      "loss": 0.4135,
      "step": 1005
    },
    {
      "epoch": 0.7583510011778563,
      "grad_norm": 5.9112114906311035,
      "learning_rate": 2.7911540461369222e-05,
      "loss": 0.4445,
      "step": 1006
    },
    {
      "epoch": 0.7591048292108363,
      "grad_norm": 5.9236249923706055,
      "learning_rate": 2.774642325139535e-05,
      "loss": 0.4402,
      "step": 1007
    },
    {
      "epoch": 0.7598586572438163,
      "grad_norm": 6.210232257843018,
      "learning_rate": 2.7581717179157606e-05,
      "loss": 0.4605,
      "step": 1008
    },
    {
      "epoch": 0.7606124852767963,
      "grad_norm": 5.880030155181885,
      "learning_rate": 2.7417423181867585e-05,
      "loss": 0.4227,
      "step": 1009
    },
    {
      "epoch": 0.7613663133097762,
      "grad_norm": 5.549881458282471,
      "learning_rate": 2.72535421943919e-05,
      "loss": 0.4168,
      "step": 1010
    },
    {
      "epoch": 0.7621201413427562,
      "grad_norm": 5.586158275604248,
      "learning_rate": 2.7090075149247217e-05,
      "loss": 0.4334,
      "step": 1011
    },
    {
      "epoch": 0.7628739693757361,
      "grad_norm": 5.5952348709106445,
      "learning_rate": 2.6927022976594607e-05,
      "loss": 0.4232,
      "step": 1012
    },
    {
      "epoch": 0.7636277974087161,
      "grad_norm": 5.478029727935791,
      "learning_rate": 2.676438660423457e-05,
      "loss": 0.4053,
      "step": 1013
    },
    {
      "epoch": 0.7643816254416961,
      "grad_norm": 5.441522121429443,
      "learning_rate": 2.660216695760157e-05,
      "loss": 0.3847,
      "step": 1014
    },
    {
      "epoch": 0.765135453474676,
      "grad_norm": 5.584785461425781,
      "learning_rate": 2.6440364959758813e-05,
      "loss": 0.4098,
      "step": 1015
    },
    {
      "epoch": 0.7658892815076561,
      "grad_norm": 5.545854091644287,
      "learning_rate": 2.6278981531392945e-05,
      "loss": 0.4002,
      "step": 1016
    },
    {
      "epoch": 0.7666431095406361,
      "grad_norm": 5.697778701782227,
      "learning_rate": 2.6118017590809017e-05,
      "loss": 0.4013,
      "step": 1017
    },
    {
      "epoch": 0.767396937573616,
      "grad_norm": 6.265735626220703,
      "learning_rate": 2.595747405392491e-05,
      "loss": 0.4102,
      "step": 1018
    },
    {
      "epoch": 0.768150765606596,
      "grad_norm": 5.284882545471191,
      "learning_rate": 2.579735183426649e-05,
      "loss": 0.3747,
      "step": 1019
    },
    {
      "epoch": 0.768904593639576,
      "grad_norm": 5.939345359802246,
      "learning_rate": 2.5637651842962164e-05,
      "loss": 0.4019,
      "step": 1020
    },
    {
      "epoch": 0.7696584216725559,
      "grad_norm": 5.655182838439941,
      "learning_rate": 2.5478374988737753e-05,
      "loss": 0.4038,
      "step": 1021
    },
    {
      "epoch": 0.7704122497055359,
      "grad_norm": 5.510229587554932,
      "learning_rate": 2.531952217791136e-05,
      "loss": 0.3912,
      "step": 1022
    },
    {
      "epoch": 0.7711660777385159,
      "grad_norm": 5.720643997192383,
      "learning_rate": 2.5161094314388278e-05,
      "loss": 0.3995,
      "step": 1023
    },
    {
      "epoch": 0.7719199057714958,
      "grad_norm": 5.860435962677002,
      "learning_rate": 2.5003092299655584e-05,
      "loss": 0.3995,
      "step": 1024
    },
    {
      "epoch": 0.7726737338044759,
      "grad_norm": 6.223293304443359,
      "learning_rate": 2.4845517032777364e-05,
      "loss": 0.4424,
      "step": 1025
    },
    {
      "epoch": 0.7734275618374559,
      "grad_norm": 6.027644157409668,
      "learning_rate": 2.4688369410389334e-05,
      "loss": 0.4299,
      "step": 1026
    },
    {
      "epoch": 0.7741813898704358,
      "grad_norm": 5.946674346923828,
      "learning_rate": 2.4531650326693822e-05,
      "loss": 0.3849,
      "step": 1027
    },
    {
      "epoch": 0.7749352179034158,
      "grad_norm": 6.277134895324707,
      "learning_rate": 2.4375360673454718e-05,
      "loss": 0.4147,
      "step": 1028
    },
    {
      "epoch": 0.7756890459363958,
      "grad_norm": 6.024038314819336,
      "learning_rate": 2.4219501339992334e-05,
      "loss": 0.3774,
      "step": 1029
    },
    {
      "epoch": 0.7764428739693757,
      "grad_norm": 5.8574910163879395,
      "learning_rate": 2.406407321317835e-05,
      "loss": 0.3865,
      "step": 1030
    },
    {
      "epoch": 0.7771967020023557,
      "grad_norm": 6.022578239440918,
      "learning_rate": 2.3909077177430893e-05,
      "loss": 0.3957,
      "step": 1031
    },
    {
      "epoch": 0.7779505300353357,
      "grad_norm": 5.923416614532471,
      "learning_rate": 2.3754514114709304e-05,
      "loss": 0.3836,
      "step": 1032
    },
    {
      "epoch": 0.7787043580683156,
      "grad_norm": 6.270270824432373,
      "learning_rate": 2.3600384904509254e-05,
      "loss": 0.3979,
      "step": 1033
    },
    {
      "epoch": 0.7794581861012957,
      "grad_norm": 6.285928726196289,
      "learning_rate": 2.3446690423857685e-05,
      "loss": 0.4098,
      "step": 1034
    },
    {
      "epoch": 0.7802120141342757,
      "grad_norm": 6.104770660400391,
      "learning_rate": 2.3293431547307887e-05,
      "loss": 0.3746,
      "step": 1035
    },
    {
      "epoch": 0.7809658421672556,
      "grad_norm": 6.284374237060547,
      "learning_rate": 2.31406091469344e-05,
      "loss": 0.3933,
      "step": 1036
    },
    {
      "epoch": 0.7817196702002356,
      "grad_norm": 6.502585411071777,
      "learning_rate": 2.298822409232817e-05,
      "loss": 0.3964,
      "step": 1037
    },
    {
      "epoch": 0.7824734982332155,
      "grad_norm": 6.121708869934082,
      "learning_rate": 2.2836277250591574e-05,
      "loss": 0.3822,
      "step": 1038
    },
    {
      "epoch": 0.7832273262661955,
      "grad_norm": 7.069113731384277,
      "learning_rate": 2.2684769486333445e-05,
      "loss": 0.3919,
      "step": 1039
    },
    {
      "epoch": 0.7839811542991755,
      "grad_norm": 6.825623035430908,
      "learning_rate": 2.2533701661664154e-05,
      "loss": 0.4296,
      "step": 1040
    },
    {
      "epoch": 0.7847349823321554,
      "grad_norm": 7.632999897003174,
      "learning_rate": 2.2383074636190748e-05,
      "loss": 0.4266,
      "step": 1041
    },
    {
      "epoch": 0.7854888103651354,
      "grad_norm": 7.41874885559082,
      "learning_rate": 2.2232889267012038e-05,
      "loss": 0.4263,
      "step": 1042
    },
    {
      "epoch": 0.7862426383981155,
      "grad_norm": 7.6582417488098145,
      "learning_rate": 2.2083146408713673e-05,
      "loss": 0.4351,
      "step": 1043
    },
    {
      "epoch": 0.7869964664310954,
      "grad_norm": 9.17532730102539,
      "learning_rate": 2.1933846913363466e-05,
      "loss": 0.5107,
      "step": 1044
    },
    {
      "epoch": 0.7877502944640754,
      "grad_norm": 9.609545707702637,
      "learning_rate": 2.178499163050617e-05,
      "loss": 0.4606,
      "step": 1045
    },
    {
      "epoch": 0.7885041224970554,
      "grad_norm": 9.567949295043945,
      "learning_rate": 2.1636581407159105e-05,
      "loss": 0.4663,
      "step": 1046
    },
    {
      "epoch": 0.7892579505300353,
      "grad_norm": 9.527708053588867,
      "learning_rate": 2.1488617087806982e-05,
      "loss": 0.4712,
      "step": 1047
    },
    {
      "epoch": 0.7900117785630153,
      "grad_norm": 9.680562973022461,
      "learning_rate": 2.1341099514397266e-05,
      "loss": 0.4975,
      "step": 1048
    },
    {
      "epoch": 0.7907656065959953,
      "grad_norm": 10.399216651916504,
      "learning_rate": 2.1194029526335303e-05,
      "loss": 0.4586,
      "step": 1049
    },
    {
      "epoch": 0.7915194346289752,
      "grad_norm": 10.869539260864258,
      "learning_rate": 2.1047407960479702e-05,
      "loss": 0.4429,
      "step": 1050
    },
    {
      "epoch": 0.7922732626619552,
      "grad_norm": 5.385607719421387,
      "learning_rate": 2.0901235651137284e-05,
      "loss": 0.5019,
      "step": 1051
    },
    {
      "epoch": 0.7930270906949353,
      "grad_norm": 5.6260223388671875,
      "learning_rate": 2.0755513430058672e-05,
      "loss": 0.4988,
      "step": 1052
    },
    {
      "epoch": 0.7937809187279152,
      "grad_norm": 5.487570762634277,
      "learning_rate": 2.0610242126433297e-05,
      "loss": 0.4594,
      "step": 1053
    },
    {
      "epoch": 0.7945347467608952,
      "grad_norm": 5.6461591720581055,
      "learning_rate": 2.0465422566884805e-05,
      "loss": 0.4642,
      "step": 1054
    },
    {
      "epoch": 0.7952885747938752,
      "grad_norm": 5.7345123291015625,
      "learning_rate": 2.0321055575466284e-05,
      "loss": 0.4442,
      "step": 1055
    },
    {
      "epoch": 0.7960424028268551,
      "grad_norm": 5.918202877044678,
      "learning_rate": 2.0177141973655766e-05,
      "loss": 0.4708,
      "step": 1056
    },
    {
      "epoch": 0.7967962308598351,
      "grad_norm": 5.593347549438477,
      "learning_rate": 2.0033682580351144e-05,
      "loss": 0.4277,
      "step": 1057
    },
    {
      "epoch": 0.797550058892815,
      "grad_norm": 5.557769775390625,
      "learning_rate": 1.9890678211866033e-05,
      "loss": 0.4267,
      "step": 1058
    },
    {
      "epoch": 0.798303886925795,
      "grad_norm": 5.38918924331665,
      "learning_rate": 1.9748129681924675e-05,
      "loss": 0.4112,
      "step": 1059
    },
    {
      "epoch": 0.799057714958775,
      "grad_norm": 5.82417631149292,
      "learning_rate": 1.9606037801657673e-05,
      "loss": 0.4104,
      "step": 1060
    },
    {
      "epoch": 0.799811542991755,
      "grad_norm": 5.548363208770752,
      "learning_rate": 1.9464403379596963e-05,
      "loss": 0.4127,
      "step": 1061
    },
    {
      "epoch": 0.800565371024735,
      "grad_norm": 5.548163890838623,
      "learning_rate": 1.932322722167168e-05,
      "loss": 0.4198,
      "step": 1062
    },
    {
      "epoch": 0.801319199057715,
      "grad_norm": 5.443014621734619,
      "learning_rate": 1.9182510131203224e-05,
      "loss": 0.4012,
      "step": 1063
    },
    {
      "epoch": 0.802073027090695,
      "grad_norm": 5.750105381011963,
      "learning_rate": 1.9042252908900814e-05,
      "loss": 0.4075,
      "step": 1064
    },
    {
      "epoch": 0.8028268551236749,
      "grad_norm": 5.6281418800354,
      "learning_rate": 1.8902456352856925e-05,
      "loss": 0.3896,
      "step": 1065
    },
    {
      "epoch": 0.8035806831566549,
      "grad_norm": 5.443961143493652,
      "learning_rate": 1.8763121258542815e-05,
      "loss": 0.4057,
      "step": 1066
    },
    {
      "epoch": 0.8043345111896348,
      "grad_norm": 5.808502674102783,
      "learning_rate": 1.86242484188038e-05,
      "loss": 0.4137,
      "step": 1067
    },
    {
      "epoch": 0.8050883392226148,
      "grad_norm": 5.866790294647217,
      "learning_rate": 1.848583862385501e-05,
      "loss": 0.4129,
      "step": 1068
    },
    {
      "epoch": 0.8058421672555948,
      "grad_norm": 5.517582893371582,
      "learning_rate": 1.8347892661276656e-05,
      "loss": 0.3901,
      "step": 1069
    },
    {
      "epoch": 0.8065959952885748,
      "grad_norm": 6.088197231292725,
      "learning_rate": 1.82104113160097e-05,
      "loss": 0.4125,
      "step": 1070
    },
    {
      "epoch": 0.8073498233215548,
      "grad_norm": 5.613511562347412,
      "learning_rate": 1.8073395370351287e-05,
      "loss": 0.3968,
      "step": 1071
    },
    {
      "epoch": 0.8081036513545348,
      "grad_norm": 5.712565898895264,
      "learning_rate": 1.7936845603950447e-05,
      "loss": 0.3925,
      "step": 1072
    },
    {
      "epoch": 0.8088574793875147,
      "grad_norm": 5.371545314788818,
      "learning_rate": 1.780076279380337e-05,
      "loss": 0.3589,
      "step": 1073
    },
    {
      "epoch": 0.8096113074204947,
      "grad_norm": 5.599592208862305,
      "learning_rate": 1.7665147714249376e-05,
      "loss": 0.3838,
      "step": 1074
    },
    {
      "epoch": 0.8103651354534747,
      "grad_norm": 6.015298843383789,
      "learning_rate": 1.753000113696617e-05,
      "loss": 0.386,
      "step": 1075
    },
    {
      "epoch": 0.8111189634864546,
      "grad_norm": 5.434444427490234,
      "learning_rate": 1.7395323830965605e-05,
      "loss": 0.3771,
      "step": 1076
    },
    {
      "epoch": 0.8118727915194346,
      "grad_norm": 6.145053863525391,
      "learning_rate": 1.726111656258932e-05,
      "loss": 0.4039,
      "step": 1077
    },
    {
      "epoch": 0.8126266195524146,
      "grad_norm": 5.7801384925842285,
      "learning_rate": 1.7127380095504296e-05,
      "loss": 0.3955,
      "step": 1078
    },
    {
      "epoch": 0.8133804475853946,
      "grad_norm": 5.640938758850098,
      "learning_rate": 1.699411519069858e-05,
      "loss": 0.3788,
      "step": 1079
    },
    {
      "epoch": 0.8141342756183746,
      "grad_norm": 5.714921951293945,
      "learning_rate": 1.686132260647696e-05,
      "loss": 0.3637,
      "step": 1080
    },
    {
      "epoch": 0.8148881036513546,
      "grad_norm": 6.3913750648498535,
      "learning_rate": 1.6729003098456576e-05,
      "loss": 0.3815,
      "step": 1081
    },
    {
      "epoch": 0.8156419316843345,
      "grad_norm": 5.981407642364502,
      "learning_rate": 1.6597157419562703e-05,
      "loss": 0.3756,
      "step": 1082
    },
    {
      "epoch": 0.8163957597173145,
      "grad_norm": 6.408857822418213,
      "learning_rate": 1.646578632002439e-05,
      "loss": 0.4219,
      "step": 1083
    },
    {
      "epoch": 0.8171495877502944,
      "grad_norm": 6.3557329177856445,
      "learning_rate": 1.6334890547370286e-05,
      "loss": 0.387,
      "step": 1084
    },
    {
      "epoch": 0.8179034157832744,
      "grad_norm": 6.406612873077393,
      "learning_rate": 1.6204470846424268e-05,
      "loss": 0.3736,
      "step": 1085
    },
    {
      "epoch": 0.8186572438162544,
      "grad_norm": 6.225420951843262,
      "learning_rate": 1.607452795930131e-05,
      "loss": 0.3886,
      "step": 1086
    },
    {
      "epoch": 0.8194110718492343,
      "grad_norm": 6.3113789558410645,
      "learning_rate": 1.594506262540324e-05,
      "loss": 0.402,
      "step": 1087
    },
    {
      "epoch": 0.8201648998822144,
      "grad_norm": 6.504429817199707,
      "learning_rate": 1.5816075581414458e-05,
      "loss": 0.3911,
      "step": 1088
    },
    {
      "epoch": 0.8209187279151944,
      "grad_norm": 7.651139736175537,
      "learning_rate": 1.56875675612978e-05,
      "loss": 0.4127,
      "step": 1089
    },
    {
      "epoch": 0.8216725559481743,
      "grad_norm": 6.864494800567627,
      "learning_rate": 1.5559539296290403e-05,
      "loss": 0.3841,
      "step": 1090
    },
    {
      "epoch": 0.8224263839811543,
      "grad_norm": 7.120053291320801,
      "learning_rate": 1.5431991514899446e-05,
      "loss": 0.4185,
      "step": 1091
    },
    {
      "epoch": 0.8231802120141343,
      "grad_norm": 7.861664295196533,
      "learning_rate": 1.5304924942898068e-05,
      "loss": 0.4293,
      "step": 1092
    },
    {
      "epoch": 0.8239340400471142,
      "grad_norm": 8.355661392211914,
      "learning_rate": 1.5178340303321314e-05,
      "loss": 0.4559,
      "step": 1093
    },
    {
      "epoch": 0.8246878680800942,
      "grad_norm": 8.859525680541992,
      "learning_rate": 1.5052238316461753e-05,
      "loss": 0.4503,
      "step": 1094
    },
    {
      "epoch": 0.8254416961130742,
      "grad_norm": 9.211348533630371,
      "learning_rate": 1.492661969986574e-05,
      "loss": 0.4435,
      "step": 1095
    },
    {
      "epoch": 0.8261955241460541,
      "grad_norm": 8.610541343688965,
      "learning_rate": 1.4801485168329066e-05,
      "loss": 0.4625,
      "step": 1096
    },
    {
      "epoch": 0.8269493521790342,
      "grad_norm": 10.033802032470703,
      "learning_rate": 1.4676835433892989e-05,
      "loss": 0.437,
      "step": 1097
    },
    {
      "epoch": 0.8277031802120142,
      "grad_norm": 10.607207298278809,
      "learning_rate": 1.4552671205840163e-05,
      "loss": 0.4369,
      "step": 1098
    },
    {
      "epoch": 0.8284570082449941,
      "grad_norm": 10.07897663116455,
      "learning_rate": 1.4428993190690677e-05,
      "loss": 0.4563,
      "step": 1099
    },
    {
      "epoch": 0.8292108362779741,
      "grad_norm": 12.518508911132812,
      "learning_rate": 1.4305802092197829e-05,
      "loss": 0.4645,
      "step": 1100
    },
    {
      "epoch": 0.8299646643109541,
      "grad_norm": 5.578033924102783,
      "learning_rate": 1.4183098611344415e-05,
      "loss": 0.51,
      "step": 1101
    },
    {
      "epoch": 0.830718492343934,
      "grad_norm": 5.301563739776611,
      "learning_rate": 1.4060883446338502e-05,
      "loss": 0.4486,
      "step": 1102
    },
    {
      "epoch": 0.831472320376914,
      "grad_norm": 5.3994293212890625,
      "learning_rate": 1.393915729260955e-05,
      "loss": 0.4536,
      "step": 1103
    },
    {
      "epoch": 0.832226148409894,
      "grad_norm": 5.560753345489502,
      "learning_rate": 1.3817920842804433e-05,
      "loss": 0.455,
      "step": 1104
    },
    {
      "epoch": 0.8329799764428739,
      "grad_norm": 5.810977935791016,
      "learning_rate": 1.3697174786783584e-05,
      "loss": 0.4373,
      "step": 1105
    },
    {
      "epoch": 0.833733804475854,
      "grad_norm": 5.4894256591796875,
      "learning_rate": 1.3576919811616862e-05,
      "loss": 0.4106,
      "step": 1106
    },
    {
      "epoch": 0.834487632508834,
      "grad_norm": 5.865782737731934,
      "learning_rate": 1.345715660157989e-05,
      "loss": 0.4151,
      "step": 1107
    },
    {
      "epoch": 0.8352414605418139,
      "grad_norm": 5.4949469566345215,
      "learning_rate": 1.3337885838149988e-05,
      "loss": 0.4422,
      "step": 1108
    },
    {
      "epoch": 0.8359952885747939,
      "grad_norm": 5.45637845993042,
      "learning_rate": 1.3219108200002418e-05,
      "loss": 0.4237,
      "step": 1109
    },
    {
      "epoch": 0.8367491166077738,
      "grad_norm": 5.681154251098633,
      "learning_rate": 1.3100824363006326e-05,
      "loss": 0.443,
      "step": 1110
    },
    {
      "epoch": 0.8375029446407538,
      "grad_norm": 5.729828357696533,
      "learning_rate": 1.2983035000221177e-05,
      "loss": 0.4053,
      "step": 1111
    },
    {
      "epoch": 0.8382567726737338,
      "grad_norm": 6.101329326629639,
      "learning_rate": 1.2865740781892699e-05,
      "loss": 0.4384,
      "step": 1112
    },
    {
      "epoch": 0.8390106007067137,
      "grad_norm": 5.694645881652832,
      "learning_rate": 1.2748942375449135e-05,
      "loss": 0.4013,
      "step": 1113
    },
    {
      "epoch": 0.8397644287396937,
      "grad_norm": 5.564671516418457,
      "learning_rate": 1.263264044549748e-05,
      "loss": 0.4148,
      "step": 1114
    },
    {
      "epoch": 0.8405182567726738,
      "grad_norm": 5.393068313598633,
      "learning_rate": 1.2516835653819725e-05,
      "loss": 0.3981,
      "step": 1115
    },
    {
      "epoch": 0.8412720848056537,
      "grad_norm": 5.637123107910156,
      "learning_rate": 1.2401528659368911e-05,
      "loss": 0.406,
      "step": 1116
    },
    {
      "epoch": 0.8420259128386337,
      "grad_norm": 5.908216953277588,
      "learning_rate": 1.2286720118265659e-05,
      "loss": 0.3637,
      "step": 1117
    },
    {
      "epoch": 0.8427797408716137,
      "grad_norm": 5.7352070808410645,
      "learning_rate": 1.2172410683794177e-05,
      "loss": 0.4082,
      "step": 1118
    },
    {
      "epoch": 0.8435335689045936,
      "grad_norm": 5.5727858543396,
      "learning_rate": 1.2058601006398718e-05,
      "loss": 0.3828,
      "step": 1119
    },
    {
      "epoch": 0.8442873969375736,
      "grad_norm": 6.22990608215332,
      "learning_rate": 1.1945291733679764e-05,
      "loss": 0.4306,
      "step": 1120
    },
    {
      "epoch": 0.8450412249705536,
      "grad_norm": 5.981517314910889,
      "learning_rate": 1.1832483510390469e-05,
      "loss": 0.4177,
      "step": 1121
    },
    {
      "epoch": 0.8457950530035335,
      "grad_norm": 5.5717973709106445,
      "learning_rate": 1.1720176978432795e-05,
      "loss": 0.375,
      "step": 1122
    },
    {
      "epoch": 0.8465488810365136,
      "grad_norm": 5.83533239364624,
      "learning_rate": 1.1608372776854103e-05,
      "loss": 0.4141,
      "step": 1123
    },
    {
      "epoch": 0.8473027090694936,
      "grad_norm": 5.770301342010498,
      "learning_rate": 1.1497071541843306e-05,
      "loss": 0.3698,
      "step": 1124
    },
    {
      "epoch": 0.8480565371024735,
      "grad_norm": 5.999599933624268,
      "learning_rate": 1.1386273906727363e-05,
      "loss": 0.4177,
      "step": 1125
    },
    {
      "epoch": 0.8488103651354535,
      "grad_norm": 5.716385841369629,
      "learning_rate": 1.1275980501967642e-05,
      "loss": 0.3931,
      "step": 1126
    },
    {
      "epoch": 0.8495641931684335,
      "grad_norm": 6.15166711807251,
      "learning_rate": 1.1166191955156346e-05,
      "loss": 0.4025,
      "step": 1127
    },
    {
      "epoch": 0.8503180212014134,
      "grad_norm": 6.117612361907959,
      "learning_rate": 1.1056908891012884e-05,
      "loss": 0.4186,
      "step": 1128
    },
    {
      "epoch": 0.8510718492343934,
      "grad_norm": 6.109333038330078,
      "learning_rate": 1.0948131931380457e-05,
      "loss": 0.3863,
      "step": 1129
    },
    {
      "epoch": 0.8518256772673733,
      "grad_norm": 5.863979816436768,
      "learning_rate": 1.0839861695222354e-05,
      "loss": 0.3737,
      "step": 1130
    },
    {
      "epoch": 0.8525795053003533,
      "grad_norm": 5.980686664581299,
      "learning_rate": 1.0732098798618517e-05,
      "loss": 0.3739,
      "step": 1131
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 6.321891784667969,
      "learning_rate": 1.0624843854762034e-05,
      "loss": 0.416,
      "step": 1132
    },
    {
      "epoch": 0.8540871613663134,
      "grad_norm": 6.081487655639648,
      "learning_rate": 1.0518097473955624e-05,
      "loss": 0.3922,
      "step": 1133
    },
    {
      "epoch": 0.8548409893992933,
      "grad_norm": 6.287003040313721,
      "learning_rate": 1.0411860263608186e-05,
      "loss": 0.3747,
      "step": 1134
    },
    {
      "epoch": 0.8555948174322733,
      "grad_norm": 6.175232887268066,
      "learning_rate": 1.0306132828231318e-05,
      "loss": 0.3708,
      "step": 1135
    },
    {
      "epoch": 0.8563486454652532,
      "grad_norm": 6.49648904800415,
      "learning_rate": 1.0200915769435937e-05,
      "loss": 0.373,
      "step": 1136
    },
    {
      "epoch": 0.8571024734982332,
      "grad_norm": 6.249892234802246,
      "learning_rate": 1.009620968592876e-05,
      "loss": 0.3807,
      "step": 1137
    },
    {
      "epoch": 0.8578563015312132,
      "grad_norm": 6.616731643676758,
      "learning_rate": 9.992015173508995e-06,
      "loss": 0.3981,
      "step": 1138
    },
    {
      "epoch": 0.8586101295641931,
      "grad_norm": 6.801102638244629,
      "learning_rate": 9.88833282506486e-06,
      "loss": 0.3968,
      "step": 1139
    },
    {
      "epoch": 0.8593639575971731,
      "grad_norm": 6.820323467254639,
      "learning_rate": 9.785163230570282e-06,
      "loss": 0.3939,
      "step": 1140
    },
    {
      "epoch": 0.8601177856301532,
      "grad_norm": 8.20490837097168,
      "learning_rate": 9.682506977081496e-06,
      "loss": 0.4353,
      "step": 1141
    },
    {
      "epoch": 0.8608716136631331,
      "grad_norm": 7.587864398956299,
      "learning_rate": 9.580364648733775e-06,
      "loss": 0.4369,
      "step": 1142
    },
    {
      "epoch": 0.8616254416961131,
      "grad_norm": 7.294688701629639,
      "learning_rate": 9.478736826737944e-06,
      "loss": 0.411,
      "step": 1143
    },
    {
      "epoch": 0.8623792697290931,
      "grad_norm": 7.802835464477539,
      "learning_rate": 9.37762408937729e-06,
      "loss": 0.424,
      "step": 1144
    },
    {
      "epoch": 0.863133097762073,
      "grad_norm": 8.21778678894043,
      "learning_rate": 9.277027012004125e-06,
      "loss": 0.4752,
      "step": 1145
    },
    {
      "epoch": 0.863886925795053,
      "grad_norm": 8.805744171142578,
      "learning_rate": 9.176946167036516e-06,
      "loss": 0.4736,
      "step": 1146
    },
    {
      "epoch": 0.864640753828033,
      "grad_norm": 10.24565601348877,
      "learning_rate": 9.07738212395508e-06,
      "loss": 0.4635,
      "step": 1147
    },
    {
      "epoch": 0.8653945818610129,
      "grad_norm": 9.218001365661621,
      "learning_rate": 8.978335449299791e-06,
      "loss": 0.4313,
      "step": 1148
    },
    {
      "epoch": 0.8661484098939929,
      "grad_norm": 10.276748657226562,
      "learning_rate": 8.87980670666655e-06,
      "loss": 0.421,
      "step": 1149
    },
    {
      "epoch": 0.866902237926973,
      "grad_norm": 11.982145309448242,
      "learning_rate": 8.781796456704262e-06,
      "loss": 0.4486,
      "step": 1150
    },
    {
      "epoch": 0.8676560659599529,
      "grad_norm": 5.365624904632568,
      "learning_rate": 8.684305257111425e-06,
      "loss": 0.5014,
      "step": 1151
    },
    {
      "epoch": 0.8684098939929329,
      "grad_norm": 5.599196910858154,
      "learning_rate": 8.587333662633035e-06,
      "loss": 0.4984,
      "step": 1152
    },
    {
      "epoch": 0.8691637220259129,
      "grad_norm": 5.679477214813232,
      "learning_rate": 8.490882225057428e-06,
      "loss": 0.5011,
      "step": 1153
    },
    {
      "epoch": 0.8699175500588928,
      "grad_norm": 5.679898738861084,
      "learning_rate": 8.39495149321322e-06,
      "loss": 0.443,
      "step": 1154
    },
    {
      "epoch": 0.8706713780918728,
      "grad_norm": 5.414709091186523,
      "learning_rate": 8.299542012965944e-06,
      "loss": 0.4269,
      "step": 1155
    },
    {
      "epoch": 0.8714252061248527,
      "grad_norm": 5.3179426193237305,
      "learning_rate": 8.204654327215267e-06,
      "loss": 0.4395,
      "step": 1156
    },
    {
      "epoch": 0.8721790341578327,
      "grad_norm": 5.2444963455200195,
      "learning_rate": 8.110288975891634e-06,
      "loss": 0.4217,
      "step": 1157
    },
    {
      "epoch": 0.8729328621908127,
      "grad_norm": 5.733283996582031,
      "learning_rate": 8.016446495953367e-06,
      "loss": 0.4395,
      "step": 1158
    },
    {
      "epoch": 0.8736866902237928,
      "grad_norm": 5.545217037200928,
      "learning_rate": 7.923127421383458e-06,
      "loss": 0.436,
      "step": 1159
    },
    {
      "epoch": 0.8744405182567727,
      "grad_norm": 5.759894371032715,
      "learning_rate": 7.830332283186714e-06,
      "loss": 0.4376,
      "step": 1160
    },
    {
      "epoch": 0.8751943462897527,
      "grad_norm": 5.31406831741333,
      "learning_rate": 7.73806160938656e-06,
      "loss": 0.4097,
      "step": 1161
    },
    {
      "epoch": 0.8759481743227326,
      "grad_norm": 5.372743129730225,
      "learning_rate": 7.646315925022152e-06,
      "loss": 0.4264,
      "step": 1162
    },
    {
      "epoch": 0.8767020023557126,
      "grad_norm": 5.223913192749023,
      "learning_rate": 7.555095752145313e-06,
      "loss": 0.3879,
      "step": 1163
    },
    {
      "epoch": 0.8774558303886926,
      "grad_norm": 5.493069171905518,
      "learning_rate": 7.4644016098176615e-06,
      "loss": 0.4099,
      "step": 1164
    },
    {
      "epoch": 0.8782096584216725,
      "grad_norm": 5.413908004760742,
      "learning_rate": 7.374234014107484e-06,
      "loss": 0.4041,
      "step": 1165
    },
    {
      "epoch": 0.8789634864546525,
      "grad_norm": 5.9703288078308105,
      "learning_rate": 7.284593478087043e-06,
      "loss": 0.4391,
      "step": 1166
    },
    {
      "epoch": 0.8797173144876325,
      "grad_norm": 6.033265590667725,
      "learning_rate": 7.195480511829411e-06,
      "loss": 0.4356,
      "step": 1167
    },
    {
      "epoch": 0.8804711425206125,
      "grad_norm": 5.589619159698486,
      "learning_rate": 7.106895622405752e-06,
      "loss": 0.4029,
      "step": 1168
    },
    {
      "epoch": 0.8812249705535925,
      "grad_norm": 5.580582141876221,
      "learning_rate": 7.018839313882286e-06,
      "loss": 0.4039,
      "step": 1169
    },
    {
      "epoch": 0.8819787985865725,
      "grad_norm": 5.605942726135254,
      "learning_rate": 6.931312087317632e-06,
      "loss": 0.3915,
      "step": 1170
    },
    {
      "epoch": 0.8827326266195524,
      "grad_norm": 5.954355239868164,
      "learning_rate": 6.844314440759647e-06,
      "loss": 0.4119,
      "step": 1171
    },
    {
      "epoch": 0.8834864546525324,
      "grad_norm": 5.943442344665527,
      "learning_rate": 6.7578468692429345e-06,
      "loss": 0.4227,
      "step": 1172
    },
    {
      "epoch": 0.8842402826855124,
      "grad_norm": 6.070568561553955,
      "learning_rate": 6.6719098647857525e-06,
      "loss": 0.3824,
      "step": 1173
    },
    {
      "epoch": 0.8849941107184923,
      "grad_norm": 5.827738285064697,
      "learning_rate": 6.586503916387366e-06,
      "loss": 0.4358,
      "step": 1174
    },
    {
      "epoch": 0.8857479387514723,
      "grad_norm": 5.9503655433654785,
      "learning_rate": 6.501629510025231e-06,
      "loss": 0.3862,
      "step": 1175
    },
    {
      "epoch": 0.8865017667844522,
      "grad_norm": 5.86431360244751,
      "learning_rate": 6.417287128652172e-06,
      "loss": 0.3849,
      "step": 1176
    },
    {
      "epoch": 0.8872555948174323,
      "grad_norm": 5.833621978759766,
      "learning_rate": 6.333477252193731e-06,
      "loss": 0.3935,
      "step": 1177
    },
    {
      "epoch": 0.8880094228504123,
      "grad_norm": 6.094554901123047,
      "learning_rate": 6.250200357545377e-06,
      "loss": 0.3911,
      "step": 1178
    },
    {
      "epoch": 0.8887632508833923,
      "grad_norm": 5.814612865447998,
      "learning_rate": 6.167456918569792e-06,
      "loss": 0.3738,
      "step": 1179
    },
    {
      "epoch": 0.8895170789163722,
      "grad_norm": 6.395360946655273,
      "learning_rate": 6.085247406094197e-06,
      "loss": 0.3692,
      "step": 1180
    },
    {
      "epoch": 0.8902709069493522,
      "grad_norm": 5.914385795593262,
      "learning_rate": 6.003572287907633e-06,
      "loss": 0.4008,
      "step": 1181
    },
    {
      "epoch": 0.8910247349823321,
      "grad_norm": 6.416135787963867,
      "learning_rate": 5.922432028758362e-06,
      "loss": 0.3997,
      "step": 1182
    },
    {
      "epoch": 0.8917785630153121,
      "grad_norm": 5.680757522583008,
      "learning_rate": 5.841827090351171e-06,
      "loss": 0.347,
      "step": 1183
    },
    {
      "epoch": 0.8925323910482921,
      "grad_norm": 5.837109088897705,
      "learning_rate": 5.761757931344758e-06,
      "loss": 0.3623,
      "step": 1184
    },
    {
      "epoch": 0.893286219081272,
      "grad_norm": 5.914787769317627,
      "learning_rate": 5.68222500734914e-06,
      "loss": 0.3632,
      "step": 1185
    },
    {
      "epoch": 0.8940400471142521,
      "grad_norm": 6.179137229919434,
      "learning_rate": 5.603228770923041e-06,
      "loss": 0.3864,
      "step": 1186
    },
    {
      "epoch": 0.8947938751472321,
      "grad_norm": 5.854869365692139,
      "learning_rate": 5.524769671571317e-06,
      "loss": 0.3318,
      "step": 1187
    },
    {
      "epoch": 0.895547703180212,
      "grad_norm": 6.880571365356445,
      "learning_rate": 5.446848155742401e-06,
      "loss": 0.4063,
      "step": 1188
    },
    {
      "epoch": 0.896301531213192,
      "grad_norm": 6.602806568145752,
      "learning_rate": 5.3694646668257855e-06,
      "loss": 0.3698,
      "step": 1189
    },
    {
      "epoch": 0.897055359246172,
      "grad_norm": 7.17775821685791,
      "learning_rate": 5.292619645149433e-06,
      "loss": 0.4266,
      "step": 1190
    },
    {
      "epoch": 0.8978091872791519,
      "grad_norm": 7.022253036499023,
      "learning_rate": 5.2163135279773904e-06,
      "loss": 0.3885,
      "step": 1191
    },
    {
      "epoch": 0.8985630153121319,
      "grad_norm": 7.834957599639893,
      "learning_rate": 5.140546749507136e-06,
      "loss": 0.4484,
      "step": 1192
    },
    {
      "epoch": 0.8993168433451119,
      "grad_norm": 8.505350112915039,
      "learning_rate": 5.06531974086728e-06,
      "loss": 0.4535,
      "step": 1193
    },
    {
      "epoch": 0.9000706713780918,
      "grad_norm": 8.074254035949707,
      "learning_rate": 4.9906329301149914e-06,
      "loss": 0.4528,
      "step": 1194
    },
    {
      "epoch": 0.9008244994110719,
      "grad_norm": 8.195548057556152,
      "learning_rate": 4.916486742233606e-06,
      "loss": 0.447,
      "step": 1195
    },
    {
      "epoch": 0.9015783274440519,
      "grad_norm": 9.020340919494629,
      "learning_rate": 4.8428815991302005e-06,
      "loss": 0.4507,
      "step": 1196
    },
    {
      "epoch": 0.9023321554770318,
      "grad_norm": 9.480902671813965,
      "learning_rate": 4.769817919633235e-06,
      "loss": 0.4905,
      "step": 1197
    },
    {
      "epoch": 0.9030859835100118,
      "grad_norm": 9.953953742980957,
      "learning_rate": 4.697296119490047e-06,
      "loss": 0.4291,
      "step": 1198
    },
    {
      "epoch": 0.9038398115429918,
      "grad_norm": 9.974310874938965,
      "learning_rate": 4.625316611364661e-06,
      "loss": 0.4283,
      "step": 1199
    },
    {
      "epoch": 0.9045936395759717,
      "grad_norm": 12.497854232788086,
      "learning_rate": 4.553879804835282e-06,
      "loss": 0.4614,
      "step": 1200
    },
    {
      "epoch": 0.9053474676089517,
      "grad_norm": 4.8798136711120605,
      "learning_rate": 4.482986106392073e-06,
      "loss": 0.4771,
      "step": 1201
    },
    {
      "epoch": 0.9061012956419316,
      "grad_norm": 4.956184387207031,
      "learning_rate": 4.412635919434749e-06,
      "loss": 0.4444,
      "step": 1202
    },
    {
      "epoch": 0.9068551236749116,
      "grad_norm": 5.346173286437988,
      "learning_rate": 4.342829644270429e-06,
      "loss": 0.4442,
      "step": 1203
    },
    {
      "epoch": 0.9076089517078917,
      "grad_norm": 5.293701648712158,
      "learning_rate": 4.273567678111123e-06,
      "loss": 0.4614,
      "step": 1204
    },
    {
      "epoch": 0.9083627797408717,
      "grad_norm": 5.237243175506592,
      "learning_rate": 4.204850415071748e-06,
      "loss": 0.4512,
      "step": 1205
    },
    {
      "epoch": 0.9091166077738516,
      "grad_norm": 5.3798604011535645,
      "learning_rate": 4.136678246167636e-06,
      "loss": 0.4286,
      "step": 1206
    },
    {
      "epoch": 0.9098704358068316,
      "grad_norm": 5.367835998535156,
      "learning_rate": 4.069051559312531e-06,
      "loss": 0.4139,
      "step": 1207
    },
    {
      "epoch": 0.9106242638398115,
      "grad_norm": 5.50463342666626,
      "learning_rate": 4.001970739316163e-06,
      "loss": 0.4407,
      "step": 1208
    },
    {
      "epoch": 0.9113780918727915,
      "grad_norm": 5.295793056488037,
      "learning_rate": 3.935436167882234e-06,
      "loss": 0.418,
      "step": 1209
    },
    {
      "epoch": 0.9121319199057715,
      "grad_norm": 5.284564018249512,
      "learning_rate": 3.869448223606165e-06,
      "loss": 0.4096,
      "step": 1210
    },
    {
      "epoch": 0.9128857479387514,
      "grad_norm": 5.553956031799316,
      "learning_rate": 3.8040072819729545e-06,
      "loss": 0.4141,
      "step": 1211
    },
    {
      "epoch": 0.9136395759717314,
      "grad_norm": 5.626007080078125,
      "learning_rate": 3.7391137153550137e-06,
      "loss": 0.4138,
      "step": 1212
    },
    {
      "epoch": 0.9143934040047115,
      "grad_norm": 5.603013038635254,
      "learning_rate": 3.6747678930101558e-06,
      "loss": 0.4148,
      "step": 1213
    },
    {
      "epoch": 0.9151472320376914,
      "grad_norm": 5.539734363555908,
      "learning_rate": 3.6109701810793208e-06,
      "loss": 0.4181,
      "step": 1214
    },
    {
      "epoch": 0.9159010600706714,
      "grad_norm": 5.379584789276123,
      "learning_rate": 3.5477209425846538e-06,
      "loss": 0.4015,
      "step": 1215
    },
    {
      "epoch": 0.9166548881036514,
      "grad_norm": 5.433023929595947,
      "learning_rate": 3.4850205374273416e-06,
      "loss": 0.398,
      "step": 1216
    },
    {
      "epoch": 0.9174087161366313,
      "grad_norm": 5.5849199295043945,
      "learning_rate": 3.4228693223856136e-06,
      "loss": 0.4165,
      "step": 1217
    },
    {
      "epoch": 0.9181625441696113,
      "grad_norm": 5.703511714935303,
      "learning_rate": 3.361267651112676e-06,
      "loss": 0.422,
      "step": 1218
    },
    {
      "epoch": 0.9189163722025913,
      "grad_norm": 5.733764171600342,
      "learning_rate": 3.30021587413476e-06,
      "loss": 0.4017,
      "step": 1219
    },
    {
      "epoch": 0.9196702002355712,
      "grad_norm": 5.802048206329346,
      "learning_rate": 3.2397143388489983e-06,
      "loss": 0.3935,
      "step": 1220
    },
    {
      "epoch": 0.9204240282685512,
      "grad_norm": 5.458968639373779,
      "learning_rate": 3.1797633895216394e-06,
      "loss": 0.3783,
      "step": 1221
    },
    {
      "epoch": 0.9211778563015313,
      "grad_norm": 5.353023052215576,
      "learning_rate": 3.120363367285917e-06,
      "loss": 0.3788,
      "step": 1222
    },
    {
      "epoch": 0.9219316843345112,
      "grad_norm": 5.518474578857422,
      "learning_rate": 3.0615146101401925e-06,
      "loss": 0.3944,
      "step": 1223
    },
    {
      "epoch": 0.9226855123674912,
      "grad_norm": 5.713134765625,
      "learning_rate": 3.0032174529460165e-06,
      "loss": 0.3953,
      "step": 1224
    },
    {
      "epoch": 0.9234393404004712,
      "grad_norm": 6.142655372619629,
      "learning_rate": 2.945472227426227e-06,
      "loss": 0.4168,
      "step": 1225
    },
    {
      "epoch": 0.9241931684334511,
      "grad_norm": 5.580604553222656,
      "learning_rate": 2.8882792621630406e-06,
      "loss": 0.3642,
      "step": 1226
    },
    {
      "epoch": 0.9249469964664311,
      "grad_norm": 5.7619757652282715,
      "learning_rate": 2.8316388825962324e-06,
      "loss": 0.3708,
      "step": 1227
    },
    {
      "epoch": 0.925700824499411,
      "grad_norm": 6.232563018798828,
      "learning_rate": 2.7755514110212264e-06,
      "loss": 0.4063,
      "step": 1228
    },
    {
      "epoch": 0.926454652532391,
      "grad_norm": 5.895346164703369,
      "learning_rate": 2.7200171665872742e-06,
      "loss": 0.399,
      "step": 1229
    },
    {
      "epoch": 0.927208480565371,
      "grad_norm": 5.760490894317627,
      "learning_rate": 2.6650364652956894e-06,
      "loss": 0.3785,
      "step": 1230
    },
    {
      "epoch": 0.927962308598351,
      "grad_norm": 5.620173454284668,
      "learning_rate": 2.6106096199979614e-06,
      "loss": 0.3564,
      "step": 1231
    },
    {
      "epoch": 0.928716136631331,
      "grad_norm": 5.84246826171875,
      "learning_rate": 2.5567369403940776e-06,
      "loss": 0.3575,
      "step": 1232
    },
    {
      "epoch": 0.929469964664311,
      "grad_norm": 5.908325672149658,
      "learning_rate": 2.50341873303066e-06,
      "loss": 0.384,
      "step": 1233
    },
    {
      "epoch": 0.9302237926972909,
      "grad_norm": 5.850981712341309,
      "learning_rate": 2.4506553012993093e-06,
      "loss": 0.3704,
      "step": 1234
    },
    {
      "epoch": 0.9309776207302709,
      "grad_norm": 6.301943778991699,
      "learning_rate": 2.398446945434818e-06,
      "loss": 0.385,
      "step": 1235
    },
    {
      "epoch": 0.9317314487632509,
      "grad_norm": 6.557477951049805,
      "learning_rate": 2.346793962513483e-06,
      "loss": 0.3607,
      "step": 1236
    },
    {
      "epoch": 0.9324852767962308,
      "grad_norm": 6.442347049713135,
      "learning_rate": 2.2956966464514175e-06,
      "loss": 0.3829,
      "step": 1237
    },
    {
      "epoch": 0.9332391048292108,
      "grad_norm": 7.224841594696045,
      "learning_rate": 2.245155288002876e-06,
      "loss": 0.3964,
      "step": 1238
    },
    {
      "epoch": 0.9339929328621908,
      "grad_norm": 7.129518032073975,
      "learning_rate": 2.1951701747585982e-06,
      "loss": 0.3682,
      "step": 1239
    },
    {
      "epoch": 0.9347467608951708,
      "grad_norm": 6.685035228729248,
      "learning_rate": 2.1457415911442013e-06,
      "loss": 0.4049,
      "step": 1240
    },
    {
      "epoch": 0.9355005889281508,
      "grad_norm": 7.421708583831787,
      "learning_rate": 2.0968698184184565e-06,
      "loss": 0.4029,
      "step": 1241
    },
    {
      "epoch": 0.9362544169611308,
      "grad_norm": 7.260560989379883,
      "learning_rate": 2.04855513467187e-06,
      "loss": 0.4232,
      "step": 1242
    },
    {
      "epoch": 0.9370082449941107,
      "grad_norm": 8.069437980651855,
      "learning_rate": 2.000797814824906e-06,
      "loss": 0.4409,
      "step": 1243
    },
    {
      "epoch": 0.9377620730270907,
      "grad_norm": 7.945827960968018,
      "learning_rate": 1.9535981306265884e-06,
      "loss": 0.4244,
      "step": 1244
    },
    {
      "epoch": 0.9385159010600707,
      "grad_norm": 8.818882942199707,
      "learning_rate": 1.9069563506527998e-06,
      "loss": 0.4722,
      "step": 1245
    },
    {
      "epoch": 0.9392697290930506,
      "grad_norm": 8.6805419921875,
      "learning_rate": 1.8608727403049309e-06,
      "loss": 0.4574,
      "step": 1246
    },
    {
      "epoch": 0.9400235571260306,
      "grad_norm": 8.550375938415527,
      "learning_rate": 1.8153475618081673e-06,
      "loss": 0.4289,
      "step": 1247
    },
    {
      "epoch": 0.9407773851590105,
      "grad_norm": 9.816337585449219,
      "learning_rate": 1.7703810742101813e-06,
      "loss": 0.4884,
      "step": 1248
    },
    {
      "epoch": 0.9415312131919906,
      "grad_norm": 9.228532791137695,
      "learning_rate": 1.7259735333795545e-06,
      "loss": 0.4282,
      "step": 1249
    },
    {
      "epoch": 0.9422850412249706,
      "grad_norm": 12.300414085388184,
      "learning_rate": 1.6821251920043246e-06,
      "loss": 0.4527,
      "step": 1250
    },
    {
      "epoch": 0.9430388692579506,
      "grad_norm": 5.250865459442139,
      "learning_rate": 1.6388362995905848e-06,
      "loss": 0.509,
      "step": 1251
    },
    {
      "epoch": 0.9437926972909305,
      "grad_norm": 5.213113307952881,
      "learning_rate": 1.5961071024610752e-06,
      "loss": 0.4615,
      "step": 1252
    },
    {
      "epoch": 0.9445465253239105,
      "grad_norm": 5.200348377227783,
      "learning_rate": 1.5539378437536944e-06,
      "loss": 0.4463,
      "step": 1253
    },
    {
      "epoch": 0.9453003533568904,
      "grad_norm": 5.2860941886901855,
      "learning_rate": 1.5123287634202454e-06,
      "loss": 0.4441,
      "step": 1254
    },
    {
      "epoch": 0.9460541813898704,
      "grad_norm": 5.183274269104004,
      "learning_rate": 1.4712800982249474e-06,
      "loss": 0.4292,
      "step": 1255
    },
    {
      "epoch": 0.9468080094228504,
      "grad_norm": 5.593634605407715,
      "learning_rate": 1.430792081743182e-06,
      "loss": 0.4589,
      "step": 1256
    },
    {
      "epoch": 0.9475618374558303,
      "grad_norm": 5.3267388343811035,
      "learning_rate": 1.3908649443600707e-06,
      "loss": 0.4336,
      "step": 1257
    },
    {
      "epoch": 0.9483156654888104,
      "grad_norm": 5.741166114807129,
      "learning_rate": 1.351498913269289e-06,
      "loss": 0.4008,
      "step": 1258
    },
    {
      "epoch": 0.9490694935217904,
      "grad_norm": 5.336604118347168,
      "learning_rate": 1.3126942124716213e-06,
      "loss": 0.4218,
      "step": 1259
    },
    {
      "epoch": 0.9498233215547703,
      "grad_norm": 5.611804962158203,
      "learning_rate": 1.2744510627738516e-06,
      "loss": 0.4434,
      "step": 1260
    },
    {
      "epoch": 0.9505771495877503,
      "grad_norm": 5.724870204925537,
      "learning_rate": 1.2367696817873419e-06,
      "loss": 0.4227,
      "step": 1261
    },
    {
      "epoch": 0.9513309776207303,
      "grad_norm": 5.307777404785156,
      "learning_rate": 1.1996502839269453e-06,
      "loss": 0.4002,
      "step": 1262
    },
    {
      "epoch": 0.9520848056537102,
      "grad_norm": 5.79971170425415,
      "learning_rate": 1.1630930804096495e-06,
      "loss": 0.405,
      "step": 1263
    },
    {
      "epoch": 0.9528386336866902,
      "grad_norm": 5.324243068695068,
      "learning_rate": 1.127098279253491e-06,
      "loss": 0.4043,
      "step": 1264
    },
    {
      "epoch": 0.9535924617196702,
      "grad_norm": 5.532378673553467,
      "learning_rate": 1.0916660852763216e-06,
      "loss": 0.4068,
      "step": 1265
    },
    {
      "epoch": 0.9543462897526501,
      "grad_norm": 5.695662021636963,
      "learning_rate": 1.0567967000945866e-06,
      "loss": 0.4286,
      "step": 1266
    },
    {
      "epoch": 0.9551001177856302,
      "grad_norm": 5.8561482429504395,
      "learning_rate": 1.0224903221222938e-06,
      "loss": 0.4249,
      "step": 1267
    },
    {
      "epoch": 0.9558539458186102,
      "grad_norm": 5.72511625289917,
      "learning_rate": 9.88747146569813e-07,
      "loss": 0.4021,
      "step": 1268
    },
    {
      "epoch": 0.9566077738515901,
      "grad_norm": 5.385478973388672,
      "learning_rate": 9.555673654427332e-07,
      "loss": 0.3788,
      "step": 1269
    },
    {
      "epoch": 0.9573616018845701,
      "grad_norm": 5.669264316558838,
      "learning_rate": 9.229511675408642e-07,
      "loss": 0.4148,
      "step": 1270
    },
    {
      "epoch": 0.95811542991755,
      "grad_norm": 5.313277244567871,
      "learning_rate": 8.90898738457091e-07,
      "loss": 0.3641,
      "step": 1271
    },
    {
      "epoch": 0.95886925795053,
      "grad_norm": 5.480482578277588,
      "learning_rate": 8.59410260576321e-07,
      "loss": 0.3971,
      "step": 1272
    },
    {
      "epoch": 0.95962308598351,
      "grad_norm": 5.8209757804870605,
      "learning_rate": 8.28485913074506e-07,
      "loss": 0.3919,
      "step": 1273
    },
    {
      "epoch": 0.96037691401649,
      "grad_norm": 5.919877052307129,
      "learning_rate": 7.981258719175322e-07,
      "loss": 0.3863,
      "step": 1274
    },
    {
      "epoch": 0.9611307420494699,
      "grad_norm": 5.9404144287109375,
      "learning_rate": 7.683303098602989e-07,
      "loss": 0.4059,
      "step": 1275
    },
    {
      "epoch": 0.96188457008245,
      "grad_norm": 5.609850883483887,
      "learning_rate": 7.39099396445686e-07,
      "loss": 0.3697,
      "step": 1276
    },
    {
      "epoch": 0.96263839811543,
      "grad_norm": 5.695891857147217,
      "learning_rate": 7.104332980036211e-07,
      "loss": 0.3917,
      "step": 1277
    },
    {
      "epoch": 0.9633922261484099,
      "grad_norm": 5.932850360870361,
      "learning_rate": 6.823321776501024e-07,
      "loss": 0.415,
      "step": 1278
    },
    {
      "epoch": 0.9641460541813899,
      "grad_norm": 6.023778438568115,
      "learning_rate": 6.547961952863002e-07,
      "loss": 0.3817,
      "step": 1279
    },
    {
      "epoch": 0.9648998822143698,
      "grad_norm": 5.926705360412598,
      "learning_rate": 6.278255075976125e-07,
      "loss": 0.3884,
      "step": 1280
    },
    {
      "epoch": 0.9656537102473498,
      "grad_norm": 5.837738513946533,
      "learning_rate": 6.014202680528324e-07,
      "loss": 0.3598,
      "step": 1281
    },
    {
      "epoch": 0.9664075382803298,
      "grad_norm": 6.178413391113281,
      "learning_rate": 5.755806269031827e-07,
      "loss": 0.3917,
      "step": 1282
    },
    {
      "epoch": 0.9671613663133097,
      "grad_norm": 6.282332897186279,
      "learning_rate": 5.503067311815713e-07,
      "loss": 0.4286,
      "step": 1283
    },
    {
      "epoch": 0.9679151943462897,
      "grad_norm": 6.746578216552734,
      "learning_rate": 5.255987247016591e-07,
      "loss": 0.4118,
      "step": 1284
    },
    {
      "epoch": 0.9686690223792698,
      "grad_norm": 6.075422763824463,
      "learning_rate": 5.014567480570831e-07,
      "loss": 0.3829,
      "step": 1285
    },
    {
      "epoch": 0.9694228504122497,
      "grad_norm": 6.149974346160889,
      "learning_rate": 4.778809386206895e-07,
      "loss": 0.3847,
      "step": 1286
    },
    {
      "epoch": 0.9701766784452297,
      "grad_norm": 6.333911418914795,
      "learning_rate": 4.548714305436685e-07,
      "loss": 0.3638,
      "step": 1287
    },
    {
      "epoch": 0.9709305064782097,
      "grad_norm": 6.391441345214844,
      "learning_rate": 4.324283547548658e-07,
      "loss": 0.3893,
      "step": 1288
    },
    {
      "epoch": 0.9716843345111896,
      "grad_norm": 6.624934196472168,
      "learning_rate": 4.1055183896001606e-07,
      "loss": 0.378,
      "step": 1289
    },
    {
      "epoch": 0.9724381625441696,
      "grad_norm": 6.473977565765381,
      "learning_rate": 3.892420076409886e-07,
      "loss": 0.366,
      "step": 1290
    },
    {
      "epoch": 0.9731919905771496,
      "grad_norm": 6.985432147979736,
      "learning_rate": 3.68498982055121e-07,
      "loss": 0.4335,
      "step": 1291
    },
    {
      "epoch": 0.9739458186101295,
      "grad_norm": 7.089210510253906,
      "learning_rate": 3.483228802344973e-07,
      "loss": 0.4066,
      "step": 1292
    },
    {
      "epoch": 0.9746996466431095,
      "grad_norm": 7.46934175491333,
      "learning_rate": 3.2871381698529324e-07,
      "loss": 0.4253,
      "step": 1293
    },
    {
      "epoch": 0.9754534746760896,
      "grad_norm": 8.461312294006348,
      "learning_rate": 3.0967190388712097e-07,
      "loss": 0.4596,
      "step": 1294
    },
    {
      "epoch": 0.9762073027090695,
      "grad_norm": 8.289325714111328,
      "learning_rate": 2.9119724929239645e-07,
      "loss": 0.4382,
      "step": 1295
    },
    {
      "epoch": 0.9769611307420495,
      "grad_norm": 8.890064239501953,
      "learning_rate": 2.7328995832568426e-07,
      "loss": 0.4469,
      "step": 1296
    },
    {
      "epoch": 0.9777149587750295,
      "grad_norm": 8.737083435058594,
      "learning_rate": 2.5595013288318703e-07,
      "loss": 0.4262,
      "step": 1297
    },
    {
      "epoch": 0.9784687868080094,
      "grad_norm": 9.281461715698242,
      "learning_rate": 2.391778716320792e-07,
      "loss": 0.4036,
      "step": 1298
    },
    {
      "epoch": 0.9792226148409894,
      "grad_norm": 9.91952896118164,
      "learning_rate": 2.2297327000996293e-07,
      "loss": 0.4469,
      "step": 1299
    },
    {
      "epoch": 0.9799764428739693,
      "grad_norm": 11.952555656433105,
      "learning_rate": 2.0733642022437994e-07,
      "loss": 0.4597,
      "step": 1300
    },
    {
      "epoch": 0.9807302709069493,
      "grad_norm": 5.1298322677612305,
      "learning_rate": 1.922674112522227e-07,
      "loss": 0.478,
      "step": 1301
    },
    {
      "epoch": 0.9814840989399294,
      "grad_norm": 5.572525501251221,
      "learning_rate": 1.7776632883924615e-07,
      "loss": 0.4829,
      "step": 1302
    },
    {
      "epoch": 0.9822379269729093,
      "grad_norm": 5.343718528747559,
      "learning_rate": 1.638332554996125e-07,
      "loss": 0.4319,
      "step": 1303
    },
    {
      "epoch": 0.9829917550058893,
      "grad_norm": 5.716027736663818,
      "learning_rate": 1.5046827051536928e-07,
      "loss": 0.4378,
      "step": 1304
    },
    {
      "epoch": 0.9837455830388693,
      "grad_norm": 5.513693809509277,
      "learning_rate": 1.3767144993602766e-07,
      "loss": 0.4235,
      "step": 1305
    },
    {
      "epoch": 0.9844994110718492,
      "grad_norm": 5.508944988250732,
      "learning_rate": 1.254428665781515e-07,
      "loss": 0.4007,
      "step": 1306
    },
    {
      "epoch": 0.9852532391048292,
      "grad_norm": 5.180131435394287,
      "learning_rate": 1.1378259002488013e-07,
      "loss": 0.3939,
      "step": 1307
    },
    {
      "epoch": 0.9860070671378092,
      "grad_norm": 5.590184688568115,
      "learning_rate": 1.0269068662560611e-07,
      "loss": 0.4166,
      "step": 1308
    },
    {
      "epoch": 0.9867608951707891,
      "grad_norm": 5.44436502456665,
      "learning_rate": 9.216721949553142e-08,
      "loss": 0.4047,
      "step": 1309
    },
    {
      "epoch": 0.9875147232037691,
      "grad_norm": 5.489165782928467,
      "learning_rate": 8.221224851535647e-08,
      "loss": 0.3999,
      "step": 1310
    },
    {
      "epoch": 0.9882685512367492,
      "grad_norm": 5.663797855377197,
      "learning_rate": 7.282583033091372e-08,
      "loss": 0.3842,
      "step": 1311
    },
    {
      "epoch": 0.9890223792697291,
      "grad_norm": 5.638896942138672,
      "learning_rate": 6.400801835286796e-08,
      "loss": 0.3977,
      "step": 1312
    },
    {
      "epoch": 0.9897762073027091,
      "grad_norm": 5.8632307052612305,
      "learning_rate": 5.57588627563721e-08,
      "loss": 0.3579,
      "step": 1313
    },
    {
      "epoch": 0.9905300353356891,
      "grad_norm": 5.826532363891602,
      "learning_rate": 4.807841048082296e-08,
      "loss": 0.4088,
      "step": 1314
    },
    {
      "epoch": 0.991283863368669,
      "grad_norm": 5.712516784667969,
      "learning_rate": 4.096670522959478e-08,
      "loss": 0.3853,
      "step": 1315
    },
    {
      "epoch": 0.992037691401649,
      "grad_norm": 6.0777459144592285,
      "learning_rate": 3.442378746972841e-08,
      "loss": 0.4111,
      "step": 1316
    },
    {
      "epoch": 0.992791519434629,
      "grad_norm": 5.916062831878662,
      "learning_rate": 2.844969443178691e-08,
      "loss": 0.3821,
      "step": 1317
    },
    {
      "epoch": 0.9935453474676089,
      "grad_norm": 5.911341190338135,
      "learning_rate": 2.304446010958916e-08,
      "loss": 0.38,
      "step": 1318
    },
    {
      "epoch": 0.9942991755005889,
      "grad_norm": 6.334498405456543,
      "learning_rate": 1.8208115260032187e-08,
      "loss": 0.3812,
      "step": 1319
    },
    {
      "epoch": 0.995053003533569,
      "grad_norm": 6.576707363128662,
      "learning_rate": 1.3940687402924646e-08,
      "loss": 0.3858,
      "step": 1320
    },
    {
      "epoch": 0.9958068315665489,
      "grad_norm": 6.39242696762085,
      "learning_rate": 1.0242200820786974e-08,
      "loss": 0.3661,
      "step": 1321
    },
    {
      "epoch": 0.9965606595995289,
      "grad_norm": 7.869157791137695,
      "learning_rate": 7.112676558784781e-09,
      "loss": 0.3966,
      "step": 1322
    },
    {
      "epoch": 0.9973144876325089,
      "grad_norm": 7.689291954040527,
      "learning_rate": 4.552132424562317e-09,
      "loss": 0.4297,
      "step": 1323
    },
    {
      "epoch": 0.9980683156654888,
      "grad_norm": 8.572519302368164,
      "learning_rate": 2.5605829881203414e-09,
      "loss": 0.451,
      "step": 1324
    },
    {
      "epoch": 0.9988221436984688,
      "grad_norm": 9.072525024414062,
      "learning_rate": 1.1380395818050282e-09,
      "loss": 0.4373,
      "step": 1325
    },
    {
      "epoch": 0.9995759717314487,
      "grad_norm": 9.224164962768555,
      "learning_rate": 2.8451030018583623e-10,
      "loss": 0.4368,
      "step": 1326
    },
    {
      "epoch": 1.0007067137809187,
      "grad_norm": 5.4062819480896,
      "learning_rate": 0.0,
      "loss": 0.4839,
      "step": 1327
    }
  ],
  "logging_steps": 1,
  "max_steps": 1327,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 332,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.8606342447625667e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}