{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.9928400954653938,
  "eval_steps": 500,
  "global_step": 418,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00477326968973747,
      "grad_norm": 6.016661782287111,
      "learning_rate": 9.523809523809523e-08,
      "loss": 1.0606,
      "step": 1
    },
    {
      "epoch": 0.00954653937947494,
      "grad_norm": 6.0953583965166676,
      "learning_rate": 1.9047619047619045e-07,
      "loss": 1.0205,
      "step": 2
    },
    {
      "epoch": 0.014319809069212411,
      "grad_norm": 5.545005089565625,
      "learning_rate": 2.857142857142857e-07,
      "loss": 1.0092,
      "step": 3
    },
    {
      "epoch": 0.01909307875894988,
      "grad_norm": 6.013893802513984,
      "learning_rate": 3.809523809523809e-07,
      "loss": 0.9935,
      "step": 4
    },
    {
      "epoch": 0.02386634844868735,
      "grad_norm": 5.376025361134291,
      "learning_rate": 4.761904761904761e-07,
      "loss": 1.0184,
      "step": 5
    },
    {
      "epoch": 0.028639618138424822,
      "grad_norm": 5.360630219441705,
      "learning_rate": 5.714285714285714e-07,
      "loss": 1.0072,
      "step": 6
    },
    {
      "epoch": 0.03341288782816229,
      "grad_norm": 5.135874756495844,
      "learning_rate": 6.666666666666666e-07,
      "loss": 0.9987,
      "step": 7
    },
    {
      "epoch": 0.03818615751789976,
      "grad_norm": 4.183937042855387,
      "learning_rate": 7.619047619047618e-07,
      "loss": 0.9639,
      "step": 8
    },
    {
      "epoch": 0.04295942720763723,
      "grad_norm": 4.099248159117762,
      "learning_rate": 8.57142857142857e-07,
      "loss": 0.9497,
      "step": 9
    },
    {
      "epoch": 0.0477326968973747,
      "grad_norm": 4.049680347020253,
      "learning_rate": 9.523809523809522e-07,
      "loss": 0.9488,
      "step": 10
    },
    {
      "epoch": 0.05250596658711217,
      "grad_norm": 3.3413136627880506,
      "learning_rate": 1.0476190476190476e-06,
      "loss": 0.925,
      "step": 11
    },
    {
      "epoch": 0.057279236276849645,
      "grad_norm": 3.0774268853711955,
      "learning_rate": 1.1428571428571428e-06,
      "loss": 0.9231,
      "step": 12
    },
    {
      "epoch": 0.06205250596658711,
      "grad_norm": 2.911361629869161,
      "learning_rate": 1.238095238095238e-06,
      "loss": 0.9177,
      "step": 13
    },
    {
      "epoch": 0.06682577565632458,
      "grad_norm": 2.428528787361087,
      "learning_rate": 1.3333333333333332e-06,
      "loss": 0.8811,
      "step": 14
    },
    {
      "epoch": 0.07159904534606205,
      "grad_norm": 1.8195746682720535,
      "learning_rate": 1.4285714285714286e-06,
      "loss": 0.8533,
      "step": 15
    },
    {
      "epoch": 0.07637231503579953,
      "grad_norm": 1.947836891057091,
      "learning_rate": 1.5238095238095236e-06,
      "loss": 0.8706,
      "step": 16
    },
    {
      "epoch": 0.081145584725537,
      "grad_norm": 1.8462478481431221,
      "learning_rate": 1.619047619047619e-06,
      "loss": 0.8208,
      "step": 17
    },
    {
      "epoch": 0.08591885441527446,
      "grad_norm": 2.137106522697402,
      "learning_rate": 1.714285714285714e-06,
      "loss": 0.8181,
      "step": 18
    },
    {
      "epoch": 0.09069212410501193,
      "grad_norm": 1.9201958176581,
      "learning_rate": 1.8095238095238095e-06,
      "loss": 0.8245,
      "step": 19
    },
    {
      "epoch": 0.0954653937947494,
      "grad_norm": 1.523269971944646,
      "learning_rate": 1.9047619047619045e-06,
      "loss": 0.7545,
      "step": 20
    },
    {
      "epoch": 0.10023866348448687,
      "grad_norm": 1.8071688523978784,
      "learning_rate": 2e-06,
      "loss": 0.776,
      "step": 21
    },
    {
      "epoch": 0.10501193317422435,
      "grad_norm": 1.5489776099138406,
      "learning_rate": 1.9999686897547167e-06,
      "loss": 0.7445,
      "step": 22
    },
    {
      "epoch": 0.10978520286396182,
      "grad_norm": 1.483755076083143,
      "learning_rate": 1.9998747609795305e-06,
      "loss": 0.7351,
      "step": 23
    },
    {
      "epoch": 0.11455847255369929,
      "grad_norm": 1.4689369885238521,
      "learning_rate": 1.999718219556307e-06,
      "loss": 0.7332,
      "step": 24
    },
    {
      "epoch": 0.11933174224343675,
      "grad_norm": 1.4297615546988631,
      "learning_rate": 1.999499075287747e-06,
      "loss": 0.738,
      "step": 25
    },
    {
      "epoch": 0.12410501193317422,
      "grad_norm": 1.1356908706873299,
      "learning_rate": 1.999217341896772e-06,
      "loss": 0.7089,
      "step": 26
    },
    {
      "epoch": 0.1288782816229117,
      "grad_norm": 1.2895783555833555,
      "learning_rate": 1.998873037025665e-06,
      "loss": 0.6936,
      "step": 27
    },
    {
      "epoch": 0.13365155131264916,
      "grad_norm": 1.1235754706376115,
      "learning_rate": 1.9984661822349665e-06,
      "loss": 0.6785,
      "step": 28
    },
    {
      "epoch": 0.13842482100238662,
      "grad_norm": 1.0872843150821465,
      "learning_rate": 1.997996803002123e-06,
      "loss": 0.6978,
      "step": 29
    },
    {
      "epoch": 0.1431980906921241,
      "grad_norm": 1.0898740583426263,
      "learning_rate": 1.9974649287198914e-06,
      "loss": 0.669,
      "step": 30
    },
    {
      "epoch": 0.14797136038186157,
      "grad_norm": 1.050118078989169,
      "learning_rate": 1.9968705926945013e-06,
      "loss": 0.6674,
      "step": 31
    },
    {
      "epoch": 0.15274463007159905,
      "grad_norm": 0.8999107812930152,
      "learning_rate": 1.9962138321435656e-06,
      "loss": 0.6765,
      "step": 32
    },
    {
      "epoch": 0.1575178997613365,
      "grad_norm": 0.9612552915492341,
      "learning_rate": 1.9954946881937524e-06,
      "loss": 0.6745,
      "step": 33
    },
    {
      "epoch": 0.162291169451074,
      "grad_norm": 0.8921943607730816,
      "learning_rate": 1.994713205878208e-06,
      "loss": 0.6546,
      "step": 34
    },
    {
      "epoch": 0.16706443914081145,
      "grad_norm": 1.1285406074360596,
      "learning_rate": 1.9938694341337393e-06,
      "loss": 0.6612,
      "step": 35
    },
    {
      "epoch": 0.1718377088305489,
      "grad_norm": 0.9414713249176138,
      "learning_rate": 1.9929634257977467e-06,
      "loss": 0.6525,
      "step": 36
    },
    {
      "epoch": 0.1766109785202864,
      "grad_norm": 0.8006257830637218,
      "learning_rate": 1.991995237604916e-06,
      "loss": 0.6465,
      "step": 37
    },
    {
      "epoch": 0.18138424821002386,
      "grad_norm": 0.9526156911755369,
      "learning_rate": 1.9909649301836674e-06,
      "loss": 0.6581,
      "step": 38
    },
    {
      "epoch": 0.18615751789976134,
      "grad_norm": 0.9928551887252647,
      "learning_rate": 1.9898725680523566e-06,
      "loss": 0.6623,
      "step": 39
    },
    {
      "epoch": 0.1909307875894988,
      "grad_norm": 0.9455779960744521,
      "learning_rate": 1.9887182196152367e-06,
      "loss": 0.6527,
      "step": 40
    },
    {
      "epoch": 0.1957040572792363,
      "grad_norm": 0.8607850079912805,
      "learning_rate": 1.9875019571581726e-06,
      "loss": 0.6148,
      "step": 41
    },
    {
      "epoch": 0.20047732696897375,
      "grad_norm": 1.050584563468554,
      "learning_rate": 1.9862238568441165e-06,
      "loss": 0.6288,
      "step": 42
    },
    {
      "epoch": 0.2052505966587112,
      "grad_norm": 0.9453773840363461,
      "learning_rate": 1.9848839987083364e-06,
      "loss": 0.6373,
      "step": 43
    },
    {
      "epoch": 0.2100238663484487,
      "grad_norm": 0.8585148243018186,
      "learning_rate": 1.983482466653407e-06,
      "loss": 0.6401,
      "step": 44
    },
    {
      "epoch": 0.21479713603818615,
      "grad_norm": 0.9814711262628284,
      "learning_rate": 1.982019348443952e-06,
      "loss": 0.6274,
      "step": 45
    },
    {
      "epoch": 0.21957040572792363,
      "grad_norm": 0.9528618373675226,
      "learning_rate": 1.9804947357011523e-06,
      "loss": 0.6694,
      "step": 46
    },
    {
      "epoch": 0.2243436754176611,
      "grad_norm": 0.7974828002980384,
      "learning_rate": 1.978908723897005e-06,
      "loss": 0.6236,
      "step": 47
    },
    {
      "epoch": 0.22911694510739858,
      "grad_norm": 0.8409814486609728,
      "learning_rate": 1.9772614123483485e-06,
      "loss": 0.6408,
      "step": 48
    },
    {
      "epoch": 0.23389021479713604,
      "grad_norm": 0.9308103385624037,
      "learning_rate": 1.9755529042106393e-06,
      "loss": 0.5919,
      "step": 49
    },
    {
      "epoch": 0.2386634844868735,
      "grad_norm": 0.8733866970343211,
      "learning_rate": 1.973783306471495e-06,
      "loss": 0.5969,
      "step": 50
    },
    {
      "epoch": 0.24343675417661098,
      "grad_norm": 0.785222837947662,
      "learning_rate": 1.971952729943994e-06,
      "loss": 0.5973,
      "step": 51
    },
    {
      "epoch": 0.24821002386634844,
      "grad_norm": 0.7734659209134986,
      "learning_rate": 1.9700612892597372e-06,
      "loss": 0.6098,
      "step": 52
    },
    {
      "epoch": 0.2529832935560859,
      "grad_norm": 0.7186573988976016,
      "learning_rate": 1.9681091028616676e-06,
      "loss": 0.5991,
      "step": 53
    },
    {
      "epoch": 0.2577565632458234,
      "grad_norm": 0.7687713083483249,
      "learning_rate": 1.966096292996655e-06,
      "loss": 0.612,
      "step": 54
    },
    {
      "epoch": 0.26252983293556087,
      "grad_norm": 0.8621825025712473,
      "learning_rate": 1.9640229857078413e-06,
      "loss": 0.5949,
      "step": 55
    },
    {
      "epoch": 0.26730310262529833,
      "grad_norm": 0.8257565967386995,
      "learning_rate": 1.9618893108267454e-06,
      "loss": 0.6103,
      "step": 56
    },
    {
      "epoch": 0.2720763723150358,
      "grad_norm": 0.8446529899139308,
      "learning_rate": 1.9596954019651354e-06,
      "loss": 0.5788,
      "step": 57
    },
    {
      "epoch": 0.27684964200477324,
      "grad_norm": 0.7679525180581322,
      "learning_rate": 1.95744139650666e-06,
      "loss": 0.6069,
      "step": 58
    },
    {
      "epoch": 0.28162291169451076,
      "grad_norm": 2.820852049381465,
      "learning_rate": 1.955127435598247e-06,
      "loss": 0.5987,
      "step": 59
    },
    {
      "epoch": 0.2863961813842482,
      "grad_norm": 0.814858484667224,
      "learning_rate": 1.9527536641412637e-06,
      "loss": 0.6112,
      "step": 60
    },
    {
      "epoch": 0.2911694510739857,
      "grad_norm": 0.8763795811271151,
      "learning_rate": 1.950320230782443e-06,
      "loss": 0.5827,
      "step": 61
    },
    {
      "epoch": 0.29594272076372313,
      "grad_norm": 0.7856677046080051,
      "learning_rate": 1.9478272879045763e-06,
      "loss": 0.596,
      "step": 62
    },
    {
      "epoch": 0.30071599045346065,
      "grad_norm": 0.922334054326887,
      "learning_rate": 1.9452749916169685e-06,
      "loss": 0.6131,
      "step": 63
    },
    {
      "epoch": 0.3054892601431981,
      "grad_norm": 0.9217839433257945,
      "learning_rate": 1.942663501745666e-06,
      "loss": 0.6014,
      "step": 64
    },
    {
      "epoch": 0.31026252983293556,
      "grad_norm": 0.7832581576619595,
      "learning_rate": 1.939992981823445e-06,
      "loss": 0.599,
      "step": 65
    },
    {
      "epoch": 0.315035799522673,
      "grad_norm": 0.8859458814902181,
      "learning_rate": 1.9372635990795744e-06,
      "loss": 0.5606,
      "step": 66
    },
    {
      "epoch": 0.3198090692124105,
      "grad_norm": 0.8263334442045513,
      "learning_rate": 1.934475524429339e-06,
      "loss": 0.5845,
      "step": 67
    },
    {
      "epoch": 0.324582338902148,
      "grad_norm": 0.7750993438508201,
      "learning_rate": 1.9316289324633416e-06,
      "loss": 0.5938,
      "step": 68
    },
    {
      "epoch": 0.32935560859188545,
      "grad_norm": 0.8557785609879223,
      "learning_rate": 1.928724001436568e-06,
      "loss": 0.5971,
      "step": 69
    },
    {
      "epoch": 0.3341288782816229,
      "grad_norm": 0.8226562290018226,
      "learning_rate": 1.925760913257224e-06,
      "loss": 0.5896,
      "step": 70
    },
    {
      "epoch": 0.33890214797136037,
      "grad_norm": 0.7875386984949746,
      "learning_rate": 1.922739853475345e-06,
      "loss": 0.5957,
      "step": 71
    },
    {
      "epoch": 0.3436754176610978,
      "grad_norm": 0.7466977444466465,
      "learning_rate": 1.919661011271176e-06,
      "loss": 0.5782,
      "step": 72
    },
    {
      "epoch": 0.34844868735083534,
      "grad_norm": 0.8961994451430955,
      "learning_rate": 1.916524579443327e-06,
      "loss": 0.5912,
      "step": 73
    },
    {
      "epoch": 0.3532219570405728,
      "grad_norm": 0.80271020509165,
      "learning_rate": 1.9133307543966972e-06,
      "loss": 0.568,
      "step": 74
    },
    {
      "epoch": 0.35799522673031026,
      "grad_norm": 9.459451148135054,
      "learning_rate": 1.910079736130178e-06,
      "loss": 0.5831,
      "step": 75
    },
    {
      "epoch": 0.3627684964200477,
      "grad_norm": 0.8049759872673024,
      "learning_rate": 1.9067717282241275e-06,
      "loss": 0.5752,
      "step": 76
    },
    {
      "epoch": 0.36754176610978523,
      "grad_norm": 0.9365222380955207,
      "learning_rate": 1.9034069378276248e-06,
      "loss": 0.6037,
      "step": 77
    },
    {
      "epoch": 0.3723150357995227,
      "grad_norm": 0.7813871400804118,
      "learning_rate": 1.8999855756454943e-06,
      "loss": 0.5814,
      "step": 78
    },
    {
      "epoch": 0.37708830548926014,
      "grad_norm": 0.8403752789759832,
      "learning_rate": 1.8965078559251141e-06,
      "loss": 0.5864,
      "step": 79
    },
    {
      "epoch": 0.3818615751789976,
      "grad_norm": 0.8051967980548511,
      "learning_rate": 1.892973996443e-06,
      "loss": 0.5872,
      "step": 80
    },
    {
      "epoch": 0.38663484486873506,
      "grad_norm": 0.8042594188373205,
      "learning_rate": 1.8893842184911652e-06,
      "loss": 0.5763,
      "step": 81
    },
    {
      "epoch": 0.3914081145584726,
      "grad_norm": 0.9020174309993688,
      "learning_rate": 1.8857387468632673e-06,
      "loss": 0.5663,
      "step": 82
    },
    {
      "epoch": 0.39618138424821003,
      "grad_norm": 0.7886287092080712,
      "learning_rate": 1.8820378098405269e-06,
      "loss": 0.5749,
      "step": 83
    },
    {
      "epoch": 0.4009546539379475,
      "grad_norm": 0.7891386094058271,
      "learning_rate": 1.878281639177437e-06,
      "loss": 0.5791,
      "step": 84
    },
    {
      "epoch": 0.40572792362768495,
      "grad_norm": 0.8638559742903111,
      "learning_rate": 1.874470470087246e-06,
      "loss": 0.594,
      "step": 85
    },
    {
      "epoch": 0.4105011933174224,
      "grad_norm": 0.8722054176885525,
      "learning_rate": 1.8706045412272329e-06,
      "loss": 0.5958,
      "step": 86
    },
    {
      "epoch": 0.4152744630071599,
      "grad_norm": 0.8861516356836725,
      "learning_rate": 1.8666840946837588e-06,
      "loss": 0.5831,
      "step": 87
    },
    {
      "epoch": 0.4200477326968974,
      "grad_norm": 1.1646833402992178,
      "learning_rate": 1.8627093759571097e-06,
      "loss": 0.5773,
      "step": 88
    },
    {
      "epoch": 0.42482100238663484,
      "grad_norm": 1.015546055180046,
      "learning_rate": 1.8586806339461223e-06,
      "loss": 0.567,
      "step": 89
    },
    {
      "epoch": 0.4295942720763723,
      "grad_norm": 0.9466071623549958,
      "learning_rate": 1.8545981209325974e-06,
      "loss": 0.5859,
      "step": 90
    },
    {
      "epoch": 0.4343675417661098,
      "grad_norm": 0.7761872762176855,
      "learning_rate": 1.850462092565503e-06,
      "loss": 0.5786,
      "step": 91
    },
    {
      "epoch": 0.43914081145584727,
      "grad_norm": 0.7212954328261074,
      "learning_rate": 1.846272807844964e-06,
      "loss": 0.5643,
      "step": 92
    },
    {
      "epoch": 0.4439140811455847,
      "grad_norm": 0.9652990021129971,
      "learning_rate": 1.8420305291060453e-06,
      "loss": 0.5772,
      "step": 93
    },
    {
      "epoch": 0.4486873508353222,
      "grad_norm": 3.476043998914064,
      "learning_rate": 1.837735522002322e-06,
      "loss": 0.5973,
      "step": 94
    },
    {
      "epoch": 0.45346062052505964,
      "grad_norm": 0.9648957060855661,
      "learning_rate": 1.8333880554892465e-06,
      "loss": 0.5683,
      "step": 95
    },
    {
      "epoch": 0.45823389021479716,
      "grad_norm": 0.8226895202723103,
      "learning_rate": 1.828988401807304e-06,
      "loss": 0.5631,
      "step": 96
    },
    {
      "epoch": 0.4630071599045346,
      "grad_norm": 0.8353418687299229,
      "learning_rate": 1.8245368364649672e-06,
      "loss": 0.5478,
      "step": 97
    },
    {
      "epoch": 0.4677804295942721,
      "grad_norm": 0.7861845701165756,
      "learning_rate": 1.8200336382214404e-06,
      "loss": 0.5814,
      "step": 98
    },
    {
      "epoch": 0.47255369928400953,
      "grad_norm": 0.7869818557092823,
      "learning_rate": 1.815479089069208e-06,
      "loss": 0.5831,
      "step": 99
    },
    {
      "epoch": 0.477326968973747,
      "grad_norm": 1.0793699054838668,
      "learning_rate": 1.8108734742163714e-06,
      "loss": 0.5711,
      "step": 100
    },
    {
      "epoch": 0.4821002386634845,
      "grad_norm": 0.9191351283369057,
      "learning_rate": 1.8062170820687923e-06,
      "loss": 0.5829,
      "step": 101
    },
    {
      "epoch": 0.48687350835322196,
      "grad_norm": 0.8555793060148964,
      "learning_rate": 1.8015102042120314e-06,
      "loss": 0.5651,
      "step": 102
    },
    {
      "epoch": 0.4916467780429594,
      "grad_norm": 0.8381062392654873,
      "learning_rate": 1.796753135393089e-06,
      "loss": 0.578,
      "step": 103
    },
    {
      "epoch": 0.4964200477326969,
      "grad_norm": 0.9192300787533598,
      "learning_rate": 1.791946173501948e-06,
      "loss": 0.549,
      "step": 104
    },
    {
      "epoch": 0.5011933174224343,
      "grad_norm": 0.8307533286502056,
      "learning_rate": 1.7870896195529204e-06,
      "loss": 0.5427,
      "step": 105
    },
    {
      "epoch": 0.5059665871121718,
      "grad_norm": 0.7905696548307439,
      "learning_rate": 1.7821837776657967e-06,
      "loss": 0.5765,
      "step": 106
    },
    {
      "epoch": 0.5107398568019093,
      "grad_norm": 0.8311340345264336,
      "learning_rate": 1.777228955046803e-06,
      "loss": 0.5627,
      "step": 107
    },
    {
      "epoch": 0.5155131264916468,
      "grad_norm": 1.1408460136923761,
      "learning_rate": 1.7722254619693617e-06,
      "loss": 0.5615,
      "step": 108
    },
    {
      "epoch": 0.5202863961813843,
      "grad_norm": 0.9215940982960842,
      "learning_rate": 1.7671736117546643e-06,
      "loss": 0.559,
      "step": 109
    },
    {
      "epoch": 0.5250596658711217,
      "grad_norm": 0.9073194364535173,
      "learning_rate": 1.7620737207520498e-06,
      "loss": 0.5675,
      "step": 110
    },
    {
      "epoch": 0.5298329355608592,
      "grad_norm": 0.9064733521778133,
      "learning_rate": 1.756926108319194e-06,
      "loss": 0.564,
      "step": 111
    },
    {
      "epoch": 0.5346062052505967,
      "grad_norm": 0.8006367733355821,
      "learning_rate": 1.751731096802113e-06,
      "loss": 0.5697,
      "step": 112
    },
    {
      "epoch": 0.5393794749403341,
      "grad_norm": 0.7703477827683232,
      "learning_rate": 1.7464890115149759e-06,
      "loss": 0.5556,
      "step": 113
    },
    {
      "epoch": 0.5441527446300716,
      "grad_norm": 0.7808625090724881,
      "learning_rate": 1.7412001807197361e-06,
      "loss": 0.5699,
      "step": 114
    },
    {
      "epoch": 0.548926014319809,
      "grad_norm": 0.7891354086520267,
      "learning_rate": 1.735864935605572e-06,
      "loss": 0.5535,
      "step": 115
    },
    {
      "epoch": 0.5536992840095465,
      "grad_norm": 0.8559410057738829,
      "learning_rate": 1.7304836102681493e-06,
      "loss": 0.5456,
      "step": 116
    },
    {
      "epoch": 0.5584725536992841,
      "grad_norm": 1.0113045114994854,
      "learning_rate": 1.7250565416887015e-06,
      "loss": 0.5724,
      "step": 117
    },
    {
      "epoch": 0.5632458233890215,
      "grad_norm": 0.8876991951748312,
      "learning_rate": 1.719584069712925e-06,
      "loss": 0.568,
      "step": 118
    },
    {
      "epoch": 0.568019093078759,
      "grad_norm": 0.8642199309829095,
      "learning_rate": 1.7140665370296992e-06,
      "loss": 0.5501,
      "step": 119
    },
    {
      "epoch": 0.5727923627684964,
      "grad_norm": 0.7976943947559357,
      "learning_rate": 1.708504289149628e-06,
      "loss": 0.586,
      "step": 120
    },
    {
      "epoch": 0.5775656324582339,
      "grad_norm": 0.8256312101115841,
      "learning_rate": 1.702897674383402e-06,
      "loss": 0.5533,
      "step": 121
    },
    {
      "epoch": 0.5823389021479713,
      "grad_norm": 1.0090990785205396,
      "learning_rate": 1.697247043819988e-06,
      "loss": 0.5662,
      "step": 122
    },
    {
      "epoch": 0.5871121718377088,
      "grad_norm": 0.9155456337094188,
      "learning_rate": 1.6915527513046443e-06,
      "loss": 0.5683,
      "step": 123
    },
    {
      "epoch": 0.5918854415274463,
      "grad_norm": 0.8131468025811117,
      "learning_rate": 1.6858151534167616e-06,
      "loss": 0.5621,
      "step": 124
    },
    {
      "epoch": 0.5966587112171837,
      "grad_norm": 0.8064567687343521,
      "learning_rate": 1.6800346094475346e-06,
      "loss": 0.5596,
      "step": 125
    },
    {
      "epoch": 0.6014319809069213,
      "grad_norm": 0.7492395201342102,
      "learning_rate": 1.6742114813774618e-06,
      "loss": 0.5531,
      "step": 126
    },
    {
      "epoch": 0.6062052505966588,
      "grad_norm": 0.7647965464540142,
      "learning_rate": 1.6683461338536798e-06,
      "loss": 0.5832,
      "step": 127
    },
    {
      "epoch": 0.6109785202863962,
      "grad_norm": 0.7808066517921948,
      "learning_rate": 1.6624389341671278e-06,
      "loss": 0.5541,
      "step": 128
    },
    {
      "epoch": 0.6157517899761337,
      "grad_norm": 0.8430152851631113,
      "learning_rate": 1.656490252229548e-06,
      "loss": 0.5528,
      "step": 129
    },
    {
      "epoch": 0.6205250596658711,
      "grad_norm": 0.799740321239669,
      "learning_rate": 1.6505004605503223e-06,
      "loss": 0.5754,
      "step": 130
    },
    {
      "epoch": 0.6252983293556086,
      "grad_norm": 0.8524369396059758,
      "learning_rate": 1.6444699342131428e-06,
      "loss": 0.5659,
      "step": 131
    },
    {
      "epoch": 0.630071599045346,
      "grad_norm": 0.8594592125322017,
      "learning_rate": 1.638399050852528e-06,
      "loss": 0.5468,
      "step": 132
    },
    {
      "epoch": 0.6348448687350835,
      "grad_norm": 0.8710890648276657,
      "learning_rate": 1.632288190630172e-06,
      "loss": 0.5547,
      "step": 133
    },
    {
      "epoch": 0.639618138424821,
      "grad_norm": 1.3695399621239903,
      "learning_rate": 1.6261377362111396e-06,
      "loss": 0.5475,
      "step": 134
    },
    {
      "epoch": 0.6443914081145584,
      "grad_norm": 0.9119912953537386,
      "learning_rate": 1.6199480727399032e-06,
      "loss": 0.5622,
      "step": 135
    },
    {
      "epoch": 0.649164677804296,
      "grad_norm": 0.8174877663301265,
      "learning_rate": 1.6137195878162267e-06,
      "loss": 0.5646,
      "step": 136
    },
    {
      "epoch": 0.6539379474940334,
      "grad_norm": 0.9968710402813645,
      "learning_rate": 1.607452671470891e-06,
      "loss": 0.5524,
      "step": 137
    },
    {
      "epoch": 0.6587112171837709,
      "grad_norm": 0.7838173267581942,
      "learning_rate": 1.601147716141272e-06,
      "loss": 0.5517,
      "step": 138
    },
    {
      "epoch": 0.6634844868735084,
      "grad_norm": 0.8600041378892647,
      "learning_rate": 1.5948051166467657e-06,
      "loss": 0.5664,
      "step": 139
    },
    {
      "epoch": 0.6682577565632458,
      "grad_norm": 0.7393813982622772,
      "learning_rate": 1.5884252701640634e-06,
      "loss": 0.5611,
      "step": 140
    },
    {
      "epoch": 0.6730310262529833,
      "grad_norm": 0.8312116599801993,
      "learning_rate": 1.5820085762022823e-06,
      "loss": 0.5609,
      "step": 141
    },
    {
      "epoch": 0.6778042959427207,
      "grad_norm": 0.782610924284724,
      "learning_rate": 1.5755554365779455e-06,
      "loss": 0.5586,
      "step": 142
    },
    {
      "epoch": 0.6825775656324582,
      "grad_norm": 0.7869375949652244,
      "learning_rate": 1.5690662553898222e-06,
      "loss": 0.5557,
      "step": 143
    },
    {
      "epoch": 0.6873508353221957,
      "grad_norm": 0.7871275055021261,
      "learning_rate": 1.5625414389936218e-06,
      "loss": 0.5379,
      "step": 144
    },
    {
      "epoch": 0.6921241050119332,
      "grad_norm": 0.7978567113817064,
      "learning_rate": 1.555981395976548e-06,
      "loss": 0.5459,
      "step": 145
    },
    {
      "epoch": 0.6968973747016707,
      "grad_norm": 0.8678454065910531,
      "learning_rate": 1.5493865371317123e-06,
      "loss": 0.5538,
      "step": 146
    },
    {
      "epoch": 0.7016706443914081,
      "grad_norm": 0.8640558568867235,
      "learning_rate": 1.542757275432411e-06,
      "loss": 0.5511,
      "step": 147
    },
    {
      "epoch": 0.7064439140811456,
      "grad_norm": 0.8257539417151866,
      "learning_rate": 1.5360940260062635e-06,
      "loss": 0.5395,
      "step": 148
    },
    {
      "epoch": 0.711217183770883,
      "grad_norm": 0.7735477084244853,
      "learning_rate": 1.5293972061092185e-06,
      "loss": 0.5487,
      "step": 149
    },
    {
      "epoch": 0.7159904534606205,
      "grad_norm": 2.21607832896325,
      "learning_rate": 1.522667235099422e-06,
      "loss": 0.5313,
      "step": 150
    },
    {
      "epoch": 0.720763723150358,
      "grad_norm": 0.8260305997634725,
      "learning_rate": 1.515904534410961e-06,
      "loss": 0.548,
      "step": 151
    },
    {
      "epoch": 0.7255369928400954,
      "grad_norm": 0.9282281415854876,
      "learning_rate": 1.5091095275274699e-06,
      "loss": 0.5366,
      "step": 152
    },
    {
      "epoch": 0.7303102625298329,
      "grad_norm": 0.835392664470487,
      "learning_rate": 1.5022826399556133e-06,
      "loss": 0.5365,
      "step": 153
    },
    {
      "epoch": 0.7350835322195705,
      "grad_norm": 1.0014547232970634,
      "learning_rate": 1.4954242991984396e-06,
      "loss": 0.5601,
      "step": 154
    },
    {
      "epoch": 0.7398568019093079,
      "grad_norm": 0.7999358357306402,
      "learning_rate": 1.4885349347286115e-06,
      "loss": 0.549,
      "step": 155
    },
    {
      "epoch": 0.7446300715990454,
      "grad_norm": 0.7456244196208853,
      "learning_rate": 1.4816149779615126e-06,
      "loss": 0.5516,
      "step": 156
    },
    {
      "epoch": 0.7494033412887828,
      "grad_norm": 0.7568817924270603,
      "learning_rate": 1.474664862228229e-06,
      "loss": 0.5572,
      "step": 157
    },
    {
      "epoch": 0.7541766109785203,
      "grad_norm": 0.9329993871672655,
      "learning_rate": 1.467685022748419e-06,
      "loss": 0.5617,
      "step": 158
    },
    {
      "epoch": 0.7589498806682577,
      "grad_norm": 0.7402702977169047,
      "learning_rate": 1.4606758966030534e-06,
      "loss": 0.5426,
      "step": 159
    },
    {
      "epoch": 0.7637231503579952,
      "grad_norm": 0.7912657849322988,
      "learning_rate": 1.4536379227070509e-06,
      "loss": 0.544,
      "step": 160
    },
    {
      "epoch": 0.7684964200477327,
      "grad_norm": 0.8280839624728757,
      "learning_rate": 1.4465715417817888e-06,
      "loss": 0.5435,
      "step": 161
    },
    {
      "epoch": 0.7732696897374701,
      "grad_norm": 0.7376680395132865,
      "learning_rate": 1.4394771963275076e-06,
      "loss": 0.5199,
      "step": 162
    },
    {
      "epoch": 0.7780429594272077,
      "grad_norm": 0.7984252215551224,
      "learning_rate": 1.4323553305955997e-06,
      "loss": 0.5479,
      "step": 163
    },
    {
      "epoch": 0.7828162291169452,
      "grad_norm": 0.788726316639838,
      "learning_rate": 1.4252063905607909e-06,
      "loss": 0.5219,
      "step": 164
    },
    {
      "epoch": 0.7875894988066826,
      "grad_norm": 0.7350598897520126,
      "learning_rate": 1.4180308238932135e-06,
      "loss": 0.531,
      "step": 165
    },
    {
      "epoch": 0.7923627684964201,
      "grad_norm": 0.7786806805958749,
      "learning_rate": 1.410829079930372e-06,
      "loss": 0.5481,
      "step": 166
    },
    {
      "epoch": 0.7971360381861575,
      "grad_norm": 0.9607237271282482,
      "learning_rate": 1.4036016096490064e-06,
      "loss": 0.5478,
      "step": 167
    },
    {
      "epoch": 0.801909307875895,
      "grad_norm": 0.7782148550862285,
      "learning_rate": 1.3963488656368517e-06,
      "loss": 0.535,
      "step": 168
    },
    {
      "epoch": 0.8066825775656324,
      "grad_norm": 0.8100946646751193,
      "learning_rate": 1.389071302064295e-06,
      "loss": 0.5277,
      "step": 169
    },
    {
      "epoch": 0.8114558472553699,
      "grad_norm": 0.7502947220609039,
      "learning_rate": 1.381769374655938e-06,
      "loss": 0.5553,
      "step": 170
    },
    {
      "epoch": 0.8162291169451074,
      "grad_norm": 0.9124000354997026,
      "learning_rate": 1.374443540662057e-06,
      "loss": 0.5518,
      "step": 171
    },
    {
      "epoch": 0.8210023866348448,
      "grad_norm": 0.8409623949497625,
      "learning_rate": 1.3670942588299705e-06,
      "loss": 0.5294,
      "step": 172
    },
    {
      "epoch": 0.8257756563245824,
      "grad_norm": 0.8018568702519514,
      "learning_rate": 1.3597219893753117e-06,
      "loss": 0.5121,
      "step": 173
    },
    {
      "epoch": 0.8305489260143198,
      "grad_norm": 0.9262097539109866,
      "learning_rate": 1.352327193953211e-06,
      "loss": 0.5259,
      "step": 174
    },
    {
      "epoch": 0.8353221957040573,
      "grad_norm": 0.7289872898963717,
      "learning_rate": 1.3449103356293852e-06,
      "loss": 0.5601,
      "step": 175
    },
    {
      "epoch": 0.8400954653937948,
      "grad_norm": 0.7836398407929648,
      "learning_rate": 1.337471878851141e-06,
      "loss": 0.5359,
      "step": 176
    },
    {
      "epoch": 0.8448687350835322,
      "grad_norm": 0.8058359597234802,
      "learning_rate": 1.3300122894182909e-06,
      "loss": 0.5485,
      "step": 177
    },
    {
      "epoch": 0.8496420047732697,
      "grad_norm": 0.9118002301436436,
      "learning_rate": 1.3225320344539842e-06,
      "loss": 0.5562,
      "step": 178
    },
    {
      "epoch": 0.8544152744630071,
      "grad_norm": 0.7609979767002807,
      "learning_rate": 1.315031582375457e-06,
      "loss": 0.5485,
      "step": 179
    },
    {
      "epoch": 0.8591885441527446,
      "grad_norm": 0.7105869344115592,
      "learning_rate": 1.3075114028646974e-06,
      "loss": 0.5444,
      "step": 180
    },
    {
      "epoch": 0.863961813842482,
      "grad_norm": 0.8004311294692876,
      "learning_rate": 1.299971966839036e-06,
      "loss": 0.5481,
      "step": 181
    },
    {
      "epoch": 0.8687350835322196,
      "grad_norm": 0.7667234252631754,
      "learning_rate": 1.292413746421655e-06,
      "loss": 0.5345,
      "step": 182
    },
    {
      "epoch": 0.8735083532219571,
      "grad_norm": 0.7709523318159157,
      "learning_rate": 1.2848372149120246e-06,
      "loss": 0.512,
      "step": 183
    },
    {
      "epoch": 0.8782816229116945,
      "grad_norm": 0.8742048693859581,
      "learning_rate": 1.2772428467562651e-06,
      "loss": 0.55,
      "step": 184
    },
    {
      "epoch": 0.883054892601432,
      "grad_norm": 0.8768649061250284,
      "learning_rate": 1.2696311175174357e-06,
      "loss": 0.5365,
      "step": 185
    },
    {
      "epoch": 0.8878281622911695,
      "grad_norm": 0.8468420712736167,
      "learning_rate": 1.2620025038457554e-06,
      "loss": 0.5421,
      "step": 186
    },
    {
      "epoch": 0.8926014319809069,
      "grad_norm": 0.725877140171063,
      "learning_rate": 1.254357483448755e-06,
      "loss": 0.519,
      "step": 187
    },
    {
      "epoch": 0.8973747016706444,
      "grad_norm": 0.7168188099187686,
      "learning_rate": 1.2466965350613615e-06,
      "loss": 0.5651,
      "step": 188
    },
    {
      "epoch": 0.9021479713603818,
      "grad_norm": 0.8993966404570418,
      "learning_rate": 1.2390201384159219e-06,
      "loss": 0.5603,
      "step": 189
    },
    {
      "epoch": 0.9069212410501193,
      "grad_norm": 0.741646072361816,
      "learning_rate": 1.231328774212159e-06,
      "loss": 0.5157,
      "step": 190
    },
    {
      "epoch": 0.9116945107398569,
      "grad_norm": 0.7741706595084717,
      "learning_rate": 1.223622924087073e-06,
      "loss": 0.5367,
      "step": 191
    },
    {
      "epoch": 0.9164677804295943,
      "grad_norm": 0.760645151447744,
      "learning_rate": 1.215903070584779e-06,
      "loss": 0.5401,
      "step": 192
    },
    {
      "epoch": 0.9212410501193318,
      "grad_norm": 0.7462809840684769,
      "learning_rate": 1.2081696971262903e-06,
      "loss": 0.5458,
      "step": 193
    },
    {
      "epoch": 0.9260143198090692,
      "grad_norm": 0.867349599337623,
      "learning_rate": 1.2004232879792464e-06,
      "loss": 0.5398,
      "step": 194
    },
    {
      "epoch": 0.9307875894988067,
      "grad_norm": 0.7728255267176583,
      "learning_rate": 1.1926643282275882e-06,
      "loss": 0.5343,
      "step": 195
    },
    {
      "epoch": 0.9355608591885441,
      "grad_norm": 0.7946709962404823,
      "learning_rate": 1.1848933037411825e-06,
      "loss": 0.5181,
      "step": 196
    },
    {
      "epoch": 0.9403341288782816,
      "grad_norm": 0.7159173523126642,
      "learning_rate": 1.1771107011453933e-06,
      "loss": 0.5442,
      "step": 197
    },
    {
      "epoch": 0.9451073985680191,
      "grad_norm": 0.8493976289870552,
      "learning_rate": 1.1693170077906143e-06,
      "loss": 0.5467,
      "step": 198
    },
    {
      "epoch": 0.9498806682577565,
      "grad_norm": 0.7390118080756048,
      "learning_rate": 1.1615127117217463e-06,
      "loss": 0.5251,
      "step": 199
    },
    {
      "epoch": 0.954653937947494,
      "grad_norm": 0.7595495597083671,
      "learning_rate": 1.1536983016476373e-06,
      "loss": 0.5368,
      "step": 200
    },
    {
      "epoch": 0.9594272076372315,
      "grad_norm": 0.7399505119485492,
      "learning_rate": 1.1458742669104803e-06,
      "loss": 0.514,
      "step": 201
    },
    {
      "epoch": 0.964200477326969,
      "grad_norm": 0.7693531287817772,
      "learning_rate": 1.1380410974551682e-06,
      "loss": 0.5327,
      "step": 202
    },
    {
      "epoch": 0.9689737470167065,
      "grad_norm": 0.7361655101073081,
      "learning_rate": 1.130199283798615e-06,
      "loss": 0.5152,
      "step": 203
    },
    {
      "epoch": 0.9737470167064439,
      "grad_norm": 0.8174253218643999,
      "learning_rate": 1.1223493169990391e-06,
      "loss": 0.5376,
      "step": 204
    },
    {
      "epoch": 0.9785202863961814,
      "grad_norm": 0.7646163527785592,
      "learning_rate": 1.1144916886252124e-06,
      "loss": 0.5198,
      "step": 205
    },
    {
      "epoch": 0.9832935560859188,
      "grad_norm": 0.7600726494815581,
      "learning_rate": 1.1066268907256782e-06,
      "loss": 0.5358,
      "step": 206
    },
    {
      "epoch": 0.9880668257756563,
      "grad_norm": 0.8292480992474258,
      "learning_rate": 1.098755415797939e-06,
      "loss": 0.5319,
      "step": 207
    },
    {
      "epoch": 0.9928400954653938,
      "grad_norm": 0.7584975382780693,
      "learning_rate": 1.0908777567576168e-06,
      "loss": 0.5453,
      "step": 208
    },
    {
      "epoch": 0.9976133651551312,
      "grad_norm": 0.7360353406613074,
      "learning_rate": 1.0829944069075847e-06,
      "loss": 0.5398,
      "step": 209
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.7360353406613074,
      "learning_rate": 1.0751058599070781e-06,
      "loss": 0.2683,
      "step": 210
    },
    {
      "epoch": 1.0047732696897376,
      "grad_norm": 0.7735348980384088,
      "learning_rate": 1.0672126097407795e-06,
      "loss": 0.4862,
      "step": 211
    },
    {
      "epoch": 1.009546539379475,
      "grad_norm": 0.6892850244639656,
      "learning_rate": 1.0593151506878865e-06,
      "loss": 0.4886,
      "step": 212
    },
    {
      "epoch": 1.0143198090692125,
      "grad_norm": 0.7416432308937427,
      "learning_rate": 1.0514139772911597e-06,
      "loss": 0.4755,
      "step": 213
    },
    {
      "epoch": 1.0190930787589498,
      "grad_norm": 0.6788376232914372,
      "learning_rate": 1.043509584325953e-06,
      "loss": 0.4643,
      "step": 214
    },
    {
      "epoch": 1.0238663484486874,
      "grad_norm": 0.7328906073842687,
      "learning_rate": 1.0356024667692314e-06,
      "loss": 0.4934,
      "step": 215
    },
    {
      "epoch": 1.0286396181384247,
      "grad_norm": 0.7697429459150121,
      "learning_rate": 1.0276931197685753e-06,
      "loss": 0.4976,
      "step": 216
    },
    {
      "epoch": 1.0334128878281623,
      "grad_norm": 0.7939705310040335,
      "learning_rate": 1.0197820386111737e-06,
      "loss": 0.4897,
      "step": 217
    },
    {
      "epoch": 1.0381861575178997,
      "grad_norm": 0.9752936792347606,
      "learning_rate": 1.0118697186928105e-06,
      "loss": 0.4632,
      "step": 218
    },
    {
      "epoch": 1.0429594272076372,
      "grad_norm": 0.810300278966379,
      "learning_rate": 1.0039566554868392e-06,
      "loss": 0.4667,
      "step": 219
    },
    {
      "epoch": 1.0477326968973748,
      "grad_norm": 0.7651633767231123,
      "learning_rate": 9.960433445131607e-07,
      "loss": 0.4913,
      "step": 220
    },
    {
      "epoch": 1.0525059665871122,
      "grad_norm": 0.7783544485209318,
      "learning_rate": 9.881302813071896e-07,
      "loss": 0.485,
      "step": 221
    },
    {
      "epoch": 1.0572792362768497,
      "grad_norm": 0.7728747490030172,
      "learning_rate": 9.802179613888262e-07,
      "loss": 0.4663,
      "step": 222
    },
    {
      "epoch": 1.062052505966587,
      "grad_norm": 0.7199803548701269,
      "learning_rate": 9.723068802314246e-07,
      "loss": 0.4724,
      "step": 223
    },
    {
      "epoch": 1.0668257756563246,
      "grad_norm": 0.8173682429078198,
      "learning_rate": 9.643975332307687e-07,
      "loss": 0.4777,
      "step": 224
    },
    {
      "epoch": 1.071599045346062,
      "grad_norm": 0.9029276240129886,
      "learning_rate": 9.564904156740471e-07,
      "loss": 0.4664,
      "step": 225
    },
    {
      "epoch": 1.0763723150357996,
      "grad_norm": 0.7595074592495551,
      "learning_rate": 9.485860227088405e-07,
      "loss": 0.4808,
      "step": 226
    },
    {
      "epoch": 1.081145584725537,
      "grad_norm": 0.8019805756491788,
      "learning_rate": 9.406848493121134e-07,
      "loss": 0.4764,
      "step": 227
    },
    {
      "epoch": 1.0859188544152745,
      "grad_norm": 0.7750922258239085,
      "learning_rate": 9.327873902592205e-07,
      "loss": 0.4711,
      "step": 228
    },
    {
      "epoch": 1.0906921241050118,
      "grad_norm": 0.7272348247085987,
      "learning_rate": 9.248941400929222e-07,
      "loss": 0.4753,
      "step": 229
    },
    {
      "epoch": 1.0954653937947494,
      "grad_norm": 0.8135968715591004,
      "learning_rate": 9.17005593092415e-07,
      "loss": 0.49,
      "step": 230
    },
    {
      "epoch": 1.100238663484487,
      "grad_norm": 0.784517413630989,
      "learning_rate": 9.09122243242383e-07,
      "loss": 0.4636,
      "step": 231
    },
    {
      "epoch": 1.1050119331742243,
      "grad_norm": 0.7967633635464352,
      "learning_rate": 9.01244584202061e-07,
      "loss": 0.4638,
      "step": 232
    },
    {
      "epoch": 1.1097852028639619,
      "grad_norm": 0.7347125585892648,
      "learning_rate": 8.933731092743219e-07,
      "loss": 0.4951,
      "step": 233
    },
    {
      "epoch": 1.1145584725536992,
      "grad_norm": 0.762506543894173,
      "learning_rate": 8.855083113747875e-07,
      "loss": 0.4715,
      "step": 234
    },
    {
      "epoch": 1.1193317422434368,
      "grad_norm": 0.7657159811972606,
      "learning_rate": 8.776506830009607e-07,
      "loss": 0.4792,
      "step": 235
    },
    {
      "epoch": 1.1241050119331741,
      "grad_norm": 0.7746280343348994,
      "learning_rate": 8.698007162013849e-07,
      "loss": 0.4734,
      "step": 236
    },
    {
      "epoch": 1.1288782816229117,
      "grad_norm": 0.7287940319917965,
      "learning_rate": 8.619589025448318e-07,
      "loss": 0.4899,
      "step": 237
    },
    {
      "epoch": 1.1336515513126493,
      "grad_norm": 0.7283506274833321,
      "learning_rate": 8.541257330895197e-07,
      "loss": 0.461,
      "step": 238
    },
    {
      "epoch": 1.1384248210023866,
      "grad_norm": 1.109020964160513,
      "learning_rate": 8.463016983523627e-07,
      "loss": 0.4789,
      "step": 239
    },
    {
      "epoch": 1.1431980906921242,
      "grad_norm": 0.8916069268430648,
      "learning_rate": 8.384872882782541e-07,
      "loss": 0.4951,
      "step": 240
    },
    {
      "epoch": 1.1479713603818615,
      "grad_norm": 0.7832561259348029,
      "learning_rate": 8.306829922093857e-07,
      "loss": 0.4666,
      "step": 241
    },
    {
      "epoch": 1.152744630071599,
      "grad_norm": 0.7246823419762234,
      "learning_rate": 8.228892988546067e-07,
      "loss": 0.475,
      "step": 242
    },
    {
      "epoch": 1.1575178997613365,
      "grad_norm": 0.705366097498364,
      "learning_rate": 8.15106696258818e-07,
      "loss": 0.4727,
      "step": 243
    },
    {
      "epoch": 1.162291169451074,
      "grad_norm": 0.7563603316000965,
      "learning_rate": 8.073356717724115e-07,
      "loss": 0.4779,
      "step": 244
    },
    {
      "epoch": 1.1670644391408114,
      "grad_norm": 0.7463996376621957,
      "learning_rate": 7.995767120207536e-07,
      "loss": 0.4647,
      "step": 245
    },
    {
      "epoch": 1.171837708830549,
      "grad_norm": 0.7117618711530662,
      "learning_rate": 7.918303028737096e-07,
      "loss": 0.4712,
      "step": 246
    },
    {
      "epoch": 1.1766109785202863,
      "grad_norm": 0.7445420769436453,
      "learning_rate": 7.840969294152211e-07,
      "loss": 0.4747,
      "step": 247
    },
    {
      "epoch": 1.1813842482100239,
      "grad_norm": 0.7339272409779617,
      "learning_rate": 7.763770759129269e-07,
      "loss": 0.4732,
      "step": 248
    },
    {
      "epoch": 1.1861575178997614,
      "grad_norm": 0.7680499628702099,
      "learning_rate": 7.68671225787841e-07,
      "loss": 0.4677,
      "step": 249
    },
    {
      "epoch": 1.1909307875894988,
      "grad_norm": 0.7289596879207738,
      "learning_rate": 7.609798615840785e-07,
      "loss": 0.4788,
      "step": 250
    },
    {
      "epoch": 1.1957040572792363,
      "grad_norm": 0.7375098113291024,
      "learning_rate": 7.533034649386384e-07,
      "loss": 0.456,
      "step": 251
    },
    {
      "epoch": 1.2004773269689737,
      "grad_norm": 0.7788484912408599,
      "learning_rate": 7.456425165512452e-07,
      "loss": 0.4768,
      "step": 252
    },
    {
      "epoch": 1.2052505966587113,
      "grad_norm": 0.7545300469644135,
      "learning_rate": 7.379974961542447e-07,
      "loss": 0.4864,
      "step": 253
    },
    {
      "epoch": 1.2100238663484486,
      "grad_norm": 0.8818787967594464,
      "learning_rate": 7.303688824825646e-07,
      "loss": 0.4768,
      "step": 254
    },
    {
      "epoch": 1.2147971360381862,
      "grad_norm": 0.7762788166887581,
      "learning_rate": 7.227571532437349e-07,
      "loss": 0.4676,
      "step": 255
    },
    {
      "epoch": 1.2195704057279237,
      "grad_norm": 0.674374793234199,
      "learning_rate": 7.151627850879755e-07,
      "loss": 0.4688,
      "step": 256
    },
    {
      "epoch": 1.224343675417661,
      "grad_norm": 0.7391271163895584,
      "learning_rate": 7.075862535783453e-07,
      "loss": 0.4545,
      "step": 257
    },
    {
      "epoch": 1.2291169451073987,
      "grad_norm": 0.7377869581736503,
      "learning_rate": 7.00028033160964e-07,
      "loss": 0.4842,
      "step": 258
    },
    {
      "epoch": 1.233890214797136,
      "grad_norm": 0.7182033053068443,
      "learning_rate": 6.924885971353026e-07,
      "loss": 0.4841,
      "step": 259
    },
    {
      "epoch": 1.2386634844868736,
      "grad_norm": 0.7165206421556828,
      "learning_rate": 6.849684176245431e-07,
      "loss": 0.4485,
      "step": 260
    },
    {
      "epoch": 1.243436754176611,
      "grad_norm": 0.8274126483370449,
      "learning_rate": 6.774679655460158e-07,
      "loss": 0.4632,
      "step": 261
    },
    {
      "epoch": 1.2482100238663485,
      "grad_norm": 0.7849668814937834,
      "learning_rate": 6.699877105817092e-07,
      "loss": 0.4701,
      "step": 262
    },
    {
      "epoch": 1.2529832935560858,
      "grad_norm": 0.7246643685451561,
      "learning_rate": 6.625281211488591e-07,
      "loss": 0.4884,
      "step": 263
    },
    {
      "epoch": 1.2577565632458234,
      "grad_norm": 0.7413214893244733,
      "learning_rate": 6.55089664370615e-07,
      "loss": 0.4821,
      "step": 264
    },
    {
      "epoch": 1.2625298329355608,
      "grad_norm": 0.7307541408287506,
      "learning_rate": 6.476728060467888e-07,
      "loss": 0.4585,
      "step": 265
    },
    {
      "epoch": 1.2673031026252983,
      "grad_norm": 0.7439228818529052,
      "learning_rate": 6.402780106246884e-07,
      "loss": 0.4688,
      "step": 266
    },
    {
      "epoch": 1.272076372315036,
      "grad_norm": 0.7075632105234686,
      "learning_rate": 6.329057411700298e-07,
      "loss": 0.4813,
      "step": 267
    },
    {
      "epoch": 1.2768496420047732,
      "grad_norm": 0.757650326028371,
      "learning_rate": 6.255564593379429e-07,
      "loss": 0.4878,
      "step": 268
    },
    {
      "epoch": 1.2816229116945108,
      "grad_norm": 0.729712295017678,
      "learning_rate": 6.182306253440619e-07,
      "loss": 0.4629,
      "step": 269
    },
    {
      "epoch": 1.2863961813842482,
      "grad_norm": 0.8230987908171445,
      "learning_rate": 6.109286979357051e-07,
      "loss": 0.4842,
      "step": 270
    },
    {
      "epoch": 1.2911694510739857,
      "grad_norm": 0.7878144207218812,
      "learning_rate": 6.036511343631488e-07,
      "loss": 0.4588,
      "step": 271
    },
    {
      "epoch": 1.295942720763723,
      "grad_norm": 0.7162555025211284,
      "learning_rate": 5.963983903509935e-07,
      "loss": 0.4817,
      "step": 272
    },
    {
      "epoch": 1.3007159904534606,
      "grad_norm": 0.7352227500252277,
      "learning_rate": 5.89170920069628e-07,
      "loss": 0.4781,
      "step": 273
    },
    {
      "epoch": 1.3054892601431982,
      "grad_norm": 0.7097358431174013,
      "learning_rate": 5.819691761067865e-07,
      "loss": 0.46,
      "step": 274
    },
    {
      "epoch": 1.3102625298329356,
      "grad_norm": 1.146161188184777,
      "learning_rate": 5.747936094392089e-07,
      "loss": 0.4647,
      "step": 275
    },
    {
      "epoch": 1.315035799522673,
      "grad_norm": 0.7072592435264768,
      "learning_rate": 5.676446694044002e-07,
      "loss": 0.4639,
      "step": 276
    },
    {
      "epoch": 1.3198090692124105,
      "grad_norm": 0.7215149618117556,
      "learning_rate": 5.605228036724927e-07,
      "loss": 0.4652,
      "step": 277
    },
    {
      "epoch": 1.324582338902148,
      "grad_norm": 0.670785774408122,
      "learning_rate": 5.534284582182114e-07,
      "loss": 0.4717,
      "step": 278
    },
    {
      "epoch": 1.3293556085918854,
      "grad_norm": 0.747767864677791,
      "learning_rate": 5.463620772929494e-07,
      "loss": 0.4536,
      "step": 279
    },
    {
      "epoch": 1.334128878281623,
      "grad_norm": 0.8516514509018951,
      "learning_rate": 5.393241033969466e-07,
      "loss": 0.4649,
      "step": 280
    },
    {
      "epoch": 1.3389021479713603,
      "grad_norm": 0.8138001829719436,
      "learning_rate": 5.323149772515812e-07,
      "loss": 0.4668,
      "step": 281
    },
    {
      "epoch": 1.3436754176610979,
      "grad_norm": 0.7576171145048753,
      "learning_rate": 5.253351377717706e-07,
      "loss": 0.4761,
      "step": 282
    },
    {
      "epoch": 1.3484486873508352,
      "grad_norm": 0.8613520066962265,
      "learning_rate": 5.183850220384873e-07,
      "loss": 0.469,
      "step": 283
    },
    {
      "epoch": 1.3532219570405728,
      "grad_norm": 0.766228885306893,
      "learning_rate": 5.114650652713884e-07,
      "loss": 0.4802,
      "step": 284
    },
    {
      "epoch": 1.3579952267303104,
      "grad_norm": 0.7068637893292556,
      "learning_rate": 5.045757008015606e-07,
      "loss": 0.4773,
      "step": 285
    },
    {
      "epoch": 1.3627684964200477,
      "grad_norm": 0.8429657657602729,
      "learning_rate": 4.977173600443868e-07,
      "loss": 0.4605,
      "step": 286
    },
    {
      "epoch": 1.3675417661097853,
      "grad_norm": 0.7007932505507933,
      "learning_rate": 4.908904724725299e-07,
      "loss": 0.4767,
      "step": 287
    },
    {
      "epoch": 1.3723150357995226,
      "grad_norm": 0.7671222670718428,
      "learning_rate": 4.840954655890391e-07,
      "loss": 0.4682,
      "step": 288
    },
    {
      "epoch": 1.3770883054892602,
      "grad_norm": 0.694265618019185,
      "learning_rate": 4.773327649005777e-07,
      "loss": 0.4855,
      "step": 289
    },
    {
      "epoch": 1.3818615751789975,
      "grad_norm": 0.7519150028535938,
      "learning_rate": 4.7060279389078184e-07,
      "loss": 0.4761,
      "step": 290
    },
    {
      "epoch": 1.3866348448687351,
      "grad_norm": 0.7486630511459641,
      "learning_rate": 4.6390597399373644e-07,
      "loss": 0.4565,
      "step": 291
    },
    {
      "epoch": 1.3914081145584727,
      "grad_norm": 0.7422555751664944,
      "learning_rate": 4.5724272456758907e-07,
      "loss": 0.4826,
      "step": 292
    },
    {
      "epoch": 1.39618138424821,
      "grad_norm": 0.77856112043872,
      "learning_rate": 4.506134628682877e-07,
      "loss": 0.4763,
      "step": 293
    },
    {
      "epoch": 1.4009546539379474,
      "grad_norm": 0.7684572854516972,
      "learning_rate": 4.440186040234524e-07,
      "loss": 0.4672,
      "step": 294
    },
    {
      "epoch": 1.405727923627685,
      "grad_norm": 0.7665847058665568,
      "learning_rate": 4.3745856100637834e-07,
      "loss": 0.4656,
      "step": 295
    },
    {
      "epoch": 1.4105011933174225,
      "grad_norm": 0.733469970387663,
      "learning_rate": 4.3093374461017785e-07,
      "loss": 0.4676,
      "step": 296
    },
    {
      "epoch": 1.4152744630071599,
      "grad_norm": 0.8421640257156171,
      "learning_rate": 4.244445634220545e-07,
      "loss": 0.4843,
      "step": 297
    },
    {
      "epoch": 1.4200477326968974,
      "grad_norm": 0.8009564109297522,
      "learning_rate": 4.1799142379771766e-07,
      "loss": 0.4809,
      "step": 298
    },
    {
      "epoch": 1.4248210023866348,
      "grad_norm": 0.7033349702559853,
      "learning_rate": 4.115747298359363e-07,
      "loss": 0.464,
      "step": 299
    },
    {
      "epoch": 1.4295942720763724,
      "grad_norm": 0.7437100788001662,
      "learning_rate": 4.0519488335323415e-07,
      "loss": 0.4851,
      "step": 300
    },
    {
      "epoch": 1.4343675417661097,
      "grad_norm": 0.7732697984175376,
      "learning_rate": 3.9885228385872806e-07,
      "loss": 0.4594,
      "step": 301
    },
    {
      "epoch": 1.4391408114558473,
      "grad_norm": 0.7940793070581448,
      "learning_rate": 3.925473285291091e-07,
      "loss": 0.4661,
      "step": 302
    },
    {
      "epoch": 1.4439140811455848,
      "grad_norm": 0.7351909971969558,
      "learning_rate": 3.862804121837733e-07,
      "loss": 0.4757,
      "step": 303
    },
    {
      "epoch": 1.4486873508353222,
      "grad_norm": 0.781207875542895,
      "learning_rate": 3.8005192726009663e-07,
      "loss": 0.4787,
      "step": 304
    },
    {
      "epoch": 1.4534606205250595,
      "grad_norm": 0.7991516861553173,
      "learning_rate": 3.738622637888608e-07,
      "loss": 0.4668,
      "step": 305
    },
    {
      "epoch": 1.458233890214797,
      "grad_norm": 0.8987252432386614,
      "learning_rate": 3.677118093698278e-07,
      "loss": 0.4606,
      "step": 306
    },
    {
      "epoch": 1.4630071599045347,
      "grad_norm": 0.698103668533834,
      "learning_rate": 3.61600949147472e-07,
      "loss": 0.4683,
      "step": 307
    },
    {
      "epoch": 1.467780429594272,
      "grad_norm": 0.7560261667555234,
      "learning_rate": 3.5553006578685706e-07,
      "loss": 0.4519,
      "step": 308
    },
    {
      "epoch": 1.4725536992840096,
      "grad_norm": 0.7382407678980342,
      "learning_rate": 3.494995394496778e-07,
      "loss": 0.469,
      "step": 309
    },
    {
      "epoch": 1.477326968973747,
      "grad_norm": 0.720898348204588,
      "learning_rate": 3.435097477704517e-07,
      "loss": 0.449,
      "step": 310
    },
    {
      "epoch": 1.4821002386634845,
      "grad_norm": 0.7319822241837816,
      "learning_rate": 3.3756106583287205e-07,
      "loss": 0.4745,
      "step": 311
    },
    {
      "epoch": 1.4868735083532219,
      "grad_norm": 0.7518826329514531,
      "learning_rate": 3.316538661463204e-07,
      "loss": 0.4918,
      "step": 312
    },
    {
      "epoch": 1.4916467780429594,
      "grad_norm": 0.8013086574909619,
      "learning_rate": 3.2578851862253796e-07,
      "loss": 0.4846,
      "step": 313
    },
    {
      "epoch": 1.496420047732697,
      "grad_norm": 0.7101861238945232,
      "learning_rate": 3.199653905524654e-07,
      "loss": 0.4604,
      "step": 314
    },
    {
      "epoch": 1.5011933174224343,
      "grad_norm": 0.7204781171906866,
      "learning_rate": 3.1418484658323806e-07,
      "loss": 0.4772,
      "step": 315
    },
    {
      "epoch": 1.5059665871121717,
      "grad_norm": 0.73033687450555,
      "learning_rate": 3.0844724869535577e-07,
      "loss": 0.468,
      "step": 316
    },
    {
      "epoch": 1.5107398568019093,
      "grad_norm": 0.7700114197888783,
      "learning_rate": 3.027529561800117e-07,
      "loss": 0.4808,
      "step": 317
    },
    {
      "epoch": 1.5155131264916468,
      "grad_norm": 0.8599415830432524,
      "learning_rate": 2.971023256165983e-07,
      "loss": 0.469,
      "step": 318
    },
    {
      "epoch": 1.5202863961813842,
      "grad_norm": 0.7490557961852297,
      "learning_rate": 2.9149571085037215e-07,
      "loss": 0.4758,
      "step": 319
    },
    {
      "epoch": 1.5250596658711217,
      "grad_norm": 0.6911043116400506,
      "learning_rate": 2.8593346297030073e-07,
      "loss": 0.4662,
      "step": 320
    },
    {
      "epoch": 1.5298329355608593,
      "grad_norm": 0.7444306144257443,
      "learning_rate": 2.804159302870751e-07,
      "loss": 0.4638,
      "step": 321
    },
    {
      "epoch": 1.5346062052505967,
      "grad_norm": 0.6930295325600317,
      "learning_rate": 2.7494345831129837e-07,
      "loss": 0.4584,
      "step": 322
    },
    {
      "epoch": 1.539379474940334,
      "grad_norm": 0.7461580524158721,
      "learning_rate": 2.6951638973185073e-07,
      "loss": 0.4757,
      "step": 323
    },
    {
      "epoch": 1.5441527446300716,
      "grad_norm": 0.7678530858976563,
      "learning_rate": 2.64135064394428e-07,
      "loss": 0.4807,
      "step": 324
    },
    {
      "epoch": 1.5489260143198091,
      "grad_norm": 1.8144860255245707,
      "learning_rate": 2.587998192802638e-07,
      "loss": 0.4605,
      "step": 325
    },
    {
      "epoch": 1.5536992840095465,
      "grad_norm": 0.7200319691236525,
      "learning_rate": 2.5351098848502386e-07,
      "loss": 0.474,
      "step": 326
    },
    {
      "epoch": 1.558472553699284,
      "grad_norm": 0.7134577877268367,
      "learning_rate": 2.482689031978872e-07,
      "loss": 0.4715,
      "step": 327
    },
    {
      "epoch": 1.5632458233890216,
      "grad_norm": 0.9468756981275396,
      "learning_rate": 2.4307389168080606e-07,
      "loss": 0.4656,
      "step": 328
    },
    {
      "epoch": 1.568019093078759,
      "grad_norm": 0.6688722309384391,
      "learning_rate": 2.3792627924795038e-07,
      "loss": 0.4922,
      "step": 329
    },
    {
      "epoch": 1.5727923627684963,
      "grad_norm": 0.7125789762828182,
      "learning_rate": 2.3282638824533529e-07,
      "loss": 0.4692,
      "step": 330
    },
    {
      "epoch": 1.577565632458234,
      "grad_norm": 0.8844333458882234,
      "learning_rate": 2.277745380306383e-07,
      "loss": 0.4876,
      "step": 331
    },
    {
      "epoch": 1.5823389021479715,
      "grad_norm": 0.7950308834961601,
      "learning_rate": 2.227710449531971e-07,
      "loss": 0.4918,
      "step": 332
    },
    {
      "epoch": 1.5871121718377088,
      "grad_norm": 0.796382860942759,
      "learning_rate": 2.178162223342035e-07,
      "loss": 0.4641,
      "step": 333
    },
    {
      "epoch": 1.5918854415274462,
      "grad_norm": 0.7285520770077796,
      "learning_rate": 2.1291038044707965e-07,
      "loss": 0.4661,
      "step": 334
    },
    {
      "epoch": 1.5966587112171837,
      "grad_norm": 0.6921820001369808,
      "learning_rate": 2.0805382649805225e-07,
      "loss": 0.4681,
      "step": 335
    },
    {
      "epoch": 1.6014319809069213,
      "grad_norm": 0.7552481890637776,
      "learning_rate": 2.032468646069112e-07,
      "loss": 0.4672,
      "step": 336
    },
    {
      "epoch": 1.6062052505966586,
      "grad_norm": 0.7155745101307224,
      "learning_rate": 1.9848979578796865e-07,
      "loss": 0.4767,
      "step": 337
    },
    {
      "epoch": 1.6109785202863962,
      "grad_norm": 0.6993076336434562,
      "learning_rate": 1.937829179312076e-07,
      "loss": 0.4822,
      "step": 338
    },
    {
      "epoch": 1.6157517899761338,
      "grad_norm": 0.7530303728674003,
      "learning_rate": 1.8912652578362853e-07,
      "loss": 0.4709,
      "step": 339
    },
    {
      "epoch": 1.6205250596658711,
      "grad_norm": 0.7510327363849882,
      "learning_rate": 1.8452091093079215e-07,
      "loss": 0.4604,
      "step": 340
    },
    {
      "epoch": 1.6252983293556085,
      "grad_norm": 0.7282910633876013,
      "learning_rate": 1.7996636177855928e-07,
      "loss": 0.4984,
      "step": 341
    },
    {
      "epoch": 1.630071599045346,
      "grad_norm": 0.7524297400825809,
      "learning_rate": 1.75463163535033e-07,
      "loss": 0.4823,
      "step": 342
    },
    {
      "epoch": 1.6348448687350836,
      "grad_norm": 0.7049222733481684,
      "learning_rate": 1.7101159819269583e-07,
      "loss": 0.4635,
      "step": 343
    },
    {
      "epoch": 1.639618138424821,
      "grad_norm": 1.1034453594616451,
      "learning_rate": 1.6661194451075345e-07,
      "loss": 0.4765,
      "step": 344
    },
    {
      "epoch": 1.6443914081145583,
      "grad_norm": 0.83013391018154,
      "learning_rate": 1.6226447799767772e-07,
      "loss": 0.4533,
      "step": 345
    },
    {
      "epoch": 1.649164677804296,
      "grad_norm": 2.858030289791699,
      "learning_rate": 1.5796947089395475e-07,
      "loss": 0.4691,
      "step": 346
    },
    {
      "epoch": 1.6539379474940334,
      "grad_norm": 0.7332905568570133,
      "learning_rate": 1.5372719215503582e-07,
      "loss": 0.4544,
      "step": 347
    },
    {
      "epoch": 1.6587112171837708,
      "grad_norm": 0.7481224605220782,
      "learning_rate": 1.4953790743449702e-07,
      "loss": 0.4806,
      "step": 348
    },
    {
      "epoch": 1.6634844868735084,
      "grad_norm": 0.9099408876904721,
      "learning_rate": 1.4540187906740241e-07,
      "loss": 0.4569,
      "step": 349
    },
    {
      "epoch": 1.668257756563246,
      "grad_norm": 0.6921320546034447,
      "learning_rate": 1.4131936605387762e-07,
      "loss": 0.4897,
      "step": 350
    },
    {
      "epoch": 1.6730310262529833,
      "grad_norm": 0.7172188028374827,
      "learning_rate": 1.3729062404289017e-07,
      "loss": 0.4799,
      "step": 351
    },
    {
      "epoch": 1.6778042959427206,
      "grad_norm": 0.7348308299387173,
      "learning_rate": 1.3331590531624115e-07,
      "loss": 0.4714,
      "step": 352
    },
    {
      "epoch": 1.6825775656324582,
      "grad_norm": 0.7524117454719962,
      "learning_rate": 1.2939545877276726e-07,
      "loss": 0.4679,
      "step": 353
    },
    {
      "epoch": 1.6873508353221958,
      "grad_norm": 0.7609980327732692,
      "learning_rate": 1.25529529912754e-07,
      "loss": 0.4678,
      "step": 354
    },
    {
      "epoch": 1.692124105011933,
      "grad_norm": 0.7906234591099575,
      "learning_rate": 1.2171836082256316e-07,
      "loss": 0.4754,
      "step": 355
    },
    {
      "epoch": 1.6968973747016707,
      "grad_norm": 0.7519337557814546,
      "learning_rate": 1.1796219015947285e-07,
      "loss": 0.4803,
      "step": 356
    },
    {
      "epoch": 1.7016706443914082,
      "grad_norm": 0.6859134821445197,
      "learning_rate": 1.1426125313673285e-07,
      "loss": 0.4939,
      "step": 357
    },
    {
      "epoch": 1.7064439140811456,
      "grad_norm": 0.8229493204752176,
      "learning_rate": 1.1061578150883444e-07,
      "loss": 0.4372,
      "step": 358
    },
    {
      "epoch": 1.711217183770883,
      "grad_norm": 0.692317996696451,
      "learning_rate": 1.070260035570002e-07,
      "loss": 0.4792,
      "step": 359
    },
    {
      "epoch": 1.7159904534606205,
      "grad_norm": 0.7390705342617898,
      "learning_rate": 1.0349214407488571e-07,
      "loss": 0.4719,
      "step": 360
    },
    {
      "epoch": 1.720763723150358,
      "grad_norm": 0.7057263439063961,
      "learning_rate": 1.000144243545058e-07,
      "loss": 0.4724,
      "step": 361
    },
    {
      "epoch": 1.7255369928400954,
      "grad_norm": 0.707795857913463,
      "learning_rate": 9.659306217237517e-08,
      "loss": 0.4717,
      "step": 362
    },
    {
      "epoch": 1.7303102625298328,
      "grad_norm": 0.7912536951606031,
      "learning_rate": 9.322827177587212e-08,
      "loss": 0.4623,
      "step": 363
    },
    {
      "epoch": 1.7350835322195706,
      "grad_norm": 0.746736598206851,
      "learning_rate": 8.992026386982221e-08,
      "loss": 0.4735,
      "step": 364
    },
    {
      "epoch": 1.739856801909308,
      "grad_norm": 0.6948885657819285,
      "learning_rate": 8.66692456033029e-08,
      "loss": 0.4825,
      "step": 365
    },
    {
      "epoch": 1.7446300715990453,
      "grad_norm": 0.7262491961744311,
      "learning_rate": 8.347542055667311e-08,
      "loss": 0.4699,
      "step": 366
    },
    {
      "epoch": 1.7494033412887828,
      "grad_norm": 0.7863038143235231,
      "learning_rate": 8.033898872882394e-08,
      "loss": 0.4679,
      "step": 367
    },
    {
      "epoch": 1.7541766109785204,
      "grad_norm": 0.6727626949269937,
      "learning_rate": 7.726014652465507e-08,
      "loss": 0.4421,
      "step": 368
    },
    {
      "epoch": 1.7589498806682577,
      "grad_norm": 0.6867145980818331,
      "learning_rate": 7.423908674277579e-08,
      "loss": 0.4778,
      "step": 369
    },
    {
      "epoch": 1.763723150357995,
      "grad_norm": 1.4213029472300538,
      "learning_rate": 7.127599856343192e-08,
      "loss": 0.4727,
      "step": 370
    },
    {
      "epoch": 1.7684964200477327,
      "grad_norm": 0.692012937763345,
      "learning_rate": 6.837106753665823e-08,
      "loss": 0.4741,
      "step": 371
    },
    {
      "epoch": 1.7732696897374702,
      "grad_norm": 0.7092148893859065,
      "learning_rate": 6.552447557066109e-08,
      "loss": 0.4697,
      "step": 372
    },
    {
      "epoch": 1.7780429594272076,
      "grad_norm": 0.6973356829898804,
      "learning_rate": 6.273640092042575e-08,
      "loss": 0.4544,
      "step": 373
    },
    {
      "epoch": 1.7828162291169452,
      "grad_norm": 1.5448551643686548,
      "learning_rate": 6.000701817655474e-08,
      "loss": 0.4523,
      "step": 374
    },
    {
      "epoch": 1.7875894988066827,
      "grad_norm": 1.4827724692081619,
      "learning_rate": 5.733649825433384e-08,
      "loss": 0.4551,
      "step": 375
    },
    {
      "epoch": 1.79236276849642,
      "grad_norm": 0.7790516793749164,
      "learning_rate": 5.47250083830314e-08,
      "loss": 0.494,
      "step": 376
    },
    {
      "epoch": 1.7971360381861574,
      "grad_norm": 0.7365514384441436,
      "learning_rate": 5.217271209542384e-08,
      "loss": 0.4735,
      "step": 377
    },
    {
      "epoch": 1.801909307875895,
      "grad_norm": 0.7707502808832377,
      "learning_rate": 4.967976921755679e-08,
      "loss": 0.4501,
      "step": 378
    },
    {
      "epoch": 1.8066825775656326,
      "grad_norm": 0.7176835200739754,
      "learning_rate": 4.724633585873627e-08,
      "loss": 0.4686,
      "step": 379
    },
    {
      "epoch": 1.81145584725537,
      "grad_norm": 0.6889468337016494,
      "learning_rate": 4.487256440175291e-08,
      "loss": 0.4771,
      "step": 380
    },
    {
      "epoch": 1.8162291169451072,
      "grad_norm": 1.0649529564643607,
      "learning_rate": 4.255860349334006e-08,
      "loss": 0.4661,
      "step": 381
    },
    {
      "epoch": 1.8210023866348448,
      "grad_norm": 1.1333041301606328,
      "learning_rate": 4.030459803486464e-08,
      "loss": 0.4606,
      "step": 382
    },
    {
      "epoch": 1.8257756563245824,
      "grad_norm": 0.765268616008849,
      "learning_rate": 3.811068917325444e-08,
      "loss": 0.4442,
      "step": 383
    },
    {
      "epoch": 1.8305489260143197,
      "grad_norm": 0.701547689578903,
      "learning_rate": 3.5977014292158495e-08,
      "loss": 0.4739,
      "step": 384
    },
    {
      "epoch": 1.8353221957040573,
      "grad_norm": 0.7141975076446941,
      "learning_rate": 3.3903707003344774e-08,
      "loss": 0.4719,
      "step": 385
    },
    {
      "epoch": 1.8400954653937949,
      "grad_norm": 0.6918753885495199,
      "learning_rate": 3.189089713833226e-08,
      "loss": 0.4772,
      "step": 386
    },
    {
      "epoch": 1.8448687350835322,
      "grad_norm": 0.714964202433507,
      "learning_rate": 2.9938710740262884e-08,
      "loss": 0.4561,
      "step": 387
    },
    {
      "epoch": 1.8496420047732696,
      "grad_norm": 0.7838822438811583,
      "learning_rate": 2.8047270056005934e-08,
      "loss": 0.4565,
      "step": 388
    },
    {
      "epoch": 1.8544152744630071,
      "grad_norm": 0.7061577623995287,
      "learning_rate": 2.6216693528505195e-08,
      "loss": 0.4648,
      "step": 389
    },
    {
      "epoch": 1.8591885441527447,
      "grad_norm": 0.9071757882196184,
      "learning_rate": 2.4447095789360884e-08,
      "loss": 0.4711,
      "step": 390
    },
    {
      "epoch": 1.863961813842482,
      "grad_norm": 0.765845128347514,
      "learning_rate": 2.2738587651651487e-08,
      "loss": 0.4577,
      "step": 391
    },
    {
      "epoch": 1.8687350835322196,
      "grad_norm": 0.7650600946027074,
      "learning_rate": 2.109127610299466e-08,
      "loss": 0.4679,
      "step": 392
    },
    {
      "epoch": 1.8735083532219572,
      "grad_norm": 0.6957819402359949,
      "learning_rate": 1.950526429884769e-08,
      "loss": 0.4559,
      "step": 393
    },
    {
      "epoch": 1.8782816229116945,
      "grad_norm": 0.7430172728751436,
      "learning_rate": 1.7980651556048e-08,
      "loss": 0.4732,
      "step": 394
    },
    {
      "epoch": 1.8830548926014319,
      "grad_norm": 0.6767278663023139,
      "learning_rate": 1.6517533346593226e-08,
      "loss": 0.4758,
      "step": 395
    },
    {
      "epoch": 1.8878281622911695,
      "grad_norm": 0.7619777582419104,
      "learning_rate": 1.5116001291663462e-08,
      "loss": 0.4932,
      "step": 396
    },
    {
      "epoch": 1.892601431980907,
      "grad_norm": 0.790159743362526,
      "learning_rate": 1.3776143155883491e-08,
      "loss": 0.4558,
      "step": 397
    },
    {
      "epoch": 1.8973747016706444,
      "grad_norm": 0.7261843559497824,
      "learning_rate": 1.2498042841827317e-08,
      "loss": 0.4595,
      "step": 398
    },
    {
      "epoch": 1.9021479713603817,
      "grad_norm": 0.7017669980294373,
      "learning_rate": 1.128178038476324e-08,
      "loss": 0.4625,
      "step": 399
    },
    {
      "epoch": 1.9069212410501193,
      "grad_norm": 0.6784318458229694,
      "learning_rate": 1.0127431947643316e-08,
      "loss": 0.4671,
      "step": 400
    },
    {
      "epoch": 1.9116945107398569,
      "grad_norm": 0.675130035717692,
      "learning_rate": 9.035069816332619e-09,
      "loss": 0.464,
      "step": 401
    },
    {
      "epoch": 1.9164677804295942,
      "grad_norm": 0.8221120490850481,
      "learning_rate": 8.004762395083963e-09,
      "loss": 0.4537,
      "step": 402
    },
    {
      "epoch": 1.9212410501193318,
      "grad_norm": 0.7612136405972405,
      "learning_rate": 7.036574202253343e-09,
      "loss": 0.4914,
      "step": 403
    },
    {
      "epoch": 1.9260143198090693,
      "grad_norm": 0.8291594902189451,
      "learning_rate": 6.130565866260484e-09,
      "loss": 0.4727,
      "step": 404
    },
    {
      "epoch": 1.9307875894988067,
      "grad_norm": 1.0329364100399496,
      "learning_rate": 5.286794121791782e-09,
      "loss": 0.4767,
      "step": 405
    },
    {
      "epoch": 1.935560859188544,
      "grad_norm": 0.8758229910700595,
      "learning_rate": 4.5053118062478025e-09,
      "loss": 0.4501,
      "step": 406
    },
    {
      "epoch": 1.9403341288782816,
      "grad_norm": 0.7067697193260255,
      "learning_rate": 3.786167856434375e-09,
      "loss": 0.4747,
      "step": 407
    },
    {
      "epoch": 1.9451073985680192,
      "grad_norm": 0.7459961970155857,
      "learning_rate": 3.1294073054987102e-09,
      "loss": 0.4605,
      "step": 408
    },
    {
      "epoch": 1.9498806682577565,
      "grad_norm": 0.7585534385150827,
      "learning_rate": 2.5350712801084363e-09,
      "loss": 0.4528,
      "step": 409
    },
    {
      "epoch": 1.9546539379474939,
      "grad_norm": 0.6767868247269999,
      "learning_rate": 2.003196997877099e-09,
      "loss": 0.4585,
      "step": 410
    },
    {
      "epoch": 1.9594272076372317,
      "grad_norm": 0.7126370902337825,
      "learning_rate": 1.5338177650332517e-09,
      "loss": 0.4591,
      "step": 411
    },
    {
      "epoch": 1.964200477326969,
      "grad_norm": 0.7172728813954358,
      "learning_rate": 1.1269629743346777e-09,
      "loss": 0.4589,
      "step": 412
    },
    {
      "epoch": 1.9689737470167064,
      "grad_norm": 0.8158860106123756,
      "learning_rate": 7.826581032279734e-10,
      "loss": 0.4601,
      "step": 413
    },
    {
      "epoch": 1.973747016706444,
      "grad_norm": 0.8261699459606863,
      "learning_rate": 5.00924712252937e-10,
      "loss": 0.4731,
      "step": 414
    },
    {
      "epoch": 1.9785202863961815,
      "grad_norm": 0.7168072767819187,
      "learning_rate": 2.8178044369286945e-10,
      "loss": 0.4657,
      "step": 415
    },
    {
      "epoch": 1.9832935560859188,
      "grad_norm": 0.6783006404134123,
      "learning_rate": 1.2523902046934763e-10,
      "loss": 0.452,
      "step": 416
    },
    {
      "epoch": 1.9880668257756562,
      "grad_norm": 0.7080089156985594,
      "learning_rate": 3.131024528302273e-11,
      "loss": 0.4737,
      "step": 417
    },
    {
      "epoch": 1.9928400954653938,
      "grad_norm": 0.7031897431837284,
      "learning_rate": 0.0,
      "loss": 0.4817,
      "step": 418
    },
    {
      "epoch": 1.9928400954653938,
      "step": 418,
      "total_flos": 3166299160051712.0,
      "train_loss": 0.5405693022828353,
      "train_runtime": 17864.3337,
      "train_samples_per_second": 2.995,
      "train_steps_per_second": 0.023
    }
  ],
  "logging_steps": 1,
  "max_steps": 418,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3166299160051712.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}