{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.6028131279303416,
  "eval_steps": 500,
  "global_step": 1800,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0003348961821835231,
      "grad_norm": 3.200623035430908,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 2.0732,
      "step": 1
    },
    {
      "epoch": 0.0006697923643670462,
      "grad_norm": 2.7692177295684814,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 2.0167,
      "step": 2
    },
    {
      "epoch": 0.0010046885465505692,
      "grad_norm": 2.8474154472351074,
      "learning_rate": 4.800000000000001e-06,
      "loss": 2.04,
      "step": 3
    },
    {
      "epoch": 0.0013395847287340924,
      "grad_norm": 2.2527897357940674,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 2.0787,
      "step": 4
    },
    {
      "epoch": 0.0016744809109176155,
      "grad_norm": 2.1039273738861084,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.9449,
      "step": 5
    },
    {
      "epoch": 0.0020093770931011385,
      "grad_norm": 2.607173442840576,
      "learning_rate": 9.600000000000001e-06,
      "loss": 2.0309,
      "step": 6
    },
    {
      "epoch": 0.002344273275284662,
      "grad_norm": 1.7925606966018677,
      "learning_rate": 1.1200000000000001e-05,
      "loss": 2.0003,
      "step": 7
    },
    {
      "epoch": 0.0026791694574681848,
      "grad_norm": 0.9283378720283508,
      "learning_rate": 1.2800000000000001e-05,
      "loss": 1.9192,
      "step": 8
    },
    {
      "epoch": 0.003014065639651708,
      "grad_norm": 1.0479615926742554,
      "learning_rate": 1.4400000000000001e-05,
      "loss": 1.9249,
      "step": 9
    },
    {
      "epoch": 0.003348961821835231,
      "grad_norm": 0.8187092542648315,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 1.8056,
      "step": 10
    },
    {
      "epoch": 0.003683858004018754,
      "grad_norm": 0.4979480504989624,
      "learning_rate": 1.76e-05,
      "loss": 1.9635,
      "step": 11
    },
    {
      "epoch": 0.004018754186202277,
      "grad_norm": 0.7839181423187256,
      "learning_rate": 1.9200000000000003e-05,
      "loss": 1.8612,
      "step": 12
    },
    {
      "epoch": 0.004353650368385801,
      "grad_norm": 0.48768150806427,
      "learning_rate": 2.08e-05,
      "loss": 1.8192,
      "step": 13
    },
    {
      "epoch": 0.004688546550569324,
      "grad_norm": 0.4701080024242401,
      "learning_rate": 2.2400000000000002e-05,
      "loss": 1.7528,
      "step": 14
    },
    {
      "epoch": 0.005023442732752847,
      "grad_norm": 0.41159382462501526,
      "learning_rate": 2.4e-05,
      "loss": 1.8108,
      "step": 15
    },
    {
      "epoch": 0.0053583389149363695,
      "grad_norm": 0.4759747385978699,
      "learning_rate": 2.5600000000000002e-05,
      "loss": 1.8441,
      "step": 16
    },
    {
      "epoch": 0.0056932350971198925,
      "grad_norm": 0.5115412473678589,
      "learning_rate": 2.7200000000000004e-05,
      "loss": 1.8549,
      "step": 17
    },
    {
      "epoch": 0.006028131279303416,
      "grad_norm": 0.3412087857723236,
      "learning_rate": 2.8800000000000002e-05,
      "loss": 1.7477,
      "step": 18
    },
    {
      "epoch": 0.006363027461486939,
      "grad_norm": 0.4677671790122986,
      "learning_rate": 3.0400000000000004e-05,
      "loss": 1.8241,
      "step": 19
    },
    {
      "epoch": 0.006697923643670462,
      "grad_norm": 0.33937788009643555,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 1.7582,
      "step": 20
    },
    {
      "epoch": 0.007032819825853985,
      "grad_norm": 0.3229079842567444,
      "learning_rate": 3.3600000000000004e-05,
      "loss": 1.8104,
      "step": 21
    },
    {
      "epoch": 0.007367716008037508,
      "grad_norm": 0.25623905658721924,
      "learning_rate": 3.52e-05,
      "loss": 1.8041,
      "step": 22
    },
    {
      "epoch": 0.007702612190221032,
      "grad_norm": 0.2401346117258072,
      "learning_rate": 3.680000000000001e-05,
      "loss": 1.7445,
      "step": 23
    },
    {
      "epoch": 0.008037508372404554,
      "grad_norm": 0.19888034462928772,
      "learning_rate": 3.8400000000000005e-05,
      "loss": 1.7656,
      "step": 24
    },
    {
      "epoch": 0.008372404554588079,
      "grad_norm": 0.20604504644870758,
      "learning_rate": 4e-05,
      "loss": 1.7374,
      "step": 25
    },
    {
      "epoch": 0.008707300736771601,
      "grad_norm": 0.1735854148864746,
      "learning_rate": 4.16e-05,
      "loss": 1.6457,
      "step": 26
    },
    {
      "epoch": 0.009042196918955124,
      "grad_norm": 0.17504467070102692,
      "learning_rate": 4.3200000000000007e-05,
      "loss": 1.8386,
      "step": 27
    },
    {
      "epoch": 0.009377093101138647,
      "grad_norm": 0.16876129806041718,
      "learning_rate": 4.4800000000000005e-05,
      "loss": 1.7025,
      "step": 28
    },
    {
      "epoch": 0.00971198928332217,
      "grad_norm": 0.18600177764892578,
      "learning_rate": 4.64e-05,
      "loss": 1.7863,
      "step": 29
    },
    {
      "epoch": 0.010046885465505693,
      "grad_norm": 0.19306476414203644,
      "learning_rate": 4.8e-05,
      "loss": 1.8142,
      "step": 30
    },
    {
      "epoch": 0.010381781647689216,
      "grad_norm": 0.1874944269657135,
      "learning_rate": 4.9600000000000006e-05,
      "loss": 1.7422,
      "step": 31
    },
    {
      "epoch": 0.010716677829872739,
      "grad_norm": 0.20584818720817566,
      "learning_rate": 5.1200000000000004e-05,
      "loss": 1.7049,
      "step": 32
    },
    {
      "epoch": 0.011051574012056262,
      "grad_norm": 0.19429145753383636,
      "learning_rate": 5.280000000000001e-05,
      "loss": 1.6743,
      "step": 33
    },
    {
      "epoch": 0.011386470194239785,
      "grad_norm": 0.18944621086120605,
      "learning_rate": 5.440000000000001e-05,
      "loss": 1.7047,
      "step": 34
    },
    {
      "epoch": 0.01172136637642331,
      "grad_norm": 0.18427209556102753,
      "learning_rate": 5.6e-05,
      "loss": 1.7273,
      "step": 35
    },
    {
      "epoch": 0.012056262558606833,
      "grad_norm": 0.16783949732780457,
      "learning_rate": 5.7600000000000004e-05,
      "loss": 1.6653,
      "step": 36
    },
    {
      "epoch": 0.012391158740790355,
      "grad_norm": 0.1769946664571762,
      "learning_rate": 5.92e-05,
      "loss": 1.7158,
      "step": 37
    },
    {
      "epoch": 0.012726054922973878,
      "grad_norm": 0.1591242402791977,
      "learning_rate": 6.080000000000001e-05,
      "loss": 1.5987,
      "step": 38
    },
    {
      "epoch": 0.013060951105157401,
      "grad_norm": 0.16131311655044556,
      "learning_rate": 6.240000000000001e-05,
      "loss": 1.7959,
      "step": 39
    },
    {
      "epoch": 0.013395847287340924,
      "grad_norm": 0.1489195078611374,
      "learning_rate": 6.400000000000001e-05,
      "loss": 1.6895,
      "step": 40
    },
    {
      "epoch": 0.013730743469524447,
      "grad_norm": 0.14679408073425293,
      "learning_rate": 6.56e-05,
      "loss": 1.7019,
      "step": 41
    },
    {
      "epoch": 0.01406563965170797,
      "grad_norm": 0.14194105565547943,
      "learning_rate": 6.720000000000001e-05,
      "loss": 1.679,
      "step": 42
    },
    {
      "epoch": 0.014400535833891493,
      "grad_norm": 0.14862561225891113,
      "learning_rate": 6.88e-05,
      "loss": 1.7283,
      "step": 43
    },
    {
      "epoch": 0.014735432016075016,
      "grad_norm": 0.15733838081359863,
      "learning_rate": 7.04e-05,
      "loss": 1.7365,
      "step": 44
    },
    {
      "epoch": 0.01507032819825854,
      "grad_norm": 0.14537860453128815,
      "learning_rate": 7.2e-05,
      "loss": 1.6431,
      "step": 45
    },
    {
      "epoch": 0.015405224380442064,
      "grad_norm": 0.15487909317016602,
      "learning_rate": 7.360000000000001e-05,
      "loss": 1.7189,
      "step": 46
    },
    {
      "epoch": 0.015740120562625585,
      "grad_norm": 0.14401426911354065,
      "learning_rate": 7.52e-05,
      "loss": 1.6513,
      "step": 47
    },
    {
      "epoch": 0.016075016744809108,
      "grad_norm": 0.1594133824110031,
      "learning_rate": 7.680000000000001e-05,
      "loss": 1.6862,
      "step": 48
    },
    {
      "epoch": 0.01640991292699263,
      "grad_norm": 0.1500992476940155,
      "learning_rate": 7.840000000000001e-05,
      "loss": 1.7501,
      "step": 49
    },
    {
      "epoch": 0.016744809109176157,
      "grad_norm": 0.15571996569633484,
      "learning_rate": 8e-05,
      "loss": 1.6792,
      "step": 50
    },
    {
      "epoch": 0.01707970529135968,
      "grad_norm": 0.14743545651435852,
      "learning_rate": 8e-05,
      "loss": 1.6699,
      "step": 51
    },
    {
      "epoch": 0.017414601473543203,
      "grad_norm": 0.15360131859779358,
      "learning_rate": 8e-05,
      "loss": 1.7469,
      "step": 52
    },
    {
      "epoch": 0.017749497655726726,
      "grad_norm": 0.1337500810623169,
      "learning_rate": 8e-05,
      "loss": 1.6633,
      "step": 53
    },
    {
      "epoch": 0.01808439383791025,
      "grad_norm": 0.1487305462360382,
      "learning_rate": 8e-05,
      "loss": 1.7314,
      "step": 54
    },
    {
      "epoch": 0.018419290020093772,
      "grad_norm": 0.14299322664737701,
      "learning_rate": 8e-05,
      "loss": 1.6309,
      "step": 55
    },
    {
      "epoch": 0.018754186202277295,
      "grad_norm": 0.13860709965229034,
      "learning_rate": 8e-05,
      "loss": 1.6793,
      "step": 56
    },
    {
      "epoch": 0.019089082384460818,
      "grad_norm": 0.13716565072536469,
      "learning_rate": 8e-05,
      "loss": 1.6418,
      "step": 57
    },
    {
      "epoch": 0.01942397856664434,
      "grad_norm": 0.15599362552165985,
      "learning_rate": 8e-05,
      "loss": 1.7829,
      "step": 58
    },
    {
      "epoch": 0.019758874748827863,
      "grad_norm": 0.13503025472164154,
      "learning_rate": 8e-05,
      "loss": 1.6829,
      "step": 59
    },
    {
      "epoch": 0.020093770931011386,
      "grad_norm": 0.18807654082775116,
      "learning_rate": 8e-05,
      "loss": 1.717,
      "step": 60
    },
    {
      "epoch": 0.02042866711319491,
      "grad_norm": 0.15409617125988007,
      "learning_rate": 8e-05,
      "loss": 1.6699,
      "step": 61
    },
    {
      "epoch": 0.020763563295378432,
      "grad_norm": 0.14298014342784882,
      "learning_rate": 8e-05,
      "loss": 1.6926,
      "step": 62
    },
    {
      "epoch": 0.021098459477561955,
      "grad_norm": 0.14208070933818817,
      "learning_rate": 8e-05,
      "loss": 1.7058,
      "step": 63
    },
    {
      "epoch": 0.021433355659745478,
      "grad_norm": 0.1416184902191162,
      "learning_rate": 8e-05,
      "loss": 1.7054,
      "step": 64
    },
    {
      "epoch": 0.021768251841929,
      "grad_norm": 0.13226383924484253,
      "learning_rate": 8e-05,
      "loss": 1.598,
      "step": 65
    },
    {
      "epoch": 0.022103148024112524,
      "grad_norm": 0.12255742400884628,
      "learning_rate": 8e-05,
      "loss": 1.6601,
      "step": 66
    },
    {
      "epoch": 0.022438044206296047,
      "grad_norm": 0.14558081328868866,
      "learning_rate": 8e-05,
      "loss": 1.7296,
      "step": 67
    },
    {
      "epoch": 0.02277294038847957,
      "grad_norm": 0.1519310474395752,
      "learning_rate": 8e-05,
      "loss": 1.8439,
      "step": 68
    },
    {
      "epoch": 0.023107836570663093,
      "grad_norm": 0.1384143829345703,
      "learning_rate": 8e-05,
      "loss": 1.6079,
      "step": 69
    },
    {
      "epoch": 0.02344273275284662,
      "grad_norm": 0.15407218039035797,
      "learning_rate": 8e-05,
      "loss": 1.677,
      "step": 70
    },
    {
      "epoch": 0.023777628935030142,
      "grad_norm": 0.13523827493190765,
      "learning_rate": 8e-05,
      "loss": 1.5692,
      "step": 71
    },
    {
      "epoch": 0.024112525117213665,
      "grad_norm": 0.12505467236042023,
      "learning_rate": 8e-05,
      "loss": 1.5602,
      "step": 72
    },
    {
      "epoch": 0.024447421299397188,
      "grad_norm": 0.13626372814178467,
      "learning_rate": 8e-05,
      "loss": 1.6524,
      "step": 73
    },
    {
      "epoch": 0.02478231748158071,
      "grad_norm": 0.13007895648479462,
      "learning_rate": 8e-05,
      "loss": 1.6774,
      "step": 74
    },
    {
      "epoch": 0.025117213663764234,
      "grad_norm": 0.1315409243106842,
      "learning_rate": 8e-05,
      "loss": 1.6301,
      "step": 75
    },
    {
      "epoch": 0.025452109845947757,
      "grad_norm": 0.13155469298362732,
      "learning_rate": 8e-05,
      "loss": 1.6704,
      "step": 76
    },
    {
      "epoch": 0.02578700602813128,
      "grad_norm": 0.12630128860473633,
      "learning_rate": 8e-05,
      "loss": 1.5701,
      "step": 77
    },
    {
      "epoch": 0.026121902210314803,
      "grad_norm": 0.13431835174560547,
      "learning_rate": 8e-05,
      "loss": 1.6653,
      "step": 78
    },
    {
      "epoch": 0.026456798392498326,
      "grad_norm": 0.135056272149086,
      "learning_rate": 8e-05,
      "loss": 1.6553,
      "step": 79
    },
    {
      "epoch": 0.02679169457468185,
      "grad_norm": 0.12763765454292297,
      "learning_rate": 8e-05,
      "loss": 1.6905,
      "step": 80
    },
    {
      "epoch": 0.02712659075686537,
      "grad_norm": 0.14637380838394165,
      "learning_rate": 8e-05,
      "loss": 1.688,
      "step": 81
    },
    {
      "epoch": 0.027461486939048894,
      "grad_norm": 0.1297517865896225,
      "learning_rate": 8e-05,
      "loss": 1.6268,
      "step": 82
    },
    {
      "epoch": 0.027796383121232417,
      "grad_norm": 0.1372605413198471,
      "learning_rate": 8e-05,
      "loss": 1.6713,
      "step": 83
    },
    {
      "epoch": 0.02813127930341594,
      "grad_norm": 0.13095134496688843,
      "learning_rate": 8e-05,
      "loss": 1.6652,
      "step": 84
    },
    {
      "epoch": 0.028466175485599463,
      "grad_norm": 0.1276548206806183,
      "learning_rate": 8e-05,
      "loss": 1.5863,
      "step": 85
    },
    {
      "epoch": 0.028801071667782986,
      "grad_norm": 0.22046029567718506,
      "learning_rate": 8e-05,
      "loss": 1.753,
      "step": 86
    },
    {
      "epoch": 0.02913596784996651,
      "grad_norm": 0.12783803045749664,
      "learning_rate": 8e-05,
      "loss": 1.59,
      "step": 87
    },
    {
      "epoch": 0.029470864032150032,
      "grad_norm": 0.13895952701568604,
      "learning_rate": 8e-05,
      "loss": 1.6398,
      "step": 88
    },
    {
      "epoch": 0.029805760214333555,
      "grad_norm": 0.14574961364269257,
      "learning_rate": 8e-05,
      "loss": 1.7269,
      "step": 89
    },
    {
      "epoch": 0.03014065639651708,
      "grad_norm": 0.14621688425540924,
      "learning_rate": 8e-05,
      "loss": 1.6443,
      "step": 90
    },
    {
      "epoch": 0.030475552578700604,
      "grad_norm": 0.14057409763336182,
      "learning_rate": 8e-05,
      "loss": 1.6571,
      "step": 91
    },
    {
      "epoch": 0.030810448760884127,
      "grad_norm": 0.14060133695602417,
      "learning_rate": 8e-05,
      "loss": 1.6826,
      "step": 92
    },
    {
      "epoch": 0.03114534494306765,
      "grad_norm": 0.13865897059440613,
      "learning_rate": 8e-05,
      "loss": 1.6349,
      "step": 93
    },
    {
      "epoch": 0.03148024112525117,
      "grad_norm": 0.1305728554725647,
      "learning_rate": 8e-05,
      "loss": 1.6328,
      "step": 94
    },
    {
      "epoch": 0.031815137307434696,
      "grad_norm": 0.14158983528614044,
      "learning_rate": 8e-05,
      "loss": 1.7214,
      "step": 95
    },
    {
      "epoch": 0.032150033489618215,
      "grad_norm": 0.14718781411647797,
      "learning_rate": 8e-05,
      "loss": 1.6909,
      "step": 96
    },
    {
      "epoch": 0.03248492967180174,
      "grad_norm": 0.12194442749023438,
      "learning_rate": 8e-05,
      "loss": 1.5535,
      "step": 97
    },
    {
      "epoch": 0.03281982585398526,
      "grad_norm": 0.13725946843624115,
      "learning_rate": 8e-05,
      "loss": 1.6678,
      "step": 98
    },
    {
      "epoch": 0.03315472203616879,
      "grad_norm": 0.1362965703010559,
      "learning_rate": 8e-05,
      "loss": 1.6384,
      "step": 99
    },
    {
      "epoch": 0.033489618218352314,
      "grad_norm": 0.13613998889923096,
      "learning_rate": 8e-05,
      "loss": 1.6175,
      "step": 100
    },
    {
      "epoch": 0.033824514400535834,
      "grad_norm": 0.14141033589839935,
      "learning_rate": 8e-05,
      "loss": 1.6488,
      "step": 101
    },
    {
      "epoch": 0.03415941058271936,
      "grad_norm": 0.13805681467056274,
      "learning_rate": 8e-05,
      "loss": 1.6893,
      "step": 102
    },
    {
      "epoch": 0.03449430676490288,
      "grad_norm": 0.13900387287139893,
      "learning_rate": 8e-05,
      "loss": 1.8045,
      "step": 103
    },
    {
      "epoch": 0.034829202947086406,
      "grad_norm": 0.13935939967632294,
      "learning_rate": 8e-05,
      "loss": 1.7375,
      "step": 104
    },
    {
      "epoch": 0.035164099129269925,
      "grad_norm": 0.1577659398317337,
      "learning_rate": 8e-05,
      "loss": 1.7788,
      "step": 105
    },
    {
      "epoch": 0.03549899531145345,
      "grad_norm": 0.13430488109588623,
      "learning_rate": 8e-05,
      "loss": 1.5577,
      "step": 106
    },
    {
      "epoch": 0.03583389149363697,
      "grad_norm": 0.16263632476329803,
      "learning_rate": 8e-05,
      "loss": 1.7322,
      "step": 107
    },
    {
      "epoch": 0.0361687876758205,
      "grad_norm": 0.13131676614284515,
      "learning_rate": 8e-05,
      "loss": 1.5999,
      "step": 108
    },
    {
      "epoch": 0.03650368385800402,
      "grad_norm": 0.17317074537277222,
      "learning_rate": 8e-05,
      "loss": 1.6454,
      "step": 109
    },
    {
      "epoch": 0.036838580040187544,
      "grad_norm": 0.12704306840896606,
      "learning_rate": 8e-05,
      "loss": 1.6431,
      "step": 110
    },
    {
      "epoch": 0.03717347622237106,
      "grad_norm": 0.1616016924381256,
      "learning_rate": 8e-05,
      "loss": 1.6905,
      "step": 111
    },
    {
      "epoch": 0.03750837240455459,
      "grad_norm": 0.13819578289985657,
      "learning_rate": 8e-05,
      "loss": 1.6329,
      "step": 112
    },
    {
      "epoch": 0.03784326858673811,
      "grad_norm": 0.16526983678340912,
      "learning_rate": 8e-05,
      "loss": 1.6086,
      "step": 113
    },
    {
      "epoch": 0.038178164768921635,
      "grad_norm": 0.15346211194992065,
      "learning_rate": 8e-05,
      "loss": 1.7158,
      "step": 114
    },
    {
      "epoch": 0.038513060951105155,
      "grad_norm": 0.13235461711883545,
      "learning_rate": 8e-05,
      "loss": 1.6546,
      "step": 115
    },
    {
      "epoch": 0.03884795713328868,
      "grad_norm": 0.14952686429023743,
      "learning_rate": 8e-05,
      "loss": 1.6895,
      "step": 116
    },
    {
      "epoch": 0.0391828533154722,
      "grad_norm": 0.13437524437904358,
      "learning_rate": 8e-05,
      "loss": 1.575,
      "step": 117
    },
    {
      "epoch": 0.03951774949765573,
      "grad_norm": 0.14430561661720276,
      "learning_rate": 8e-05,
      "loss": 1.6578,
      "step": 118
    },
    {
      "epoch": 0.039852645679839246,
      "grad_norm": 0.12947961688041687,
      "learning_rate": 8e-05,
      "loss": 1.6036,
      "step": 119
    },
    {
      "epoch": 0.04018754186202277,
      "grad_norm": 0.12875418365001678,
      "learning_rate": 8e-05,
      "loss": 1.6411,
      "step": 120
    },
    {
      "epoch": 0.0405224380442063,
      "grad_norm": 0.13649991154670715,
      "learning_rate": 8e-05,
      "loss": 1.6428,
      "step": 121
    },
    {
      "epoch": 0.04085733422638982,
      "grad_norm": 0.1279270201921463,
      "learning_rate": 8e-05,
      "loss": 1.5752,
      "step": 122
    },
    {
      "epoch": 0.041192230408573345,
      "grad_norm": 0.12864024937152863,
      "learning_rate": 8e-05,
      "loss": 1.6443,
      "step": 123
    },
    {
      "epoch": 0.041527126590756865,
      "grad_norm": 0.1378841996192932,
      "learning_rate": 8e-05,
      "loss": 1.6459,
      "step": 124
    },
    {
      "epoch": 0.04186202277294039,
      "grad_norm": 0.12667427957057953,
      "learning_rate": 8e-05,
      "loss": 1.6064,
      "step": 125
    },
    {
      "epoch": 0.04219691895512391,
      "grad_norm": 0.12754195928573608,
      "learning_rate": 8e-05,
      "loss": 1.5229,
      "step": 126
    },
    {
      "epoch": 0.04253181513730744,
      "grad_norm": 0.1369989514350891,
      "learning_rate": 8e-05,
      "loss": 1.5497,
      "step": 127
    },
    {
      "epoch": 0.042866711319490956,
      "grad_norm": 0.13526515662670135,
      "learning_rate": 8e-05,
      "loss": 1.7249,
      "step": 128
    },
    {
      "epoch": 0.04320160750167448,
      "grad_norm": 0.1434253454208374,
      "learning_rate": 8e-05,
      "loss": 1.7323,
      "step": 129
    },
    {
      "epoch": 0.043536503683858,
      "grad_norm": 0.13899651169776917,
      "learning_rate": 8e-05,
      "loss": 1.7257,
      "step": 130
    },
    {
      "epoch": 0.04387139986604153,
      "grad_norm": 0.12918458878993988,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 131
    },
    {
      "epoch": 0.04420629604822505,
      "grad_norm": 0.14122548699378967,
      "learning_rate": 8e-05,
      "loss": 1.6206,
      "step": 132
    },
    {
      "epoch": 0.044541192230408574,
      "grad_norm": 0.13042569160461426,
      "learning_rate": 8e-05,
      "loss": 1.6501,
      "step": 133
    },
    {
      "epoch": 0.044876088412592094,
      "grad_norm": 0.13046392798423767,
      "learning_rate": 8e-05,
      "loss": 1.5429,
      "step": 134
    },
    {
      "epoch": 0.04521098459477562,
      "grad_norm": 0.13527311384677887,
      "learning_rate": 8e-05,
      "loss": 1.6827,
      "step": 135
    },
    {
      "epoch": 0.04554588077695914,
      "grad_norm": 0.1313592940568924,
      "learning_rate": 8e-05,
      "loss": 1.6099,
      "step": 136
    },
    {
      "epoch": 0.045880776959142666,
      "grad_norm": 0.13745155930519104,
      "learning_rate": 8e-05,
      "loss": 1.6025,
      "step": 137
    },
    {
      "epoch": 0.046215673141326186,
      "grad_norm": 0.13144057989120483,
      "learning_rate": 8e-05,
      "loss": 1.6731,
      "step": 138
    },
    {
      "epoch": 0.04655056932350971,
      "grad_norm": 0.13070990145206451,
      "learning_rate": 8e-05,
      "loss": 1.5874,
      "step": 139
    },
    {
      "epoch": 0.04688546550569324,
      "grad_norm": 0.14795616269111633,
      "learning_rate": 8e-05,
      "loss": 1.5983,
      "step": 140
    },
    {
      "epoch": 0.04722036168787676,
      "grad_norm": 0.12657715380191803,
      "learning_rate": 8e-05,
      "loss": 1.6612,
      "step": 141
    },
    {
      "epoch": 0.047555257870060284,
      "grad_norm": 0.15591903030872345,
      "learning_rate": 8e-05,
      "loss": 1.654,
      "step": 142
    },
    {
      "epoch": 0.047890154052243804,
      "grad_norm": 0.1429819017648697,
      "learning_rate": 8e-05,
      "loss": 1.6748,
      "step": 143
    },
    {
      "epoch": 0.04822505023442733,
      "grad_norm": 0.1351274698972702,
      "learning_rate": 8e-05,
      "loss": 1.6,
      "step": 144
    },
    {
      "epoch": 0.04855994641661085,
      "grad_norm": 0.12555386126041412,
      "learning_rate": 8e-05,
      "loss": 1.5852,
      "step": 145
    },
    {
      "epoch": 0.048894842598794376,
      "grad_norm": 0.1394919902086258,
      "learning_rate": 8e-05,
      "loss": 1.6265,
      "step": 146
    },
    {
      "epoch": 0.049229738780977896,
      "grad_norm": 0.13021890819072723,
      "learning_rate": 8e-05,
      "loss": 1.6204,
      "step": 147
    },
    {
      "epoch": 0.04956463496316142,
      "grad_norm": 0.12327662110328674,
      "learning_rate": 8e-05,
      "loss": 1.5531,
      "step": 148
    },
    {
      "epoch": 0.04989953114534494,
      "grad_norm": 0.1383059322834015,
      "learning_rate": 8e-05,
      "loss": 1.6404,
      "step": 149
    },
    {
      "epoch": 0.05023442732752847,
      "grad_norm": 0.13159964978694916,
      "learning_rate": 8e-05,
      "loss": 1.6437,
      "step": 150
    },
    {
      "epoch": 0.05056932350971199,
      "grad_norm": 0.1284051239490509,
      "learning_rate": 8e-05,
      "loss": 1.6579,
      "step": 151
    },
    {
      "epoch": 0.050904219691895514,
      "grad_norm": 0.1344885528087616,
      "learning_rate": 8e-05,
      "loss": 1.6282,
      "step": 152
    },
    {
      "epoch": 0.05123911587407903,
      "grad_norm": 0.13154742121696472,
      "learning_rate": 8e-05,
      "loss": 1.6286,
      "step": 153
    },
    {
      "epoch": 0.05157401205626256,
      "grad_norm": 0.13137654960155487,
      "learning_rate": 8e-05,
      "loss": 1.6287,
      "step": 154
    },
    {
      "epoch": 0.05190890823844608,
      "grad_norm": 0.14541304111480713,
      "learning_rate": 8e-05,
      "loss": 1.7461,
      "step": 155
    },
    {
      "epoch": 0.052243804420629605,
      "grad_norm": 0.1357010453939438,
      "learning_rate": 8e-05,
      "loss": 1.5524,
      "step": 156
    },
    {
      "epoch": 0.052578700602813125,
      "grad_norm": 0.1376865804195404,
      "learning_rate": 8e-05,
      "loss": 1.7128,
      "step": 157
    },
    {
      "epoch": 0.05291359678499665,
      "grad_norm": 0.13592389225959778,
      "learning_rate": 8e-05,
      "loss": 1.6807,
      "step": 158
    },
    {
      "epoch": 0.05324849296718017,
      "grad_norm": 0.13557550311088562,
      "learning_rate": 8e-05,
      "loss": 1.6131,
      "step": 159
    },
    {
      "epoch": 0.0535833891493637,
      "grad_norm": 0.14435061812400818,
      "learning_rate": 8e-05,
      "loss": 1.6388,
      "step": 160
    },
    {
      "epoch": 0.053918285331547224,
      "grad_norm": 0.12925972044467926,
      "learning_rate": 8e-05,
      "loss": 1.6692,
      "step": 161
    },
    {
      "epoch": 0.05425318151373074,
      "grad_norm": 0.12746796011924744,
      "learning_rate": 8e-05,
      "loss": 1.5774,
      "step": 162
    },
    {
      "epoch": 0.05458807769591427,
      "grad_norm": 0.12856397032737732,
      "learning_rate": 8e-05,
      "loss": 1.5764,
      "step": 163
    },
    {
      "epoch": 0.05492297387809779,
      "grad_norm": 0.1379776895046234,
      "learning_rate": 8e-05,
      "loss": 1.6301,
      "step": 164
    },
    {
      "epoch": 0.055257870060281315,
      "grad_norm": 0.1373959183692932,
      "learning_rate": 8e-05,
      "loss": 1.6007,
      "step": 165
    },
    {
      "epoch": 0.055592766242464835,
      "grad_norm": 0.12646304070949554,
      "learning_rate": 8e-05,
      "loss": 1.5485,
      "step": 166
    },
    {
      "epoch": 0.05592766242464836,
      "grad_norm": 0.12433875352144241,
      "learning_rate": 8e-05,
      "loss": 1.6456,
      "step": 167
    },
    {
      "epoch": 0.05626255860683188,
      "grad_norm": 0.13133502006530762,
      "learning_rate": 8e-05,
      "loss": 1.6801,
      "step": 168
    },
    {
      "epoch": 0.05659745478901541,
      "grad_norm": 0.1320537030696869,
      "learning_rate": 8e-05,
      "loss": 1.6397,
      "step": 169
    },
    {
      "epoch": 0.056932350971198926,
      "grad_norm": 0.12571954727172852,
      "learning_rate": 8e-05,
      "loss": 1.6095,
      "step": 170
    },
    {
      "epoch": 0.05726724715338245,
      "grad_norm": 0.12297097593545914,
      "learning_rate": 8e-05,
      "loss": 1.6281,
      "step": 171
    },
    {
      "epoch": 0.05760214333556597,
      "grad_norm": 0.1247854232788086,
      "learning_rate": 8e-05,
      "loss": 1.6052,
      "step": 172
    },
    {
      "epoch": 0.0579370395177495,
      "grad_norm": 0.13686206936836243,
      "learning_rate": 8e-05,
      "loss": 1.6671,
      "step": 173
    },
    {
      "epoch": 0.05827193569993302,
      "grad_norm": 0.1285526305437088,
      "learning_rate": 8e-05,
      "loss": 1.6534,
      "step": 174
    },
    {
      "epoch": 0.058606831882116545,
      "grad_norm": 0.13011367619037628,
      "learning_rate": 8e-05,
      "loss": 1.6649,
      "step": 175
    },
    {
      "epoch": 0.058941728064300064,
      "grad_norm": 0.13596585392951965,
      "learning_rate": 8e-05,
      "loss": 1.6364,
      "step": 176
    },
    {
      "epoch": 0.05927662424648359,
      "grad_norm": 0.1251242458820343,
      "learning_rate": 8e-05,
      "loss": 1.602,
      "step": 177
    },
    {
      "epoch": 0.05961152042866711,
      "grad_norm": 0.12897132337093353,
      "learning_rate": 8e-05,
      "loss": 1.6255,
      "step": 178
    },
    {
      "epoch": 0.059946416610850636,
      "grad_norm": 0.13146603107452393,
      "learning_rate": 8e-05,
      "loss": 1.6847,
      "step": 179
    },
    {
      "epoch": 0.06028131279303416,
      "grad_norm": 0.13487423956394196,
      "learning_rate": 8e-05,
      "loss": 1.6548,
      "step": 180
    },
    {
      "epoch": 0.06061620897521768,
      "grad_norm": 0.14121943712234497,
      "learning_rate": 8e-05,
      "loss": 1.7256,
      "step": 181
    },
    {
      "epoch": 0.06095110515740121,
      "grad_norm": 0.1379179209470749,
      "learning_rate": 8e-05,
      "loss": 1.6125,
      "step": 182
    },
    {
      "epoch": 0.06128600133958473,
      "grad_norm": 0.13541792333126068,
      "learning_rate": 8e-05,
      "loss": 1.6082,
      "step": 183
    },
    {
      "epoch": 0.061620897521768254,
      "grad_norm": 0.13227300345897675,
      "learning_rate": 8e-05,
      "loss": 1.6123,
      "step": 184
    },
    {
      "epoch": 0.061955793703951774,
      "grad_norm": 0.13347981870174408,
      "learning_rate": 8e-05,
      "loss": 1.6861,
      "step": 185
    },
    {
      "epoch": 0.0622906898861353,
      "grad_norm": 0.14201989769935608,
      "learning_rate": 8e-05,
      "loss": 1.6123,
      "step": 186
    },
    {
      "epoch": 0.06262558606831882,
      "grad_norm": 0.13377691805362701,
      "learning_rate": 8e-05,
      "loss": 1.6354,
      "step": 187
    },
    {
      "epoch": 0.06296048225050234,
      "grad_norm": 0.12769708037376404,
      "learning_rate": 8e-05,
      "loss": 1.4981,
      "step": 188
    },
    {
      "epoch": 0.06329537843268587,
      "grad_norm": 0.14207006990909576,
      "learning_rate": 8e-05,
      "loss": 1.6493,
      "step": 189
    },
    {
      "epoch": 0.06363027461486939,
      "grad_norm": 0.13819126784801483,
      "learning_rate": 8e-05,
      "loss": 1.6255,
      "step": 190
    },
    {
      "epoch": 0.06396517079705291,
      "grad_norm": 0.13520517945289612,
      "learning_rate": 8e-05,
      "loss": 1.6931,
      "step": 191
    },
    {
      "epoch": 0.06430006697923643,
      "grad_norm": 0.14047394692897797,
      "learning_rate": 8e-05,
      "loss": 1.5818,
      "step": 192
    },
    {
      "epoch": 0.06463496316141996,
      "grad_norm": 0.14297664165496826,
      "learning_rate": 8e-05,
      "loss": 1.6093,
      "step": 193
    },
    {
      "epoch": 0.06496985934360348,
      "grad_norm": 0.15324518084526062,
      "learning_rate": 8e-05,
      "loss": 1.6242,
      "step": 194
    },
    {
      "epoch": 0.065304755525787,
      "grad_norm": 0.14142198860645294,
      "learning_rate": 8e-05,
      "loss": 1.6596,
      "step": 195
    },
    {
      "epoch": 0.06563965170797052,
      "grad_norm": 0.13463930785655975,
      "learning_rate": 8e-05,
      "loss": 1.674,
      "step": 196
    },
    {
      "epoch": 0.06597454789015406,
      "grad_norm": 0.12904107570648193,
      "learning_rate": 8e-05,
      "loss": 1.6099,
      "step": 197
    },
    {
      "epoch": 0.06630944407233758,
      "grad_norm": 0.14056865870952606,
      "learning_rate": 8e-05,
      "loss": 1.6516,
      "step": 198
    },
    {
      "epoch": 0.0666443402545211,
      "grad_norm": 0.1392846405506134,
      "learning_rate": 8e-05,
      "loss": 1.6581,
      "step": 199
    },
    {
      "epoch": 0.06697923643670463,
      "grad_norm": 0.125335231423378,
      "learning_rate": 8e-05,
      "loss": 1.5345,
      "step": 200
    },
    {
      "epoch": 0.06731413261888815,
      "grad_norm": 0.14245916903018951,
      "learning_rate": 8e-05,
      "loss": 1.7019,
      "step": 201
    },
    {
      "epoch": 0.06764902880107167,
      "grad_norm": 0.14225223660469055,
      "learning_rate": 8e-05,
      "loss": 1.7456,
      "step": 202
    },
    {
      "epoch": 0.06798392498325519,
      "grad_norm": 0.13811221718788147,
      "learning_rate": 8e-05,
      "loss": 1.66,
      "step": 203
    },
    {
      "epoch": 0.06831882116543872,
      "grad_norm": 0.14611570537090302,
      "learning_rate": 8e-05,
      "loss": 1.5883,
      "step": 204
    },
    {
      "epoch": 0.06865371734762224,
      "grad_norm": 0.12489788979291916,
      "learning_rate": 8e-05,
      "loss": 1.5417,
      "step": 205
    },
    {
      "epoch": 0.06898861352980576,
      "grad_norm": 0.12978185713291168,
      "learning_rate": 8e-05,
      "loss": 1.5948,
      "step": 206
    },
    {
      "epoch": 0.06932350971198928,
      "grad_norm": 0.13339710235595703,
      "learning_rate": 8e-05,
      "loss": 1.6601,
      "step": 207
    },
    {
      "epoch": 0.06965840589417281,
      "grad_norm": 0.1716604232788086,
      "learning_rate": 8e-05,
      "loss": 1.6126,
      "step": 208
    },
    {
      "epoch": 0.06999330207635633,
      "grad_norm": 0.12506715953350067,
      "learning_rate": 8e-05,
      "loss": 1.5425,
      "step": 209
    },
    {
      "epoch": 0.07032819825853985,
      "grad_norm": 0.1334909051656723,
      "learning_rate": 8e-05,
      "loss": 1.6456,
      "step": 210
    },
    {
      "epoch": 0.07066309444072337,
      "grad_norm": 0.13649480044841766,
      "learning_rate": 8e-05,
      "loss": 1.7391,
      "step": 211
    },
    {
      "epoch": 0.0709979906229069,
      "grad_norm": 0.12592899799346924,
      "learning_rate": 8e-05,
      "loss": 1.6359,
      "step": 212
    },
    {
      "epoch": 0.07133288680509042,
      "grad_norm": 0.14552612602710724,
      "learning_rate": 8e-05,
      "loss": 1.6661,
      "step": 213
    },
    {
      "epoch": 0.07166778298727394,
      "grad_norm": 0.13432036340236664,
      "learning_rate": 8e-05,
      "loss": 1.7647,
      "step": 214
    },
    {
      "epoch": 0.07200267916945746,
      "grad_norm": 0.13139139115810394,
      "learning_rate": 8e-05,
      "loss": 1.6482,
      "step": 215
    },
    {
      "epoch": 0.072337575351641,
      "grad_norm": 0.13515838980674744,
      "learning_rate": 8e-05,
      "loss": 1.5916,
      "step": 216
    },
    {
      "epoch": 0.07267247153382451,
      "grad_norm": 0.13174721598625183,
      "learning_rate": 8e-05,
      "loss": 1.6007,
      "step": 217
    },
    {
      "epoch": 0.07300736771600803,
      "grad_norm": 0.13372114300727844,
      "learning_rate": 8e-05,
      "loss": 1.6192,
      "step": 218
    },
    {
      "epoch": 0.07334226389819157,
      "grad_norm": 0.12960688769817352,
      "learning_rate": 8e-05,
      "loss": 1.6601,
      "step": 219
    },
    {
      "epoch": 0.07367716008037509,
      "grad_norm": 0.14066988229751587,
      "learning_rate": 8e-05,
      "loss": 1.6643,
      "step": 220
    },
    {
      "epoch": 0.0740120562625586,
      "grad_norm": 0.13216546177864075,
      "learning_rate": 8e-05,
      "loss": 1.5781,
      "step": 221
    },
    {
      "epoch": 0.07434695244474213,
      "grad_norm": 0.134221151471138,
      "learning_rate": 8e-05,
      "loss": 1.5207,
      "step": 222
    },
    {
      "epoch": 0.07468184862692566,
      "grad_norm": 0.1542084515094757,
      "learning_rate": 8e-05,
      "loss": 1.6952,
      "step": 223
    },
    {
      "epoch": 0.07501674480910918,
      "grad_norm": 0.13699911534786224,
      "learning_rate": 8e-05,
      "loss": 1.7092,
      "step": 224
    },
    {
      "epoch": 0.0753516409912927,
      "grad_norm": 0.14500920474529266,
      "learning_rate": 8e-05,
      "loss": 1.5552,
      "step": 225
    },
    {
      "epoch": 0.07568653717347622,
      "grad_norm": 0.12746167182922363,
      "learning_rate": 8e-05,
      "loss": 1.6331,
      "step": 226
    },
    {
      "epoch": 0.07602143335565975,
      "grad_norm": 0.1480415016412735,
      "learning_rate": 8e-05,
      "loss": 1.7011,
      "step": 227
    },
    {
      "epoch": 0.07635632953784327,
      "grad_norm": 0.13693033158779144,
      "learning_rate": 8e-05,
      "loss": 1.6481,
      "step": 228
    },
    {
      "epoch": 0.07669122572002679,
      "grad_norm": 0.13957904279232025,
      "learning_rate": 8e-05,
      "loss": 1.6528,
      "step": 229
    },
    {
      "epoch": 0.07702612190221031,
      "grad_norm": 0.13703952729701996,
      "learning_rate": 8e-05,
      "loss": 1.8067,
      "step": 230
    },
    {
      "epoch": 0.07736101808439384,
      "grad_norm": 0.12176784873008728,
      "learning_rate": 8e-05,
      "loss": 1.5052,
      "step": 231
    },
    {
      "epoch": 0.07769591426657736,
      "grad_norm": 0.12224642932415009,
      "learning_rate": 8e-05,
      "loss": 1.4949,
      "step": 232
    },
    {
      "epoch": 0.07803081044876088,
      "grad_norm": 0.1266046017408371,
      "learning_rate": 8e-05,
      "loss": 1.6267,
      "step": 233
    },
    {
      "epoch": 0.0783657066309444,
      "grad_norm": 0.129744753241539,
      "learning_rate": 8e-05,
      "loss": 1.5503,
      "step": 234
    },
    {
      "epoch": 0.07870060281312793,
      "grad_norm": 0.12953703105449677,
      "learning_rate": 8e-05,
      "loss": 1.6294,
      "step": 235
    },
    {
      "epoch": 0.07903549899531145,
      "grad_norm": 0.12739580869674683,
      "learning_rate": 8e-05,
      "loss": 1.6028,
      "step": 236
    },
    {
      "epoch": 0.07937039517749497,
      "grad_norm": 0.12842205166816711,
      "learning_rate": 8e-05,
      "loss": 1.6625,
      "step": 237
    },
    {
      "epoch": 0.07970529135967849,
      "grad_norm": 0.1287446767091751,
      "learning_rate": 8e-05,
      "loss": 1.6441,
      "step": 238
    },
    {
      "epoch": 0.08004018754186203,
      "grad_norm": 0.1276853084564209,
      "learning_rate": 8e-05,
      "loss": 1.6234,
      "step": 239
    },
    {
      "epoch": 0.08037508372404555,
      "grad_norm": 0.11986161768436432,
      "learning_rate": 8e-05,
      "loss": 1.5695,
      "step": 240
    },
    {
      "epoch": 0.08070997990622907,
      "grad_norm": 0.15420754253864288,
      "learning_rate": 8e-05,
      "loss": 1.6242,
      "step": 241
    },
    {
      "epoch": 0.0810448760884126,
      "grad_norm": 0.13341009616851807,
      "learning_rate": 8e-05,
      "loss": 1.6636,
      "step": 242
    },
    {
      "epoch": 0.08137977227059612,
      "grad_norm": 0.13017718493938446,
      "learning_rate": 8e-05,
      "loss": 1.5764,
      "step": 243
    },
    {
      "epoch": 0.08171466845277964,
      "grad_norm": 0.1333867609500885,
      "learning_rate": 8e-05,
      "loss": 1.6226,
      "step": 244
    },
    {
      "epoch": 0.08204956463496316,
      "grad_norm": 0.12038980424404144,
      "learning_rate": 8e-05,
      "loss": 1.5324,
      "step": 245
    },
    {
      "epoch": 0.08238446081714669,
      "grad_norm": 0.13799628615379333,
      "learning_rate": 8e-05,
      "loss": 1.7581,
      "step": 246
    },
    {
      "epoch": 0.08271935699933021,
      "grad_norm": 0.12954330444335938,
      "learning_rate": 8e-05,
      "loss": 1.7118,
      "step": 247
    },
    {
      "epoch": 0.08305425318151373,
      "grad_norm": 0.12692566215991974,
      "learning_rate": 8e-05,
      "loss": 1.5337,
      "step": 248
    },
    {
      "epoch": 0.08338914936369725,
      "grad_norm": 0.12862838804721832,
      "learning_rate": 8e-05,
      "loss": 1.7025,
      "step": 249
    },
    {
      "epoch": 0.08372404554588078,
      "grad_norm": 0.1298748403787613,
      "learning_rate": 8e-05,
      "loss": 1.583,
      "step": 250
    },
    {
      "epoch": 0.0840589417280643,
      "grad_norm": 0.13790510594844818,
      "learning_rate": 8e-05,
      "loss": 1.6087,
      "step": 251
    },
    {
      "epoch": 0.08439383791024782,
      "grad_norm": 0.14163529872894287,
      "learning_rate": 8e-05,
      "loss": 1.4773,
      "step": 252
    },
    {
      "epoch": 0.08472873409243134,
      "grad_norm": 0.14391234517097473,
      "learning_rate": 8e-05,
      "loss": 1.7762,
      "step": 253
    },
    {
      "epoch": 0.08506363027461487,
      "grad_norm": 0.13988402485847473,
      "learning_rate": 8e-05,
      "loss": 1.6898,
      "step": 254
    },
    {
      "epoch": 0.0853985264567984,
      "grad_norm": 0.1351778358221054,
      "learning_rate": 8e-05,
      "loss": 1.5786,
      "step": 255
    },
    {
      "epoch": 0.08573342263898191,
      "grad_norm": 0.13305111229419708,
      "learning_rate": 8e-05,
      "loss": 1.5679,
      "step": 256
    },
    {
      "epoch": 0.08606831882116543,
      "grad_norm": 0.14515267312526703,
      "learning_rate": 8e-05,
      "loss": 1.6364,
      "step": 257
    },
    {
      "epoch": 0.08640321500334897,
      "grad_norm": 0.14456474781036377,
      "learning_rate": 8e-05,
      "loss": 1.5563,
      "step": 258
    },
    {
      "epoch": 0.08673811118553248,
      "grad_norm": 0.1505035012960434,
      "learning_rate": 8e-05,
      "loss": 1.6767,
      "step": 259
    },
    {
      "epoch": 0.087073007367716,
      "grad_norm": 0.13560758531093597,
      "learning_rate": 8e-05,
      "loss": 1.6272,
      "step": 260
    },
    {
      "epoch": 0.08740790354989954,
      "grad_norm": 0.1530362069606781,
      "learning_rate": 8e-05,
      "loss": 1.6504,
      "step": 261
    },
    {
      "epoch": 0.08774279973208306,
      "grad_norm": 0.13376513123512268,
      "learning_rate": 8e-05,
      "loss": 1.6268,
      "step": 262
    },
    {
      "epoch": 0.08807769591426658,
      "grad_norm": 0.159111887216568,
      "learning_rate": 8e-05,
      "loss": 1.7018,
      "step": 263
    },
    {
      "epoch": 0.0884125920964501,
      "grad_norm": 0.13603508472442627,
      "learning_rate": 8e-05,
      "loss": 1.634,
      "step": 264
    },
    {
      "epoch": 0.08874748827863363,
      "grad_norm": 0.12464874237775803,
      "learning_rate": 8e-05,
      "loss": 1.5871,
      "step": 265
    },
    {
      "epoch": 0.08908238446081715,
      "grad_norm": 0.1453225016593933,
      "learning_rate": 8e-05,
      "loss": 1.6764,
      "step": 266
    },
    {
      "epoch": 0.08941728064300067,
      "grad_norm": 0.13249950110912323,
      "learning_rate": 8e-05,
      "loss": 1.6361,
      "step": 267
    },
    {
      "epoch": 0.08975217682518419,
      "grad_norm": 0.1294647455215454,
      "learning_rate": 8e-05,
      "loss": 1.6061,
      "step": 268
    },
    {
      "epoch": 0.09008707300736772,
      "grad_norm": 0.1419537514448166,
      "learning_rate": 8e-05,
      "loss": 1.5646,
      "step": 269
    },
    {
      "epoch": 0.09042196918955124,
      "grad_norm": 0.13805575668811798,
      "learning_rate": 8e-05,
      "loss": 1.5526,
      "step": 270
    },
    {
      "epoch": 0.09075686537173476,
      "grad_norm": 0.15964828431606293,
      "learning_rate": 8e-05,
      "loss": 1.6277,
      "step": 271
    },
    {
      "epoch": 0.09109176155391828,
      "grad_norm": 0.12985216081142426,
      "learning_rate": 8e-05,
      "loss": 1.6549,
      "step": 272
    },
    {
      "epoch": 0.09142665773610181,
      "grad_norm": 0.16439229249954224,
      "learning_rate": 8e-05,
      "loss": 1.6423,
      "step": 273
    },
    {
      "epoch": 0.09176155391828533,
      "grad_norm": 0.14333172142505646,
      "learning_rate": 8e-05,
      "loss": 1.5542,
      "step": 274
    },
    {
      "epoch": 0.09209645010046885,
      "grad_norm": 0.14671702682971954,
      "learning_rate": 8e-05,
      "loss": 1.6214,
      "step": 275
    },
    {
      "epoch": 0.09243134628265237,
      "grad_norm": 0.14508962631225586,
      "learning_rate": 8e-05,
      "loss": 1.5411,
      "step": 276
    },
    {
      "epoch": 0.0927662424648359,
      "grad_norm": 0.12863118946552277,
      "learning_rate": 8e-05,
      "loss": 1.7015,
      "step": 277
    },
    {
      "epoch": 0.09310113864701942,
      "grad_norm": 0.1415577530860901,
      "learning_rate": 8e-05,
      "loss": 1.633,
      "step": 278
    },
    {
      "epoch": 0.09343603482920294,
      "grad_norm": 0.14167243242263794,
      "learning_rate": 8e-05,
      "loss": 1.6623,
      "step": 279
    },
    {
      "epoch": 0.09377093101138648,
      "grad_norm": 0.13272728025913239,
      "learning_rate": 8e-05,
      "loss": 1.6312,
      "step": 280
    },
    {
      "epoch": 0.09410582719357,
      "grad_norm": 0.1386936902999878,
      "learning_rate": 8e-05,
      "loss": 1.5674,
      "step": 281
    },
    {
      "epoch": 0.09444072337575352,
      "grad_norm": 0.12839989364147186,
      "learning_rate": 8e-05,
      "loss": 1.6384,
      "step": 282
    },
    {
      "epoch": 0.09477561955793704,
      "grad_norm": 0.14289548993110657,
      "learning_rate": 8e-05,
      "loss": 1.6375,
      "step": 283
    },
    {
      "epoch": 0.09511051574012057,
      "grad_norm": 0.12183179706335068,
      "learning_rate": 8e-05,
      "loss": 1.5347,
      "step": 284
    },
    {
      "epoch": 0.09544541192230409,
      "grad_norm": 0.14573480188846588,
      "learning_rate": 8e-05,
      "loss": 1.6439,
      "step": 285
    },
    {
      "epoch": 0.09578030810448761,
      "grad_norm": 0.12331729382276535,
      "learning_rate": 8e-05,
      "loss": 1.5624,
      "step": 286
    },
    {
      "epoch": 0.09611520428667113,
      "grad_norm": 0.13500013947486877,
      "learning_rate": 8e-05,
      "loss": 1.5806,
      "step": 287
    },
    {
      "epoch": 0.09645010046885466,
      "grad_norm": 0.13146473467350006,
      "learning_rate": 8e-05,
      "loss": 1.5359,
      "step": 288
    },
    {
      "epoch": 0.09678499665103818,
      "grad_norm": 0.1350795328617096,
      "learning_rate": 8e-05,
      "loss": 1.6617,
      "step": 289
    },
    {
      "epoch": 0.0971198928332217,
      "grad_norm": 0.1416560262441635,
      "learning_rate": 8e-05,
      "loss": 1.6238,
      "step": 290
    },
    {
      "epoch": 0.09745478901540522,
      "grad_norm": 0.13051164150238037,
      "learning_rate": 8e-05,
      "loss": 1.6081,
      "step": 291
    },
    {
      "epoch": 0.09778968519758875,
      "grad_norm": 0.12652809917926788,
      "learning_rate": 8e-05,
      "loss": 1.6588,
      "step": 292
    },
    {
      "epoch": 0.09812458137977227,
      "grad_norm": 0.12770383059978485,
      "learning_rate": 8e-05,
      "loss": 1.5207,
      "step": 293
    },
    {
      "epoch": 0.09845947756195579,
      "grad_norm": 0.12375983595848083,
      "learning_rate": 8e-05,
      "loss": 1.5734,
      "step": 294
    },
    {
      "epoch": 0.09879437374413931,
      "grad_norm": 0.13432243466377258,
      "learning_rate": 8e-05,
      "loss": 1.7354,
      "step": 295
    },
    {
      "epoch": 0.09912926992632284,
      "grad_norm": 0.13002386689186096,
      "learning_rate": 8e-05,
      "loss": 1.5604,
      "step": 296
    },
    {
      "epoch": 0.09946416610850636,
      "grad_norm": 0.13808605074882507,
      "learning_rate": 8e-05,
      "loss": 1.5978,
      "step": 297
    },
    {
      "epoch": 0.09979906229068988,
      "grad_norm": 0.1292102336883545,
      "learning_rate": 8e-05,
      "loss": 1.6465,
      "step": 298
    },
    {
      "epoch": 0.10013395847287342,
      "grad_norm": 0.1265101581811905,
      "learning_rate": 8e-05,
      "loss": 1.5064,
      "step": 299
    },
    {
      "epoch": 0.10046885465505694,
      "grad_norm": 0.14262820780277252,
      "learning_rate": 8e-05,
      "loss": 1.5604,
      "step": 300
    },
    {
      "epoch": 0.10080375083724046,
      "grad_norm": 0.12435801327228546,
      "learning_rate": 8e-05,
      "loss": 1.5567,
      "step": 301
    },
    {
      "epoch": 0.10113864701942397,
      "grad_norm": 0.15577438473701477,
      "learning_rate": 8e-05,
      "loss": 1.5633,
      "step": 302
    },
    {
      "epoch": 0.10147354320160751,
      "grad_norm": 0.132902130484581,
      "learning_rate": 8e-05,
      "loss": 1.6529,
      "step": 303
    },
    {
      "epoch": 0.10180843938379103,
      "grad_norm": 0.13546474277973175,
      "learning_rate": 8e-05,
      "loss": 1.5741,
      "step": 304
    },
    {
      "epoch": 0.10214333556597455,
      "grad_norm": 0.16034458577632904,
      "learning_rate": 8e-05,
      "loss": 1.6897,
      "step": 305
    },
    {
      "epoch": 0.10247823174815807,
      "grad_norm": 0.1373920887708664,
      "learning_rate": 8e-05,
      "loss": 1.6205,
      "step": 306
    },
    {
      "epoch": 0.1028131279303416,
      "grad_norm": 0.15001803636550903,
      "learning_rate": 8e-05,
      "loss": 1.5794,
      "step": 307
    },
    {
      "epoch": 0.10314802411252512,
      "grad_norm": 0.13629880547523499,
      "learning_rate": 8e-05,
      "loss": 1.6301,
      "step": 308
    },
    {
      "epoch": 0.10348292029470864,
      "grad_norm": 0.13363684713840485,
      "learning_rate": 8e-05,
      "loss": 1.634,
      "step": 309
    },
    {
      "epoch": 0.10381781647689216,
      "grad_norm": 0.1303631067276001,
      "learning_rate": 8e-05,
      "loss": 1.6467,
      "step": 310
    },
    {
      "epoch": 0.10415271265907569,
      "grad_norm": 0.1430165022611618,
      "learning_rate": 8e-05,
      "loss": 1.5346,
      "step": 311
    },
    {
      "epoch": 0.10448760884125921,
      "grad_norm": 0.12701477110385895,
      "learning_rate": 8e-05,
      "loss": 1.6324,
      "step": 312
    },
    {
      "epoch": 0.10482250502344273,
      "grad_norm": 0.12212160229682922,
      "learning_rate": 8e-05,
      "loss": 1.5645,
      "step": 313
    },
    {
      "epoch": 0.10515740120562625,
      "grad_norm": 0.14951957762241364,
      "learning_rate": 8e-05,
      "loss": 1.6353,
      "step": 314
    },
    {
      "epoch": 0.10549229738780978,
      "grad_norm": 0.13049724698066711,
      "learning_rate": 8e-05,
      "loss": 1.5468,
      "step": 315
    },
    {
      "epoch": 0.1058271935699933,
      "grad_norm": 0.13729169964790344,
      "learning_rate": 8e-05,
      "loss": 1.6731,
      "step": 316
    },
    {
      "epoch": 0.10616208975217682,
      "grad_norm": 0.1670583188533783,
      "learning_rate": 8e-05,
      "loss": 1.6332,
      "step": 317
    },
    {
      "epoch": 0.10649698593436034,
      "grad_norm": 0.13363654911518097,
      "learning_rate": 8e-05,
      "loss": 1.6821,
      "step": 318
    },
    {
      "epoch": 0.10683188211654387,
      "grad_norm": 0.16493171453475952,
      "learning_rate": 8e-05,
      "loss": 1.6387,
      "step": 319
    },
    {
      "epoch": 0.1071667782987274,
      "grad_norm": 0.12711116671562195,
      "learning_rate": 8e-05,
      "loss": 1.5287,
      "step": 320
    },
    {
      "epoch": 0.10750167448091091,
      "grad_norm": 0.12665478885173798,
      "learning_rate": 8e-05,
      "loss": 1.4935,
      "step": 321
    },
    {
      "epoch": 0.10783657066309445,
      "grad_norm": 0.13528165221214294,
      "learning_rate": 8e-05,
      "loss": 1.6411,
      "step": 322
    },
    {
      "epoch": 0.10817146684527797,
      "grad_norm": 0.13710694015026093,
      "learning_rate": 8e-05,
      "loss": 1.6292,
      "step": 323
    },
    {
      "epoch": 0.10850636302746149,
      "grad_norm": 0.14999240636825562,
      "learning_rate": 8e-05,
      "loss": 1.6179,
      "step": 324
    },
    {
      "epoch": 0.108841259209645,
      "grad_norm": 0.15133912861347198,
      "learning_rate": 8e-05,
      "loss": 1.6173,
      "step": 325
    },
    {
      "epoch": 0.10917615539182854,
      "grad_norm": 0.12932133674621582,
      "learning_rate": 8e-05,
      "loss": 1.5945,
      "step": 326
    },
    {
      "epoch": 0.10951105157401206,
      "grad_norm": 0.1577955186367035,
      "learning_rate": 8e-05,
      "loss": 1.5343,
      "step": 327
    },
    {
      "epoch": 0.10984594775619558,
      "grad_norm": 0.12615320086479187,
      "learning_rate": 8e-05,
      "loss": 1.6224,
      "step": 328
    },
    {
      "epoch": 0.1101808439383791,
      "grad_norm": 0.14010567963123322,
      "learning_rate": 8e-05,
      "loss": 1.5549,
      "step": 329
    },
    {
      "epoch": 0.11051574012056263,
      "grad_norm": 0.13906815648078918,
      "learning_rate": 8e-05,
      "loss": 1.6354,
      "step": 330
    },
    {
      "epoch": 0.11085063630274615,
      "grad_norm": 0.13214704394340515,
      "learning_rate": 8e-05,
      "loss": 1.6533,
      "step": 331
    },
    {
      "epoch": 0.11118553248492967,
      "grad_norm": 0.14559617638587952,
      "learning_rate": 8e-05,
      "loss": 1.6121,
      "step": 332
    },
    {
      "epoch": 0.11152042866711319,
      "grad_norm": 0.15021130442619324,
      "learning_rate": 8e-05,
      "loss": 1.6938,
      "step": 333
    },
    {
      "epoch": 0.11185532484929672,
      "grad_norm": 0.13228720426559448,
      "learning_rate": 8e-05,
      "loss": 1.6329,
      "step": 334
    },
    {
      "epoch": 0.11219022103148024,
      "grad_norm": 0.17142754793167114,
      "learning_rate": 8e-05,
      "loss": 1.6566,
      "step": 335
    },
    {
      "epoch": 0.11252511721366376,
      "grad_norm": 0.12142433971166611,
      "learning_rate": 8e-05,
      "loss": 1.4618,
      "step": 336
    },
    {
      "epoch": 0.11286001339584728,
      "grad_norm": 0.14100106060504913,
      "learning_rate": 8e-05,
      "loss": 1.6868,
      "step": 337
    },
    {
      "epoch": 0.11319490957803081,
      "grad_norm": 0.14501596987247467,
      "learning_rate": 8e-05,
      "loss": 1.6135,
      "step": 338
    },
    {
      "epoch": 0.11352980576021433,
      "grad_norm": 0.12176904082298279,
      "learning_rate": 8e-05,
      "loss": 1.512,
      "step": 339
    },
    {
      "epoch": 0.11386470194239785,
      "grad_norm": 0.13086272776126862,
      "learning_rate": 8e-05,
      "loss": 1.5907,
      "step": 340
    },
    {
      "epoch": 0.11419959812458139,
      "grad_norm": 0.14280778169631958,
      "learning_rate": 8e-05,
      "loss": 1.7079,
      "step": 341
    },
    {
      "epoch": 0.1145344943067649,
      "grad_norm": 0.13113300502300262,
      "learning_rate": 8e-05,
      "loss": 1.6784,
      "step": 342
    },
    {
      "epoch": 0.11486939048894843,
      "grad_norm": 0.12761156260967255,
      "learning_rate": 8e-05,
      "loss": 1.5767,
      "step": 343
    },
    {
      "epoch": 0.11520428667113194,
      "grad_norm": 0.13763435184955597,
      "learning_rate": 8e-05,
      "loss": 1.6306,
      "step": 344
    },
    {
      "epoch": 0.11553918285331548,
      "grad_norm": 0.12729217112064362,
      "learning_rate": 8e-05,
      "loss": 1.5662,
      "step": 345
    },
    {
      "epoch": 0.115874079035499,
      "grad_norm": 0.12821567058563232,
      "learning_rate": 8e-05,
      "loss": 1.6538,
      "step": 346
    },
    {
      "epoch": 0.11620897521768252,
      "grad_norm": 0.13095293939113617,
      "learning_rate": 8e-05,
      "loss": 1.6121,
      "step": 347
    },
    {
      "epoch": 0.11654387139986604,
      "grad_norm": 0.1328771561384201,
      "learning_rate": 8e-05,
      "loss": 1.6736,
      "step": 348
    },
    {
      "epoch": 0.11687876758204957,
      "grad_norm": 0.1241132840514183,
      "learning_rate": 8e-05,
      "loss": 1.6193,
      "step": 349
    },
    {
      "epoch": 0.11721366376423309,
      "grad_norm": 0.14237681031227112,
      "learning_rate": 8e-05,
      "loss": 1.7792,
      "step": 350
    },
    {
      "epoch": 0.11754855994641661,
      "grad_norm": 0.13415323197841644,
      "learning_rate": 8e-05,
      "loss": 1.6551,
      "step": 351
    },
    {
      "epoch": 0.11788345612860013,
      "grad_norm": 0.12870872020721436,
      "learning_rate": 8e-05,
      "loss": 1.4918,
      "step": 352
    },
    {
      "epoch": 0.11821835231078366,
      "grad_norm": 0.1433587670326233,
      "learning_rate": 8e-05,
      "loss": 1.6071,
      "step": 353
    },
    {
      "epoch": 0.11855324849296718,
      "grad_norm": 0.12375536561012268,
      "learning_rate": 8e-05,
      "loss": 1.5925,
      "step": 354
    },
    {
      "epoch": 0.1188881446751507,
      "grad_norm": 0.14355725049972534,
      "learning_rate": 8e-05,
      "loss": 1.6132,
      "step": 355
    },
    {
      "epoch": 0.11922304085733422,
      "grad_norm": 0.13450586795806885,
      "learning_rate": 8e-05,
      "loss": 1.6497,
      "step": 356
    },
    {
      "epoch": 0.11955793703951775,
      "grad_norm": 0.13042278587818146,
      "learning_rate": 8e-05,
      "loss": 1.6677,
      "step": 357
    },
    {
      "epoch": 0.11989283322170127,
      "grad_norm": 0.16174064576625824,
      "learning_rate": 8e-05,
      "loss": 1.6161,
      "step": 358
    },
    {
      "epoch": 0.12022772940388479,
      "grad_norm": 0.12506970763206482,
      "learning_rate": 8e-05,
      "loss": 1.6111,
      "step": 359
    },
    {
      "epoch": 0.12056262558606833,
      "grad_norm": 0.15299761295318604,
      "learning_rate": 8e-05,
      "loss": 1.6863,
      "step": 360
    },
    {
      "epoch": 0.12089752176825184,
      "grad_norm": 0.13803331553936005,
      "learning_rate": 8e-05,
      "loss": 1.6225,
      "step": 361
    },
    {
      "epoch": 0.12123241795043536,
      "grad_norm": 0.12191504240036011,
      "learning_rate": 8e-05,
      "loss": 1.4486,
      "step": 362
    },
    {
      "epoch": 0.12156731413261888,
      "grad_norm": 0.14491215348243713,
      "learning_rate": 8e-05,
      "loss": 1.6217,
      "step": 363
    },
    {
      "epoch": 0.12190221031480242,
      "grad_norm": 0.1296664923429489,
      "learning_rate": 8e-05,
      "loss": 1.5996,
      "step": 364
    },
    {
      "epoch": 0.12223710649698594,
      "grad_norm": 0.13325826823711395,
      "learning_rate": 8e-05,
      "loss": 1.5969,
      "step": 365
    },
    {
      "epoch": 0.12257200267916946,
      "grad_norm": 0.1380356252193451,
      "learning_rate": 8e-05,
      "loss": 1.6161,
      "step": 366
    },
    {
      "epoch": 0.12290689886135298,
      "grad_norm": 0.13105647265911102,
      "learning_rate": 8e-05,
      "loss": 1.6761,
      "step": 367
    },
    {
      "epoch": 0.12324179504353651,
      "grad_norm": 0.14863356947898865,
      "learning_rate": 8e-05,
      "loss": 1.5867,
      "step": 368
    },
    {
      "epoch": 0.12357669122572003,
      "grad_norm": 0.1238437071442604,
      "learning_rate": 8e-05,
      "loss": 1.5829,
      "step": 369
    },
    {
      "epoch": 0.12391158740790355,
      "grad_norm": 0.12522375583648682,
      "learning_rate": 8e-05,
      "loss": 1.6404,
      "step": 370
    },
    {
      "epoch": 0.12424648359008707,
      "grad_norm": 0.12809938192367554,
      "learning_rate": 8e-05,
      "loss": 1.6545,
      "step": 371
    },
    {
      "epoch": 0.1245813797722706,
      "grad_norm": 0.12585054337978363,
      "learning_rate": 8e-05,
      "loss": 1.5577,
      "step": 372
    },
    {
      "epoch": 0.12491627595445412,
      "grad_norm": 0.13621467351913452,
      "learning_rate": 8e-05,
      "loss": 1.6721,
      "step": 373
    },
    {
      "epoch": 0.12525117213663764,
      "grad_norm": 0.13385498523712158,
      "learning_rate": 8e-05,
      "loss": 1.6394,
      "step": 374
    },
    {
      "epoch": 0.12558606831882116,
      "grad_norm": 0.1331118494272232,
      "learning_rate": 8e-05,
      "loss": 1.6151,
      "step": 375
    },
    {
      "epoch": 0.12592096450100468,
      "grad_norm": 0.1328865885734558,
      "learning_rate": 8e-05,
      "loss": 1.6657,
      "step": 376
    },
    {
      "epoch": 0.1262558606831882,
      "grad_norm": 0.12828217446804047,
      "learning_rate": 8e-05,
      "loss": 1.6507,
      "step": 377
    },
    {
      "epoch": 0.12659075686537175,
      "grad_norm": 0.1252257376909256,
      "learning_rate": 8e-05,
      "loss": 1.5429,
      "step": 378
    },
    {
      "epoch": 0.12692565304755526,
      "grad_norm": 0.13641513884067535,
      "learning_rate": 8e-05,
      "loss": 1.5577,
      "step": 379
    },
    {
      "epoch": 0.12726054922973878,
      "grad_norm": 0.12115569412708282,
      "learning_rate": 8e-05,
      "loss": 1.4977,
      "step": 380
    },
    {
      "epoch": 0.1275954454119223,
      "grad_norm": 0.127084419131279,
      "learning_rate": 8e-05,
      "loss": 1.5691,
      "step": 381
    },
    {
      "epoch": 0.12793034159410582,
      "grad_norm": 0.12692339718341827,
      "learning_rate": 8e-05,
      "loss": 1.5642,
      "step": 382
    },
    {
      "epoch": 0.12826523777628934,
      "grad_norm": 0.1293323040008545,
      "learning_rate": 8e-05,
      "loss": 1.6182,
      "step": 383
    },
    {
      "epoch": 0.12860013395847286,
      "grad_norm": 0.1293933242559433,
      "learning_rate": 8e-05,
      "loss": 1.6582,
      "step": 384
    },
    {
      "epoch": 0.1289350301406564,
      "grad_norm": 0.12225325405597687,
      "learning_rate": 8e-05,
      "loss": 1.5667,
      "step": 385
    },
    {
      "epoch": 0.12926992632283993,
      "grad_norm": 0.13350380957126617,
      "learning_rate": 8e-05,
      "loss": 1.6304,
      "step": 386
    },
    {
      "epoch": 0.12960482250502345,
      "grad_norm": 0.12509576976299286,
      "learning_rate": 8e-05,
      "loss": 1.5679,
      "step": 387
    },
    {
      "epoch": 0.12993971868720697,
      "grad_norm": 0.13482020795345306,
      "learning_rate": 8e-05,
      "loss": 1.6827,
      "step": 388
    },
    {
      "epoch": 0.1302746148693905,
      "grad_norm": 0.13278841972351074,
      "learning_rate": 8e-05,
      "loss": 1.5276,
      "step": 389
    },
    {
      "epoch": 0.130609511051574,
      "grad_norm": 0.12313792109489441,
      "learning_rate": 8e-05,
      "loss": 1.5421,
      "step": 390
    },
    {
      "epoch": 0.13094440723375753,
      "grad_norm": 0.1197550818324089,
      "learning_rate": 8e-05,
      "loss": 1.5418,
      "step": 391
    },
    {
      "epoch": 0.13127930341594105,
      "grad_norm": 0.14532947540283203,
      "learning_rate": 8e-05,
      "loss": 1.6568,
      "step": 392
    },
    {
      "epoch": 0.1316141995981246,
      "grad_norm": 0.1265089213848114,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 393
    },
    {
      "epoch": 0.1319490957803081,
      "grad_norm": 0.1229051873087883,
      "learning_rate": 8e-05,
      "loss": 1.5226,
      "step": 394
    },
    {
      "epoch": 0.13228399196249163,
      "grad_norm": 0.14637337625026703,
      "learning_rate": 8e-05,
      "loss": 1.7284,
      "step": 395
    },
    {
      "epoch": 0.13261888814467515,
      "grad_norm": 0.12465133517980576,
      "learning_rate": 8e-05,
      "loss": 1.6187,
      "step": 396
    },
    {
      "epoch": 0.13295378432685867,
      "grad_norm": 0.13505584001541138,
      "learning_rate": 8e-05,
      "loss": 1.6867,
      "step": 397
    },
    {
      "epoch": 0.1332886805090422,
      "grad_norm": 0.13241641223430634,
      "learning_rate": 8e-05,
      "loss": 1.5626,
      "step": 398
    },
    {
      "epoch": 0.1336235766912257,
      "grad_norm": 0.12877307832241058,
      "learning_rate": 8e-05,
      "loss": 1.622,
      "step": 399
    },
    {
      "epoch": 0.13395847287340926,
      "grad_norm": 0.12200705707073212,
      "learning_rate": 8e-05,
      "loss": 1.5691,
      "step": 400
    },
    {
      "epoch": 0.13429336905559278,
      "grad_norm": 0.1390073299407959,
      "learning_rate": 8e-05,
      "loss": 1.7786,
      "step": 401
    },
    {
      "epoch": 0.1346282652377763,
      "grad_norm": 0.14014361798763275,
      "learning_rate": 8e-05,
      "loss": 1.6488,
      "step": 402
    },
    {
      "epoch": 0.13496316141995982,
      "grad_norm": 0.12359379231929779,
      "learning_rate": 8e-05,
      "loss": 1.5403,
      "step": 403
    },
    {
      "epoch": 0.13529805760214333,
      "grad_norm": 0.12996888160705566,
      "learning_rate": 8e-05,
      "loss": 1.6153,
      "step": 404
    },
    {
      "epoch": 0.13563295378432685,
      "grad_norm": 0.14018549025058746,
      "learning_rate": 8e-05,
      "loss": 1.5458,
      "step": 405
    },
    {
      "epoch": 0.13596784996651037,
      "grad_norm": 0.1212407648563385,
      "learning_rate": 8e-05,
      "loss": 1.5155,
      "step": 406
    },
    {
      "epoch": 0.1363027461486939,
      "grad_norm": 0.12940961122512817,
      "learning_rate": 8e-05,
      "loss": 1.5354,
      "step": 407
    },
    {
      "epoch": 0.13663764233087744,
      "grad_norm": 0.15821991860866547,
      "learning_rate": 8e-05,
      "loss": 1.6564,
      "step": 408
    },
    {
      "epoch": 0.13697253851306096,
      "grad_norm": 0.13212034106254578,
      "learning_rate": 8e-05,
      "loss": 1.6676,
      "step": 409
    },
    {
      "epoch": 0.13730743469524448,
      "grad_norm": 0.13419748842716217,
      "learning_rate": 8e-05,
      "loss": 1.5498,
      "step": 410
    },
    {
      "epoch": 0.137642330877428,
      "grad_norm": 0.13691389560699463,
      "learning_rate": 8e-05,
      "loss": 1.5413,
      "step": 411
    },
    {
      "epoch": 0.13797722705961152,
      "grad_norm": 0.13718146085739136,
      "learning_rate": 8e-05,
      "loss": 1.56,
      "step": 412
    },
    {
      "epoch": 0.13831212324179504,
      "grad_norm": 0.1301390379667282,
      "learning_rate": 8e-05,
      "loss": 1.6732,
      "step": 413
    },
    {
      "epoch": 0.13864701942397856,
      "grad_norm": 0.1306130737066269,
      "learning_rate": 8e-05,
      "loss": 1.5879,
      "step": 414
    },
    {
      "epoch": 0.13898191560616208,
      "grad_norm": 0.13470587134361267,
      "learning_rate": 8e-05,
      "loss": 1.6049,
      "step": 415
    },
    {
      "epoch": 0.13931681178834562,
      "grad_norm": 0.13014133274555206,
      "learning_rate": 8e-05,
      "loss": 1.5956,
      "step": 416
    },
    {
      "epoch": 0.13965170797052914,
      "grad_norm": 0.13020925223827362,
      "learning_rate": 8e-05,
      "loss": 1.5523,
      "step": 417
    },
    {
      "epoch": 0.13998660415271266,
      "grad_norm": 0.13919077813625336,
      "learning_rate": 8e-05,
      "loss": 1.6297,
      "step": 418
    },
    {
      "epoch": 0.14032150033489618,
      "grad_norm": 0.1416609138250351,
      "learning_rate": 8e-05,
      "loss": 1.5702,
      "step": 419
    },
    {
      "epoch": 0.1406563965170797,
      "grad_norm": 0.12856781482696533,
      "learning_rate": 8e-05,
      "loss": 1.5276,
      "step": 420
    },
    {
      "epoch": 0.14099129269926322,
      "grad_norm": 0.13547192513942719,
      "learning_rate": 8e-05,
      "loss": 1.6297,
      "step": 421
    },
    {
      "epoch": 0.14132618888144674,
      "grad_norm": 0.1383880227804184,
      "learning_rate": 8e-05,
      "loss": 1.6114,
      "step": 422
    },
    {
      "epoch": 0.1416610850636303,
      "grad_norm": 0.12222875654697418,
      "learning_rate": 8e-05,
      "loss": 1.5552,
      "step": 423
    },
    {
      "epoch": 0.1419959812458138,
      "grad_norm": 0.1255347579717636,
      "learning_rate": 8e-05,
      "loss": 1.5277,
      "step": 424
    },
    {
      "epoch": 0.14233087742799733,
      "grad_norm": 0.13630975782871246,
      "learning_rate": 8e-05,
      "loss": 1.6292,
      "step": 425
    },
    {
      "epoch": 0.14266577361018085,
      "grad_norm": 0.12702496349811554,
      "learning_rate": 8e-05,
      "loss": 1.6118,
      "step": 426
    },
    {
      "epoch": 0.14300066979236437,
      "grad_norm": 0.13818618655204773,
      "learning_rate": 8e-05,
      "loss": 1.5871,
      "step": 427
    },
    {
      "epoch": 0.14333556597454788,
      "grad_norm": 0.12235737591981888,
      "learning_rate": 8e-05,
      "loss": 1.5735,
      "step": 428
    },
    {
      "epoch": 0.1436704621567314,
      "grad_norm": 0.12517410516738892,
      "learning_rate": 8e-05,
      "loss": 1.6176,
      "step": 429
    },
    {
      "epoch": 0.14400535833891492,
      "grad_norm": 0.1344120353460312,
      "learning_rate": 8e-05,
      "loss": 1.5991,
      "step": 430
    },
    {
      "epoch": 0.14434025452109847,
      "grad_norm": 0.13071677088737488,
      "learning_rate": 8e-05,
      "loss": 1.6642,
      "step": 431
    },
    {
      "epoch": 0.144675150703282,
      "grad_norm": 0.13913211226463318,
      "learning_rate": 8e-05,
      "loss": 1.6042,
      "step": 432
    },
    {
      "epoch": 0.1450100468854655,
      "grad_norm": 0.12745611369609833,
      "learning_rate": 8e-05,
      "loss": 1.5706,
      "step": 433
    },
    {
      "epoch": 0.14534494306764903,
      "grad_norm": 0.12724733352661133,
      "learning_rate": 8e-05,
      "loss": 1.5938,
      "step": 434
    },
    {
      "epoch": 0.14567983924983255,
      "grad_norm": 0.13581429421901703,
      "learning_rate": 8e-05,
      "loss": 1.5988,
      "step": 435
    },
    {
      "epoch": 0.14601473543201607,
      "grad_norm": 0.12753266096115112,
      "learning_rate": 8e-05,
      "loss": 1.5622,
      "step": 436
    },
    {
      "epoch": 0.1463496316141996,
      "grad_norm": 0.13195131719112396,
      "learning_rate": 8e-05,
      "loss": 1.5564,
      "step": 437
    },
    {
      "epoch": 0.14668452779638314,
      "grad_norm": 0.12851957976818085,
      "learning_rate": 8e-05,
      "loss": 1.5903,
      "step": 438
    },
    {
      "epoch": 0.14701942397856665,
      "grad_norm": 0.12762846052646637,
      "learning_rate": 8e-05,
      "loss": 1.6469,
      "step": 439
    },
    {
      "epoch": 0.14735432016075017,
      "grad_norm": 0.12404768913984299,
      "learning_rate": 8e-05,
      "loss": 1.5976,
      "step": 440
    },
    {
      "epoch": 0.1476892163429337,
      "grad_norm": 0.12643830478191376,
      "learning_rate": 8e-05,
      "loss": 1.5578,
      "step": 441
    },
    {
      "epoch": 0.1480241125251172,
      "grad_norm": 0.12822367250919342,
      "learning_rate": 8e-05,
      "loss": 1.5675,
      "step": 442
    },
    {
      "epoch": 0.14835900870730073,
      "grad_norm": 0.12617523968219757,
      "learning_rate": 8e-05,
      "loss": 1.5333,
      "step": 443
    },
    {
      "epoch": 0.14869390488948425,
      "grad_norm": 0.13286514580249786,
      "learning_rate": 8e-05,
      "loss": 1.7077,
      "step": 444
    },
    {
      "epoch": 0.14902880107166777,
      "grad_norm": 0.137756809592247,
      "learning_rate": 8e-05,
      "loss": 1.6734,
      "step": 445
    },
    {
      "epoch": 0.14936369725385132,
      "grad_norm": 0.12570279836654663,
      "learning_rate": 8e-05,
      "loss": 1.62,
      "step": 446
    },
    {
      "epoch": 0.14969859343603484,
      "grad_norm": 0.13079990446567535,
      "learning_rate": 8e-05,
      "loss": 1.5643,
      "step": 447
    },
    {
      "epoch": 0.15003348961821836,
      "grad_norm": 0.12616747617721558,
      "learning_rate": 8e-05,
      "loss": 1.625,
      "step": 448
    },
    {
      "epoch": 0.15036838580040188,
      "grad_norm": 0.12348031252622604,
      "learning_rate": 8e-05,
      "loss": 1.5425,
      "step": 449
    },
    {
      "epoch": 0.1507032819825854,
      "grad_norm": 0.1285775601863861,
      "learning_rate": 8e-05,
      "loss": 1.622,
      "step": 450
    },
    {
      "epoch": 0.15103817816476892,
      "grad_norm": 0.1266283541917801,
      "learning_rate": 8e-05,
      "loss": 1.6738,
      "step": 451
    },
    {
      "epoch": 0.15137307434695244,
      "grad_norm": 0.13568246364593506,
      "learning_rate": 8e-05,
      "loss": 1.5484,
      "step": 452
    },
    {
      "epoch": 0.15170797052913595,
      "grad_norm": 0.12279605865478516,
      "learning_rate": 8e-05,
      "loss": 1.5527,
      "step": 453
    },
    {
      "epoch": 0.1520428667113195,
      "grad_norm": 0.12912510335445404,
      "learning_rate": 8e-05,
      "loss": 1.5417,
      "step": 454
    },
    {
      "epoch": 0.15237776289350302,
      "grad_norm": 0.12676158547401428,
      "learning_rate": 8e-05,
      "loss": 1.5159,
      "step": 455
    },
    {
      "epoch": 0.15271265907568654,
      "grad_norm": 0.13084645569324493,
      "learning_rate": 8e-05,
      "loss": 1.5945,
      "step": 456
    },
    {
      "epoch": 0.15304755525787006,
      "grad_norm": 0.12528519332408905,
      "learning_rate": 8e-05,
      "loss": 1.5018,
      "step": 457
    },
    {
      "epoch": 0.15338245144005358,
      "grad_norm": 0.14163222908973694,
      "learning_rate": 8e-05,
      "loss": 1.663,
      "step": 458
    },
    {
      "epoch": 0.1537173476222371,
      "grad_norm": 0.13563640415668488,
      "learning_rate": 8e-05,
      "loss": 1.7279,
      "step": 459
    },
    {
      "epoch": 0.15405224380442062,
      "grad_norm": 0.13989901542663574,
      "learning_rate": 8e-05,
      "loss": 1.6746,
      "step": 460
    },
    {
      "epoch": 0.15438713998660417,
      "grad_norm": 0.1254369020462036,
      "learning_rate": 8e-05,
      "loss": 1.5961,
      "step": 461
    },
    {
      "epoch": 0.15472203616878769,
      "grad_norm": 0.1333695650100708,
      "learning_rate": 8e-05,
      "loss": 1.5595,
      "step": 462
    },
    {
      "epoch": 0.1550569323509712,
      "grad_norm": 0.13535459339618683,
      "learning_rate": 8e-05,
      "loss": 1.6434,
      "step": 463
    },
    {
      "epoch": 0.15539182853315472,
      "grad_norm": 0.13424526154994965,
      "learning_rate": 8e-05,
      "loss": 1.6246,
      "step": 464
    },
    {
      "epoch": 0.15572672471533824,
      "grad_norm": 0.15918241441249847,
      "learning_rate": 8e-05,
      "loss": 1.5495,
      "step": 465
    },
    {
      "epoch": 0.15606162089752176,
      "grad_norm": 0.13146637380123138,
      "learning_rate": 8e-05,
      "loss": 1.6771,
      "step": 466
    },
    {
      "epoch": 0.15639651707970528,
      "grad_norm": 0.13149484992027283,
      "learning_rate": 8e-05,
      "loss": 1.5689,
      "step": 467
    },
    {
      "epoch": 0.1567314132618888,
      "grad_norm": 0.1319151669740677,
      "learning_rate": 8e-05,
      "loss": 1.5839,
      "step": 468
    },
    {
      "epoch": 0.15706630944407235,
      "grad_norm": 0.12628664076328278,
      "learning_rate": 8e-05,
      "loss": 1.6334,
      "step": 469
    },
    {
      "epoch": 0.15740120562625587,
      "grad_norm": 0.134039506316185,
      "learning_rate": 8e-05,
      "loss": 1.675,
      "step": 470
    },
    {
      "epoch": 0.1577361018084394,
      "grad_norm": 0.12878106534481049,
      "learning_rate": 8e-05,
      "loss": 1.6506,
      "step": 471
    },
    {
      "epoch": 0.1580709979906229,
      "grad_norm": 0.12769190967082977,
      "learning_rate": 8e-05,
      "loss": 1.6033,
      "step": 472
    },
    {
      "epoch": 0.15840589417280643,
      "grad_norm": 0.129012331366539,
      "learning_rate": 8e-05,
      "loss": 1.6608,
      "step": 473
    },
    {
      "epoch": 0.15874079035498995,
      "grad_norm": 0.13611294329166412,
      "learning_rate": 8e-05,
      "loss": 1.6504,
      "step": 474
    },
    {
      "epoch": 0.15907568653717347,
      "grad_norm": 0.12331051379442215,
      "learning_rate": 8e-05,
      "loss": 1.574,
      "step": 475
    },
    {
      "epoch": 0.15941058271935699,
      "grad_norm": 0.12994658946990967,
      "learning_rate": 8e-05,
      "loss": 1.5843,
      "step": 476
    },
    {
      "epoch": 0.15974547890154053,
      "grad_norm": 0.12781530618667603,
      "learning_rate": 8e-05,
      "loss": 1.6251,
      "step": 477
    },
    {
      "epoch": 0.16008037508372405,
      "grad_norm": 0.13178999722003937,
      "learning_rate": 8e-05,
      "loss": 1.5573,
      "step": 478
    },
    {
      "epoch": 0.16041527126590757,
      "grad_norm": 0.12682422995567322,
      "learning_rate": 8e-05,
      "loss": 1.5642,
      "step": 479
    },
    {
      "epoch": 0.1607501674480911,
      "grad_norm": 0.1209898293018341,
      "learning_rate": 8e-05,
      "loss": 1.5578,
      "step": 480
    },
    {
      "epoch": 0.1610850636302746,
      "grad_norm": 0.1279502660036087,
      "learning_rate": 8e-05,
      "loss": 1.586,
      "step": 481
    },
    {
      "epoch": 0.16141995981245813,
      "grad_norm": 0.12831218540668488,
      "learning_rate": 8e-05,
      "loss": 1.6616,
      "step": 482
    },
    {
      "epoch": 0.16175485599464165,
      "grad_norm": 0.1296817511320114,
      "learning_rate": 8e-05,
      "loss": 1.6946,
      "step": 483
    },
    {
      "epoch": 0.1620897521768252,
      "grad_norm": 0.12719739973545074,
      "learning_rate": 8e-05,
      "loss": 1.4737,
      "step": 484
    },
    {
      "epoch": 0.16242464835900872,
      "grad_norm": 0.13770955801010132,
      "learning_rate": 8e-05,
      "loss": 1.5864,
      "step": 485
    },
    {
      "epoch": 0.16275954454119224,
      "grad_norm": 0.12656912207603455,
      "learning_rate": 8e-05,
      "loss": 1.5355,
      "step": 486
    },
    {
      "epoch": 0.16309444072337576,
      "grad_norm": 0.12855477631092072,
      "learning_rate": 8e-05,
      "loss": 1.6397,
      "step": 487
    },
    {
      "epoch": 0.16342933690555927,
      "grad_norm": 0.12420003861188889,
      "learning_rate": 8e-05,
      "loss": 1.5485,
      "step": 488
    },
    {
      "epoch": 0.1637642330877428,
      "grad_norm": 0.12392479926347733,
      "learning_rate": 8e-05,
      "loss": 1.5301,
      "step": 489
    },
    {
      "epoch": 0.1640991292699263,
      "grad_norm": 0.11958851665258408,
      "learning_rate": 8e-05,
      "loss": 1.5236,
      "step": 490
    },
    {
      "epoch": 0.16443402545210983,
      "grad_norm": 0.12865790724754333,
      "learning_rate": 8e-05,
      "loss": 1.6581,
      "step": 491
    },
    {
      "epoch": 0.16476892163429338,
      "grad_norm": 0.12557639181613922,
      "learning_rate": 8e-05,
      "loss": 1.583,
      "step": 492
    },
    {
      "epoch": 0.1651038178164769,
      "grad_norm": 0.13103145360946655,
      "learning_rate": 8e-05,
      "loss": 1.6865,
      "step": 493
    },
    {
      "epoch": 0.16543871399866042,
      "grad_norm": 0.12919192016124725,
      "learning_rate": 8e-05,
      "loss": 1.7036,
      "step": 494
    },
    {
      "epoch": 0.16577361018084394,
      "grad_norm": 0.12748879194259644,
      "learning_rate": 8e-05,
      "loss": 1.6258,
      "step": 495
    },
    {
      "epoch": 0.16610850636302746,
      "grad_norm": 0.1275051236152649,
      "learning_rate": 8e-05,
      "loss": 1.6514,
      "step": 496
    },
    {
      "epoch": 0.16644340254521098,
      "grad_norm": 0.13048359751701355,
      "learning_rate": 8e-05,
      "loss": 1.4981,
      "step": 497
    },
    {
      "epoch": 0.1667782987273945,
      "grad_norm": 0.1327805370092392,
      "learning_rate": 8e-05,
      "loss": 1.6429,
      "step": 498
    },
    {
      "epoch": 0.16711319490957804,
      "grad_norm": 0.1276085525751114,
      "learning_rate": 8e-05,
      "loss": 1.5942,
      "step": 499
    },
    {
      "epoch": 0.16744809109176156,
      "grad_norm": 0.12235596030950546,
      "learning_rate": 8e-05,
      "loss": 1.4967,
      "step": 500
    },
    {
      "epoch": 0.16778298727394508,
      "grad_norm": 0.12662802636623383,
      "learning_rate": 8e-05,
      "loss": 1.597,
      "step": 501
    },
    {
      "epoch": 0.1681178834561286,
      "grad_norm": 0.1307346671819687,
      "learning_rate": 8e-05,
      "loss": 1.5959,
      "step": 502
    },
    {
      "epoch": 0.16845277963831212,
      "grad_norm": 0.1473594754934311,
      "learning_rate": 8e-05,
      "loss": 1.6284,
      "step": 503
    },
    {
      "epoch": 0.16878767582049564,
      "grad_norm": 0.12997916340827942,
      "learning_rate": 8e-05,
      "loss": 1.6144,
      "step": 504
    },
    {
      "epoch": 0.16912257200267916,
      "grad_norm": 0.13634514808654785,
      "learning_rate": 8e-05,
      "loss": 1.5529,
      "step": 505
    },
    {
      "epoch": 0.16945746818486268,
      "grad_norm": 0.12623892724514008,
      "learning_rate": 8e-05,
      "loss": 1.5876,
      "step": 506
    },
    {
      "epoch": 0.16979236436704623,
      "grad_norm": 0.13536874949932098,
      "learning_rate": 8e-05,
      "loss": 1.5424,
      "step": 507
    },
    {
      "epoch": 0.17012726054922975,
      "grad_norm": 0.13530270755290985,
      "learning_rate": 8e-05,
      "loss": 1.6331,
      "step": 508
    },
    {
      "epoch": 0.17046215673141327,
      "grad_norm": 0.14404425024986267,
      "learning_rate": 8e-05,
      "loss": 1.6518,
      "step": 509
    },
    {
      "epoch": 0.1707970529135968,
      "grad_norm": 0.12791600823402405,
      "learning_rate": 8e-05,
      "loss": 1.5653,
      "step": 510
    },
    {
      "epoch": 0.1711319490957803,
      "grad_norm": 0.12322878837585449,
      "learning_rate": 8e-05,
      "loss": 1.5368,
      "step": 511
    },
    {
      "epoch": 0.17146684527796383,
      "grad_norm": 0.1251021772623062,
      "learning_rate": 8e-05,
      "loss": 1.6447,
      "step": 512
    },
    {
      "epoch": 0.17180174146014734,
      "grad_norm": 0.14288383722305298,
      "learning_rate": 8e-05,
      "loss": 1.541,
      "step": 513
    },
    {
      "epoch": 0.17213663764233086,
      "grad_norm": 0.13200585544109344,
      "learning_rate": 8e-05,
      "loss": 1.7025,
      "step": 514
    },
    {
      "epoch": 0.1724715338245144,
      "grad_norm": 0.1323479562997818,
      "learning_rate": 8e-05,
      "loss": 1.6324,
      "step": 515
    },
    {
      "epoch": 0.17280643000669793,
      "grad_norm": 0.12109513580799103,
      "learning_rate": 8e-05,
      "loss": 1.5635,
      "step": 516
    },
    {
      "epoch": 0.17314132618888145,
      "grad_norm": 0.13594083487987518,
      "learning_rate": 8e-05,
      "loss": 1.5631,
      "step": 517
    },
    {
      "epoch": 0.17347622237106497,
      "grad_norm": 0.1257733702659607,
      "learning_rate": 8e-05,
      "loss": 1.562,
      "step": 518
    },
    {
      "epoch": 0.1738111185532485,
      "grad_norm": 0.12631259858608246,
      "learning_rate": 8e-05,
      "loss": 1.5059,
      "step": 519
    },
    {
      "epoch": 0.174146014735432,
      "grad_norm": 0.1324077993631363,
      "learning_rate": 8e-05,
      "loss": 1.5343,
      "step": 520
    },
    {
      "epoch": 0.17448091091761553,
      "grad_norm": 0.13295979797840118,
      "learning_rate": 8e-05,
      "loss": 1.5234,
      "step": 521
    },
    {
      "epoch": 0.17481580709979908,
      "grad_norm": 0.13730348646640778,
      "learning_rate": 8e-05,
      "loss": 1.5432,
      "step": 522
    },
    {
      "epoch": 0.1751507032819826,
      "grad_norm": 0.13887625932693481,
      "learning_rate": 8e-05,
      "loss": 1.5781,
      "step": 523
    },
    {
      "epoch": 0.17548559946416611,
      "grad_norm": 0.13674935698509216,
      "learning_rate": 8e-05,
      "loss": 1.7046,
      "step": 524
    },
    {
      "epoch": 0.17582049564634963,
      "grad_norm": 0.1312791258096695,
      "learning_rate": 8e-05,
      "loss": 1.6564,
      "step": 525
    },
    {
      "epoch": 0.17615539182853315,
      "grad_norm": 0.13341623544692993,
      "learning_rate": 8e-05,
      "loss": 1.548,
      "step": 526
    },
    {
      "epoch": 0.17649028801071667,
      "grad_norm": 0.12605854868888855,
      "learning_rate": 8e-05,
      "loss": 1.601,
      "step": 527
    },
    {
      "epoch": 0.1768251841929002,
      "grad_norm": 0.1298142820596695,
      "learning_rate": 8e-05,
      "loss": 1.6824,
      "step": 528
    },
    {
      "epoch": 0.1771600803750837,
      "grad_norm": 0.1311623603105545,
      "learning_rate": 8e-05,
      "loss": 1.6189,
      "step": 529
    },
    {
      "epoch": 0.17749497655726726,
      "grad_norm": 0.12505728006362915,
      "learning_rate": 8e-05,
      "loss": 1.5102,
      "step": 530
    },
    {
      "epoch": 0.17782987273945078,
      "grad_norm": 0.13691647350788116,
      "learning_rate": 8e-05,
      "loss": 1.5512,
      "step": 531
    },
    {
      "epoch": 0.1781647689216343,
      "grad_norm": 0.12755127251148224,
      "learning_rate": 8e-05,
      "loss": 1.5518,
      "step": 532
    },
    {
      "epoch": 0.17849966510381782,
      "grad_norm": 0.12900443375110626,
      "learning_rate": 8e-05,
      "loss": 1.6127,
      "step": 533
    },
    {
      "epoch": 0.17883456128600134,
      "grad_norm": 0.12382646650075912,
      "learning_rate": 8e-05,
      "loss": 1.5426,
      "step": 534
    },
    {
      "epoch": 0.17916945746818486,
      "grad_norm": 0.13243038952350616,
      "learning_rate": 8e-05,
      "loss": 1.6745,
      "step": 535
    },
    {
      "epoch": 0.17950435365036838,
      "grad_norm": 0.1327180415391922,
      "learning_rate": 8e-05,
      "loss": 1.604,
      "step": 536
    },
    {
      "epoch": 0.1798392498325519,
      "grad_norm": 0.13317514955997467,
      "learning_rate": 8e-05,
      "loss": 1.6324,
      "step": 537
    },
    {
      "epoch": 0.18017414601473544,
      "grad_norm": 0.12609048187732697,
      "learning_rate": 8e-05,
      "loss": 1.5267,
      "step": 538
    },
    {
      "epoch": 0.18050904219691896,
      "grad_norm": 0.12995949387550354,
      "learning_rate": 8e-05,
      "loss": 1.7106,
      "step": 539
    },
    {
      "epoch": 0.18084393837910248,
      "grad_norm": 0.1330689787864685,
      "learning_rate": 8e-05,
      "loss": 1.6544,
      "step": 540
    },
    {
      "epoch": 0.181178834561286,
      "grad_norm": 0.12626990675926208,
      "learning_rate": 8e-05,
      "loss": 1.5551,
      "step": 541
    },
    {
      "epoch": 0.18151373074346952,
      "grad_norm": 0.12268874049186707,
      "learning_rate": 8e-05,
      "loss": 1.5524,
      "step": 542
    },
    {
      "epoch": 0.18184862692565304,
      "grad_norm": 0.1197749674320221,
      "learning_rate": 8e-05,
      "loss": 1.524,
      "step": 543
    },
    {
      "epoch": 0.18218352310783656,
      "grad_norm": 0.12565189599990845,
      "learning_rate": 8e-05,
      "loss": 1.5231,
      "step": 544
    },
    {
      "epoch": 0.1825184192900201,
      "grad_norm": 0.12756536900997162,
      "learning_rate": 8e-05,
      "loss": 1.6298,
      "step": 545
    },
    {
      "epoch": 0.18285331547220363,
      "grad_norm": 0.1260419636964798,
      "learning_rate": 8e-05,
      "loss": 1.5854,
      "step": 546
    },
    {
      "epoch": 0.18318821165438715,
      "grad_norm": 0.13049975037574768,
      "learning_rate": 8e-05,
      "loss": 1.681,
      "step": 547
    },
    {
      "epoch": 0.18352310783657066,
      "grad_norm": 0.1376892626285553,
      "learning_rate": 8e-05,
      "loss": 1.6369,
      "step": 548
    },
    {
      "epoch": 0.18385800401875418,
      "grad_norm": 0.13083089888095856,
      "learning_rate": 8e-05,
      "loss": 1.5331,
      "step": 549
    },
    {
      "epoch": 0.1841929002009377,
      "grad_norm": 0.13433463871479034,
      "learning_rate": 8e-05,
      "loss": 1.5484,
      "step": 550
    },
    {
      "epoch": 0.18452779638312122,
      "grad_norm": 0.13173434138298035,
      "learning_rate": 8e-05,
      "loss": 1.6011,
      "step": 551
    },
    {
      "epoch": 0.18486269256530474,
      "grad_norm": 0.13381533324718475,
      "learning_rate": 8e-05,
      "loss": 1.5356,
      "step": 552
    },
    {
      "epoch": 0.1851975887474883,
      "grad_norm": 0.13115955889225006,
      "learning_rate": 8e-05,
      "loss": 1.6026,
      "step": 553
    },
    {
      "epoch": 0.1855324849296718,
      "grad_norm": 0.12366572767496109,
      "learning_rate": 8e-05,
      "loss": 1.5363,
      "step": 554
    },
    {
      "epoch": 0.18586738111185533,
      "grad_norm": 0.13431601226329803,
      "learning_rate": 8e-05,
      "loss": 1.485,
      "step": 555
    },
    {
      "epoch": 0.18620227729403885,
      "grad_norm": 0.13332775235176086,
      "learning_rate": 8e-05,
      "loss": 1.6282,
      "step": 556
    },
    {
      "epoch": 0.18653717347622237,
      "grad_norm": 0.12819485366344452,
      "learning_rate": 8e-05,
      "loss": 1.5197,
      "step": 557
    },
    {
      "epoch": 0.1868720696584059,
      "grad_norm": 0.12127494066953659,
      "learning_rate": 8e-05,
      "loss": 1.5658,
      "step": 558
    },
    {
      "epoch": 0.1872069658405894,
      "grad_norm": 0.13338150084018707,
      "learning_rate": 8e-05,
      "loss": 1.646,
      "step": 559
    },
    {
      "epoch": 0.18754186202277295,
      "grad_norm": 0.1276269406080246,
      "learning_rate": 8e-05,
      "loss": 1.5315,
      "step": 560
    },
    {
      "epoch": 0.18787675820495647,
      "grad_norm": 0.1392403244972229,
      "learning_rate": 8e-05,
      "loss": 1.7176,
      "step": 561
    },
    {
      "epoch": 0.18821165438714,
      "grad_norm": 0.11991127580404282,
      "learning_rate": 8e-05,
      "loss": 1.5117,
      "step": 562
    },
    {
      "epoch": 0.1885465505693235,
      "grad_norm": 0.14441195130348206,
      "learning_rate": 8e-05,
      "loss": 1.5597,
      "step": 563
    },
    {
      "epoch": 0.18888144675150703,
      "grad_norm": 0.1247161328792572,
      "learning_rate": 8e-05,
      "loss": 1.608,
      "step": 564
    },
    {
      "epoch": 0.18921634293369055,
      "grad_norm": 0.12829847633838654,
      "learning_rate": 8e-05,
      "loss": 1.5539,
      "step": 565
    },
    {
      "epoch": 0.18955123911587407,
      "grad_norm": 0.13440875709056854,
      "learning_rate": 8e-05,
      "loss": 1.6348,
      "step": 566
    },
    {
      "epoch": 0.1898861352980576,
      "grad_norm": 0.1285361498594284,
      "learning_rate": 8e-05,
      "loss": 1.6426,
      "step": 567
    },
    {
      "epoch": 0.19022103148024114,
      "grad_norm": 0.12674525380134583,
      "learning_rate": 8e-05,
      "loss": 1.5544,
      "step": 568
    },
    {
      "epoch": 0.19055592766242466,
      "grad_norm": 0.1283489167690277,
      "learning_rate": 8e-05,
      "loss": 1.5947,
      "step": 569
    },
    {
      "epoch": 0.19089082384460818,
      "grad_norm": 0.13115115463733673,
      "learning_rate": 8e-05,
      "loss": 1.6006,
      "step": 570
    },
    {
      "epoch": 0.1912257200267917,
      "grad_norm": 0.12626484036445618,
      "learning_rate": 8e-05,
      "loss": 1.5496,
      "step": 571
    },
    {
      "epoch": 0.19156061620897522,
      "grad_norm": 0.12167833745479584,
      "learning_rate": 8e-05,
      "loss": 1.5043,
      "step": 572
    },
    {
      "epoch": 0.19189551239115873,
      "grad_norm": 0.1362580806016922,
      "learning_rate": 8e-05,
      "loss": 1.6999,
      "step": 573
    },
    {
      "epoch": 0.19223040857334225,
      "grad_norm": 0.13136154413223267,
      "learning_rate": 8e-05,
      "loss": 1.6707,
      "step": 574
    },
    {
      "epoch": 0.19256530475552577,
      "grad_norm": 0.12873783707618713,
      "learning_rate": 8e-05,
      "loss": 1.6301,
      "step": 575
    },
    {
      "epoch": 0.19290020093770932,
      "grad_norm": 0.12827153503894806,
      "learning_rate": 8e-05,
      "loss": 1.5198,
      "step": 576
    },
    {
      "epoch": 0.19323509711989284,
      "grad_norm": 0.1259436458349228,
      "learning_rate": 8e-05,
      "loss": 1.6193,
      "step": 577
    },
    {
      "epoch": 0.19356999330207636,
      "grad_norm": 0.12563464045524597,
      "learning_rate": 8e-05,
      "loss": 1.573,
      "step": 578
    },
    {
      "epoch": 0.19390488948425988,
      "grad_norm": 0.1230887696146965,
      "learning_rate": 8e-05,
      "loss": 1.5593,
      "step": 579
    },
    {
      "epoch": 0.1942397856664434,
      "grad_norm": 0.13291777670383453,
      "learning_rate": 8e-05,
      "loss": 1.6199,
      "step": 580
    },
    {
      "epoch": 0.19457468184862692,
      "grad_norm": 0.12759481370449066,
      "learning_rate": 8e-05,
      "loss": 1.5754,
      "step": 581
    },
    {
      "epoch": 0.19490957803081044,
      "grad_norm": 0.12623055279254913,
      "learning_rate": 8e-05,
      "loss": 1.555,
      "step": 582
    },
    {
      "epoch": 0.19524447421299398,
      "grad_norm": 0.12634161114692688,
      "learning_rate": 8e-05,
      "loss": 1.5757,
      "step": 583
    },
    {
      "epoch": 0.1955793703951775,
      "grad_norm": 0.12869417667388916,
      "learning_rate": 8e-05,
      "loss": 1.5484,
      "step": 584
    },
    {
      "epoch": 0.19591426657736102,
      "grad_norm": 0.1234048381447792,
      "learning_rate": 8e-05,
      "loss": 1.6084,
      "step": 585
    },
    {
      "epoch": 0.19624916275954454,
      "grad_norm": 0.13279233872890472,
      "learning_rate": 8e-05,
      "loss": 1.699,
      "step": 586
    },
    {
      "epoch": 0.19658405894172806,
      "grad_norm": 0.12729190289974213,
      "learning_rate": 8e-05,
      "loss": 1.5582,
      "step": 587
    },
    {
      "epoch": 0.19691895512391158,
      "grad_norm": 0.12876980006694794,
      "learning_rate": 8e-05,
      "loss": 1.6177,
      "step": 588
    },
    {
      "epoch": 0.1972538513060951,
      "grad_norm": 0.12365009635686874,
      "learning_rate": 8e-05,
      "loss": 1.5891,
      "step": 589
    },
    {
      "epoch": 0.19758874748827862,
      "grad_norm": 0.12838847935199738,
      "learning_rate": 8e-05,
      "loss": 1.5921,
      "step": 590
    },
    {
      "epoch": 0.19792364367046217,
      "grad_norm": 0.12606742978096008,
      "learning_rate": 8e-05,
      "loss": 1.5371,
      "step": 591
    },
    {
      "epoch": 0.1982585398526457,
      "grad_norm": 0.13206101953983307,
      "learning_rate": 8e-05,
      "loss": 1.5321,
      "step": 592
    },
    {
      "epoch": 0.1985934360348292,
      "grad_norm": 0.1270192563533783,
      "learning_rate": 8e-05,
      "loss": 1.582,
      "step": 593
    },
    {
      "epoch": 0.19892833221701273,
      "grad_norm": 0.12194784730672836,
      "learning_rate": 8e-05,
      "loss": 1.3985,
      "step": 594
    },
    {
      "epoch": 0.19926322839919625,
      "grad_norm": 0.12635566294193268,
      "learning_rate": 8e-05,
      "loss": 1.5988,
      "step": 595
    },
    {
      "epoch": 0.19959812458137977,
      "grad_norm": 0.14296498894691467,
      "learning_rate": 8e-05,
      "loss": 1.7145,
      "step": 596
    },
    {
      "epoch": 0.19993302076356329,
      "grad_norm": 0.12753994762897491,
      "learning_rate": 8e-05,
      "loss": 1.6479,
      "step": 597
    },
    {
      "epoch": 0.20026791694574683,
      "grad_norm": 0.13086986541748047,
      "learning_rate": 8e-05,
      "loss": 1.5801,
      "step": 598
    },
    {
      "epoch": 0.20060281312793035,
      "grad_norm": 0.13292589783668518,
      "learning_rate": 8e-05,
      "loss": 1.6822,
      "step": 599
    },
    {
      "epoch": 0.20093770931011387,
      "grad_norm": 0.13023072481155396,
      "learning_rate": 8e-05,
      "loss": 1.5254,
      "step": 600
    },
    {
      "epoch": 0.2012726054922974,
      "grad_norm": 0.12855617702007294,
      "learning_rate": 8e-05,
      "loss": 1.6384,
      "step": 601
    },
    {
      "epoch": 0.2016075016744809,
      "grad_norm": 0.12648989260196686,
      "learning_rate": 8e-05,
      "loss": 1.4959,
      "step": 602
    },
    {
      "epoch": 0.20194239785666443,
      "grad_norm": 0.13070736825466156,
      "learning_rate": 8e-05,
      "loss": 1.5865,
      "step": 603
    },
    {
      "epoch": 0.20227729403884795,
      "grad_norm": 0.1325872391462326,
      "learning_rate": 8e-05,
      "loss": 1.6064,
      "step": 604
    },
    {
      "epoch": 0.20261219022103147,
      "grad_norm": 0.14224882423877716,
      "learning_rate": 8e-05,
      "loss": 1.6343,
      "step": 605
    },
    {
      "epoch": 0.20294708640321502,
      "grad_norm": 0.126477912068367,
      "learning_rate": 8e-05,
      "loss": 1.5605,
      "step": 606
    },
    {
      "epoch": 0.20328198258539854,
      "grad_norm": 0.13971836864948273,
      "learning_rate": 8e-05,
      "loss": 1.5276,
      "step": 607
    },
    {
      "epoch": 0.20361687876758205,
      "grad_norm": 0.12502697110176086,
      "learning_rate": 8e-05,
      "loss": 1.5265,
      "step": 608
    },
    {
      "epoch": 0.20395177494976557,
      "grad_norm": 0.1305292248725891,
      "learning_rate": 8e-05,
      "loss": 1.5621,
      "step": 609
    },
    {
      "epoch": 0.2042866711319491,
      "grad_norm": 0.12923762202262878,
      "learning_rate": 8e-05,
      "loss": 1.4831,
      "step": 610
    },
    {
      "epoch": 0.2046215673141326,
      "grad_norm": 0.12220828980207443,
      "learning_rate": 8e-05,
      "loss": 1.4558,
      "step": 611
    },
    {
      "epoch": 0.20495646349631613,
      "grad_norm": 0.13148343563079834,
      "learning_rate": 8e-05,
      "loss": 1.5757,
      "step": 612
    },
    {
      "epoch": 0.20529135967849965,
      "grad_norm": 0.13613486289978027,
      "learning_rate": 8e-05,
      "loss": 1.5915,
      "step": 613
    },
    {
      "epoch": 0.2056262558606832,
      "grad_norm": 0.12734317779541016,
      "learning_rate": 8e-05,
      "loss": 1.569,
      "step": 614
    },
    {
      "epoch": 0.20596115204286672,
      "grad_norm": 0.12359686195850372,
      "learning_rate": 8e-05,
      "loss": 1.477,
      "step": 615
    },
    {
      "epoch": 0.20629604822505024,
      "grad_norm": 0.1262001246213913,
      "learning_rate": 8e-05,
      "loss": 1.5373,
      "step": 616
    },
    {
      "epoch": 0.20663094440723376,
      "grad_norm": 0.12891827523708344,
      "learning_rate": 8e-05,
      "loss": 1.5442,
      "step": 617
    },
    {
      "epoch": 0.20696584058941728,
      "grad_norm": 0.12841424345970154,
      "learning_rate": 8e-05,
      "loss": 1.6465,
      "step": 618
    },
    {
      "epoch": 0.2073007367716008,
      "grad_norm": 0.1425992101430893,
      "learning_rate": 8e-05,
      "loss": 1.5675,
      "step": 619
    },
    {
      "epoch": 0.20763563295378432,
      "grad_norm": 0.13645824790000916,
      "learning_rate": 8e-05,
      "loss": 1.5946,
      "step": 620
    },
    {
      "epoch": 0.20797052913596786,
      "grad_norm": 0.1466437727212906,
      "learning_rate": 8e-05,
      "loss": 1.4903,
      "step": 621
    },
    {
      "epoch": 0.20830542531815138,
      "grad_norm": 0.14364510774612427,
      "learning_rate": 8e-05,
      "loss": 1.6541,
      "step": 622
    },
    {
      "epoch": 0.2086403215003349,
      "grad_norm": 0.14742949604988098,
      "learning_rate": 8e-05,
      "loss": 1.6899,
      "step": 623
    },
    {
      "epoch": 0.20897521768251842,
      "grad_norm": 0.13964305818080902,
      "learning_rate": 8e-05,
      "loss": 1.5377,
      "step": 624
    },
    {
      "epoch": 0.20931011386470194,
      "grad_norm": 0.13140493631362915,
      "learning_rate": 8e-05,
      "loss": 1.6068,
      "step": 625
    },
    {
      "epoch": 0.20964501004688546,
      "grad_norm": 0.1288304626941681,
      "learning_rate": 8e-05,
      "loss": 1.6335,
      "step": 626
    },
    {
      "epoch": 0.20997990622906898,
      "grad_norm": 0.14150886237621307,
      "learning_rate": 8e-05,
      "loss": 1.5196,
      "step": 627
    },
    {
      "epoch": 0.2103148024112525,
      "grad_norm": 0.1329626888036728,
      "learning_rate": 8e-05,
      "loss": 1.5786,
      "step": 628
    },
    {
      "epoch": 0.21064969859343605,
      "grad_norm": 0.13679715991020203,
      "learning_rate": 8e-05,
      "loss": 1.6054,
      "step": 629
    },
    {
      "epoch": 0.21098459477561957,
      "grad_norm": 0.13547085225582123,
      "learning_rate": 8e-05,
      "loss": 1.6027,
      "step": 630
    },
    {
      "epoch": 0.21131949095780309,
      "grad_norm": 0.12769602239131927,
      "learning_rate": 8e-05,
      "loss": 1.4861,
      "step": 631
    },
    {
      "epoch": 0.2116543871399866,
      "grad_norm": 0.14115950465202332,
      "learning_rate": 8e-05,
      "loss": 1.5079,
      "step": 632
    },
    {
      "epoch": 0.21198928332217012,
      "grad_norm": 0.13571858406066895,
      "learning_rate": 8e-05,
      "loss": 1.5412,
      "step": 633
    },
    {
      "epoch": 0.21232417950435364,
      "grad_norm": 0.14310427010059357,
      "learning_rate": 8e-05,
      "loss": 1.5927,
      "step": 634
    },
    {
      "epoch": 0.21265907568653716,
      "grad_norm": 0.1246613934636116,
      "learning_rate": 8e-05,
      "loss": 1.5605,
      "step": 635
    },
    {
      "epoch": 0.21299397186872068,
      "grad_norm": 0.14053121209144592,
      "learning_rate": 8e-05,
      "loss": 1.555,
      "step": 636
    },
    {
      "epoch": 0.21332886805090423,
      "grad_norm": 0.13644513487815857,
      "learning_rate": 8e-05,
      "loss": 1.6259,
      "step": 637
    },
    {
      "epoch": 0.21366376423308775,
      "grad_norm": 0.1301324963569641,
      "learning_rate": 8e-05,
      "loss": 1.5692,
      "step": 638
    },
    {
      "epoch": 0.21399866041527127,
      "grad_norm": 0.13396474719047546,
      "learning_rate": 8e-05,
      "loss": 1.6393,
      "step": 639
    },
    {
      "epoch": 0.2143335565974548,
      "grad_norm": 0.14554868638515472,
      "learning_rate": 8e-05,
      "loss": 1.5085,
      "step": 640
    },
    {
      "epoch": 0.2146684527796383,
      "grad_norm": 0.1271897554397583,
      "learning_rate": 8e-05,
      "loss": 1.5888,
      "step": 641
    },
    {
      "epoch": 0.21500334896182183,
      "grad_norm": 0.12909838557243347,
      "learning_rate": 8e-05,
      "loss": 1.5909,
      "step": 642
    },
    {
      "epoch": 0.21533824514400535,
      "grad_norm": 0.14184337854385376,
      "learning_rate": 8e-05,
      "loss": 1.6298,
      "step": 643
    },
    {
      "epoch": 0.2156731413261889,
      "grad_norm": 0.134402796626091,
      "learning_rate": 8e-05,
      "loss": 1.6064,
      "step": 644
    },
    {
      "epoch": 0.2160080375083724,
      "grad_norm": 0.1374359130859375,
      "learning_rate": 8e-05,
      "loss": 1.6161,
      "step": 645
    },
    {
      "epoch": 0.21634293369055593,
      "grad_norm": 0.1307520717382431,
      "learning_rate": 8e-05,
      "loss": 1.6255,
      "step": 646
    },
    {
      "epoch": 0.21667782987273945,
      "grad_norm": 0.14343760907649994,
      "learning_rate": 8e-05,
      "loss": 1.6312,
      "step": 647
    },
    {
      "epoch": 0.21701272605492297,
      "grad_norm": 0.13176044821739197,
      "learning_rate": 8e-05,
      "loss": 1.516,
      "step": 648
    },
    {
      "epoch": 0.2173476222371065,
      "grad_norm": 0.13530372083187103,
      "learning_rate": 8e-05,
      "loss": 1.6744,
      "step": 649
    },
    {
      "epoch": 0.21768251841929,
      "grad_norm": 0.14039388298988342,
      "learning_rate": 8e-05,
      "loss": 1.741,
      "step": 650
    },
    {
      "epoch": 0.21801741460147353,
      "grad_norm": 0.12899957597255707,
      "learning_rate": 8e-05,
      "loss": 1.5678,
      "step": 651
    },
    {
      "epoch": 0.21835231078365708,
      "grad_norm": 0.12973394989967346,
      "learning_rate": 8e-05,
      "loss": 1.5924,
      "step": 652
    },
    {
      "epoch": 0.2186872069658406,
      "grad_norm": 0.12858198583126068,
      "learning_rate": 8e-05,
      "loss": 1.523,
      "step": 653
    },
    {
      "epoch": 0.21902210314802412,
      "grad_norm": 0.1281195878982544,
      "learning_rate": 8e-05,
      "loss": 1.6,
      "step": 654
    },
    {
      "epoch": 0.21935699933020764,
      "grad_norm": 0.1455165296792984,
      "learning_rate": 8e-05,
      "loss": 1.6127,
      "step": 655
    },
    {
      "epoch": 0.21969189551239116,
      "grad_norm": 0.1350770890712738,
      "learning_rate": 8e-05,
      "loss": 1.5206,
      "step": 656
    },
    {
      "epoch": 0.22002679169457467,
      "grad_norm": 0.1339283585548401,
      "learning_rate": 8e-05,
      "loss": 1.5476,
      "step": 657
    },
    {
      "epoch": 0.2203616878767582,
      "grad_norm": 0.14237312972545624,
      "learning_rate": 8e-05,
      "loss": 1.6279,
      "step": 658
    },
    {
      "epoch": 0.22069658405894174,
      "grad_norm": 0.13655975461006165,
      "learning_rate": 8e-05,
      "loss": 1.5662,
      "step": 659
    },
    {
      "epoch": 0.22103148024112526,
      "grad_norm": 0.13979509472846985,
      "learning_rate": 8e-05,
      "loss": 1.5736,
      "step": 660
    },
    {
      "epoch": 0.22136637642330878,
      "grad_norm": 0.12586542963981628,
      "learning_rate": 8e-05,
      "loss": 1.5562,
      "step": 661
    },
    {
      "epoch": 0.2217012726054923,
      "grad_norm": 0.12600775063037872,
      "learning_rate": 8e-05,
      "loss": 1.4375,
      "step": 662
    },
    {
      "epoch": 0.22203616878767582,
      "grad_norm": 0.13739889860153198,
      "learning_rate": 8e-05,
      "loss": 1.5635,
      "step": 663
    },
    {
      "epoch": 0.22237106496985934,
      "grad_norm": 0.12738633155822754,
      "learning_rate": 8e-05,
      "loss": 1.623,
      "step": 664
    },
    {
      "epoch": 0.22270596115204286,
      "grad_norm": 0.12844489514827728,
      "learning_rate": 8e-05,
      "loss": 1.6115,
      "step": 665
    },
    {
      "epoch": 0.22304085733422638,
      "grad_norm": 0.13227851688861847,
      "learning_rate": 8e-05,
      "loss": 1.5639,
      "step": 666
    },
    {
      "epoch": 0.22337575351640993,
      "grad_norm": 0.13292500376701355,
      "learning_rate": 8e-05,
      "loss": 1.5812,
      "step": 667
    },
    {
      "epoch": 0.22371064969859344,
      "grad_norm": 0.14957484602928162,
      "learning_rate": 8e-05,
      "loss": 1.6352,
      "step": 668
    },
    {
      "epoch": 0.22404554588077696,
      "grad_norm": 0.14035020768642426,
      "learning_rate": 8e-05,
      "loss": 1.5153,
      "step": 669
    },
    {
      "epoch": 0.22438044206296048,
      "grad_norm": 0.14439226686954498,
      "learning_rate": 8e-05,
      "loss": 1.6025,
      "step": 670
    },
    {
      "epoch": 0.224715338245144,
      "grad_norm": 0.13622607290744781,
      "learning_rate": 8e-05,
      "loss": 1.5362,
      "step": 671
    },
    {
      "epoch": 0.22505023442732752,
      "grad_norm": 0.13393957912921906,
      "learning_rate": 8e-05,
      "loss": 1.6625,
      "step": 672
    },
    {
      "epoch": 0.22538513060951104,
      "grad_norm": 0.15238507091999054,
      "learning_rate": 8e-05,
      "loss": 1.5492,
      "step": 673
    },
    {
      "epoch": 0.22572002679169456,
      "grad_norm": 0.14094413816928864,
      "learning_rate": 8e-05,
      "loss": 1.5887,
      "step": 674
    },
    {
      "epoch": 0.2260549229738781,
      "grad_norm": 0.1322038471698761,
      "learning_rate": 8e-05,
      "loss": 1.626,
      "step": 675
    },
    {
      "epoch": 0.22638981915606163,
      "grad_norm": 0.17318345606327057,
      "learning_rate": 8e-05,
      "loss": 1.6139,
      "step": 676
    },
    {
      "epoch": 0.22672471533824515,
      "grad_norm": 0.1260765939950943,
      "learning_rate": 8e-05,
      "loss": 1.5066,
      "step": 677
    },
    {
      "epoch": 0.22705961152042867,
      "grad_norm": 0.15389199554920197,
      "learning_rate": 8e-05,
      "loss": 1.6689,
      "step": 678
    },
    {
      "epoch": 0.2273945077026122,
      "grad_norm": 0.1252533346414566,
      "learning_rate": 8e-05,
      "loss": 1.5138,
      "step": 679
    },
    {
      "epoch": 0.2277294038847957,
      "grad_norm": 0.1278068572282791,
      "learning_rate": 8e-05,
      "loss": 1.6032,
      "step": 680
    },
    {
      "epoch": 0.22806430006697923,
      "grad_norm": 0.14942674338817596,
      "learning_rate": 8e-05,
      "loss": 1.5516,
      "step": 681
    },
    {
      "epoch": 0.22839919624916277,
      "grad_norm": 0.12707868218421936,
      "learning_rate": 8e-05,
      "loss": 1.5793,
      "step": 682
    },
    {
      "epoch": 0.2287340924313463,
      "grad_norm": 0.1387845277786255,
      "learning_rate": 8e-05,
      "loss": 1.5131,
      "step": 683
    },
    {
      "epoch": 0.2290689886135298,
      "grad_norm": 0.13564585149288177,
      "learning_rate": 8e-05,
      "loss": 1.6046,
      "step": 684
    },
    {
      "epoch": 0.22940388479571333,
      "grad_norm": 0.12687429785728455,
      "learning_rate": 8e-05,
      "loss": 1.585,
      "step": 685
    },
    {
      "epoch": 0.22973878097789685,
      "grad_norm": 0.13607680797576904,
      "learning_rate": 8e-05,
      "loss": 1.6438,
      "step": 686
    },
    {
      "epoch": 0.23007367716008037,
      "grad_norm": 0.12515927851200104,
      "learning_rate": 8e-05,
      "loss": 1.5684,
      "step": 687
    },
    {
      "epoch": 0.2304085733422639,
      "grad_norm": 0.1219494640827179,
      "learning_rate": 8e-05,
      "loss": 1.3899,
      "step": 688
    },
    {
      "epoch": 0.2307434695244474,
      "grad_norm": 0.1327483057975769,
      "learning_rate": 8e-05,
      "loss": 1.6173,
      "step": 689
    },
    {
      "epoch": 0.23107836570663096,
      "grad_norm": 0.13279853761196136,
      "learning_rate": 8e-05,
      "loss": 1.6513,
      "step": 690
    },
    {
      "epoch": 0.23141326188881448,
      "grad_norm": 0.1396617740392685,
      "learning_rate": 8e-05,
      "loss": 1.5252,
      "step": 691
    },
    {
      "epoch": 0.231748158070998,
      "grad_norm": 0.1332201063632965,
      "learning_rate": 8e-05,
      "loss": 1.5838,
      "step": 692
    },
    {
      "epoch": 0.23208305425318151,
      "grad_norm": 0.1303863525390625,
      "learning_rate": 8e-05,
      "loss": 1.5561,
      "step": 693
    },
    {
      "epoch": 0.23241795043536503,
      "grad_norm": 0.13212567567825317,
      "learning_rate": 8e-05,
      "loss": 1.5108,
      "step": 694
    },
    {
      "epoch": 0.23275284661754855,
      "grad_norm": 0.13442017138004303,
      "learning_rate": 8e-05,
      "loss": 1.5614,
      "step": 695
    },
    {
      "epoch": 0.23308774279973207,
      "grad_norm": 0.13149197399616241,
      "learning_rate": 8e-05,
      "loss": 1.5622,
      "step": 696
    },
    {
      "epoch": 0.23342263898191562,
      "grad_norm": 0.14195789396762848,
      "learning_rate": 8e-05,
      "loss": 1.4817,
      "step": 697
    },
    {
      "epoch": 0.23375753516409914,
      "grad_norm": 0.12508352100849152,
      "learning_rate": 8e-05,
      "loss": 1.5957,
      "step": 698
    },
    {
      "epoch": 0.23409243134628266,
      "grad_norm": 0.14304782450199127,
      "learning_rate": 8e-05,
      "loss": 1.6295,
      "step": 699
    },
    {
      "epoch": 0.23442732752846618,
      "grad_norm": 0.13212904334068298,
      "learning_rate": 8e-05,
      "loss": 1.5487,
      "step": 700
    },
    {
      "epoch": 0.2347622237106497,
      "grad_norm": 0.12558919191360474,
      "learning_rate": 8e-05,
      "loss": 1.5749,
      "step": 701
    },
    {
      "epoch": 0.23509711989283322,
      "grad_norm": 0.12775059044361115,
      "learning_rate": 8e-05,
      "loss": 1.6092,
      "step": 702
    },
    {
      "epoch": 0.23543201607501674,
      "grad_norm": 0.14252914488315582,
      "learning_rate": 8e-05,
      "loss": 1.4852,
      "step": 703
    },
    {
      "epoch": 0.23576691225720026,
      "grad_norm": 0.13113269209861755,
      "learning_rate": 8e-05,
      "loss": 1.5833,
      "step": 704
    },
    {
      "epoch": 0.2361018084393838,
      "grad_norm": 0.14111055433750153,
      "learning_rate": 8e-05,
      "loss": 1.5509,
      "step": 705
    },
    {
      "epoch": 0.23643670462156732,
      "grad_norm": 0.14937713742256165,
      "learning_rate": 8e-05,
      "loss": 1.613,
      "step": 706
    },
    {
      "epoch": 0.23677160080375084,
      "grad_norm": 0.1372259259223938,
      "learning_rate": 8e-05,
      "loss": 1.6225,
      "step": 707
    },
    {
      "epoch": 0.23710649698593436,
      "grad_norm": 0.13888108730316162,
      "learning_rate": 8e-05,
      "loss": 1.6519,
      "step": 708
    },
    {
      "epoch": 0.23744139316811788,
      "grad_norm": 0.1387958973646164,
      "learning_rate": 8e-05,
      "loss": 1.5888,
      "step": 709
    },
    {
      "epoch": 0.2377762893503014,
      "grad_norm": 0.12504947185516357,
      "learning_rate": 8e-05,
      "loss": 1.4319,
      "step": 710
    },
    {
      "epoch": 0.23811118553248492,
      "grad_norm": 0.15653586387634277,
      "learning_rate": 8e-05,
      "loss": 1.6353,
      "step": 711
    },
    {
      "epoch": 0.23844608171466844,
      "grad_norm": 0.1260928064584732,
      "learning_rate": 8e-05,
      "loss": 1.5015,
      "step": 712
    },
    {
      "epoch": 0.238780977896852,
      "grad_norm": 0.12750409543514252,
      "learning_rate": 8e-05,
      "loss": 1.5978,
      "step": 713
    },
    {
      "epoch": 0.2391158740790355,
      "grad_norm": 0.134813591837883,
      "learning_rate": 8e-05,
      "loss": 1.5815,
      "step": 714
    },
    {
      "epoch": 0.23945077026121903,
      "grad_norm": 0.12683942914009094,
      "learning_rate": 8e-05,
      "loss": 1.5965,
      "step": 715
    },
    {
      "epoch": 0.23978566644340255,
      "grad_norm": 0.1285449117422104,
      "learning_rate": 8e-05,
      "loss": 1.6165,
      "step": 716
    },
    {
      "epoch": 0.24012056262558606,
      "grad_norm": 0.13201725482940674,
      "learning_rate": 8e-05,
      "loss": 1.5953,
      "step": 717
    },
    {
      "epoch": 0.24045545880776958,
      "grad_norm": 0.13362492620944977,
      "learning_rate": 8e-05,
      "loss": 1.5503,
      "step": 718
    },
    {
      "epoch": 0.2407903549899531,
      "grad_norm": 0.13649918138980865,
      "learning_rate": 8e-05,
      "loss": 1.6517,
      "step": 719
    },
    {
      "epoch": 0.24112525117213665,
      "grad_norm": 0.14500147104263306,
      "learning_rate": 8e-05,
      "loss": 1.5513,
      "step": 720
    },
    {
      "epoch": 0.24146014735432017,
      "grad_norm": 0.12535110116004944,
      "learning_rate": 8e-05,
      "loss": 1.5615,
      "step": 721
    },
    {
      "epoch": 0.2417950435365037,
      "grad_norm": 0.13310779631137848,
      "learning_rate": 8e-05,
      "loss": 1.5898,
      "step": 722
    },
    {
      "epoch": 0.2421299397186872,
      "grad_norm": 0.13635513186454773,
      "learning_rate": 8e-05,
      "loss": 1.5632,
      "step": 723
    },
    {
      "epoch": 0.24246483590087073,
      "grad_norm": 0.13222207129001617,
      "learning_rate": 8e-05,
      "loss": 1.6144,
      "step": 724
    },
    {
      "epoch": 0.24279973208305425,
      "grad_norm": 0.1378384232521057,
      "learning_rate": 8e-05,
      "loss": 1.5829,
      "step": 725
    },
    {
      "epoch": 0.24313462826523777,
      "grad_norm": 0.1320658177137375,
      "learning_rate": 8e-05,
      "loss": 1.5363,
      "step": 726
    },
    {
      "epoch": 0.2434695244474213,
      "grad_norm": 0.12950828671455383,
      "learning_rate": 8e-05,
      "loss": 1.5538,
      "step": 727
    },
    {
      "epoch": 0.24380442062960483,
      "grad_norm": 0.13491854071617126,
      "learning_rate": 8e-05,
      "loss": 1.5115,
      "step": 728
    },
    {
      "epoch": 0.24413931681178835,
      "grad_norm": 0.12771925330162048,
      "learning_rate": 8e-05,
      "loss": 1.5854,
      "step": 729
    },
    {
      "epoch": 0.24447421299397187,
      "grad_norm": 0.12585267424583435,
      "learning_rate": 8e-05,
      "loss": 1.4955,
      "step": 730
    },
    {
      "epoch": 0.2448091091761554,
      "grad_norm": 0.12429355829954147,
      "learning_rate": 8e-05,
      "loss": 1.6171,
      "step": 731
    },
    {
      "epoch": 0.2451440053583389,
      "grad_norm": 0.13368931412696838,
      "learning_rate": 8e-05,
      "loss": 1.555,
      "step": 732
    },
    {
      "epoch": 0.24547890154052243,
      "grad_norm": 0.13619786500930786,
      "learning_rate": 8e-05,
      "loss": 1.6527,
      "step": 733
    },
    {
      "epoch": 0.24581379772270595,
      "grad_norm": 0.12950246036052704,
      "learning_rate": 8e-05,
      "loss": 1.5715,
      "step": 734
    },
    {
      "epoch": 0.24614869390488947,
      "grad_norm": 0.1338881105184555,
      "learning_rate": 8e-05,
      "loss": 1.6101,
      "step": 735
    },
    {
      "epoch": 0.24648359008707302,
      "grad_norm": 0.12774790823459625,
      "learning_rate": 8e-05,
      "loss": 1.6086,
      "step": 736
    },
    {
      "epoch": 0.24681848626925654,
      "grad_norm": 0.12720195949077606,
      "learning_rate": 8e-05,
      "loss": 1.5617,
      "step": 737
    },
    {
      "epoch": 0.24715338245144006,
      "grad_norm": 0.12516498565673828,
      "learning_rate": 8e-05,
      "loss": 1.5285,
      "step": 738
    },
    {
      "epoch": 0.24748827863362358,
      "grad_norm": 0.13168016076087952,
      "learning_rate": 8e-05,
      "loss": 1.5821,
      "step": 739
    },
    {
      "epoch": 0.2478231748158071,
      "grad_norm": 0.13428889214992523,
      "learning_rate": 8e-05,
      "loss": 1.6222,
      "step": 740
    },
    {
      "epoch": 0.24815807099799062,
      "grad_norm": 0.1399843543767929,
      "learning_rate": 8e-05,
      "loss": 1.6262,
      "step": 741
    },
    {
      "epoch": 0.24849296718017413,
      "grad_norm": 0.12643392384052277,
      "learning_rate": 8e-05,
      "loss": 1.5719,
      "step": 742
    },
    {
      "epoch": 0.24882786336235768,
      "grad_norm": 0.13919270038604736,
      "learning_rate": 8e-05,
      "loss": 1.6646,
      "step": 743
    },
    {
      "epoch": 0.2491627595445412,
      "grad_norm": 0.1315983086824417,
      "learning_rate": 8e-05,
      "loss": 1.5676,
      "step": 744
    },
    {
      "epoch": 0.24949765572672472,
      "grad_norm": 0.1415439397096634,
      "learning_rate": 8e-05,
      "loss": 1.7324,
      "step": 745
    },
    {
      "epoch": 0.24983255190890824,
      "grad_norm": 0.12503620982170105,
      "learning_rate": 8e-05,
      "loss": 1.5794,
      "step": 746
    },
    {
      "epoch": 0.25016744809109176,
      "grad_norm": 0.12622873485088348,
      "learning_rate": 8e-05,
      "loss": 1.618,
      "step": 747
    },
    {
      "epoch": 0.2505023442732753,
      "grad_norm": 0.12904556095600128,
      "learning_rate": 8e-05,
      "loss": 1.5629,
      "step": 748
    },
    {
      "epoch": 0.2508372404554588,
      "grad_norm": 0.1337531954050064,
      "learning_rate": 8e-05,
      "loss": 1.5759,
      "step": 749
    },
    {
      "epoch": 0.2511721366376423,
      "grad_norm": 0.12069486081600189,
      "learning_rate": 8e-05,
      "loss": 1.5191,
      "step": 750
    },
    {
      "epoch": 0.25150703281982584,
      "grad_norm": 0.13307403028011322,
      "learning_rate": 8e-05,
      "loss": 1.5867,
      "step": 751
    },
    {
      "epoch": 0.25184192900200936,
      "grad_norm": 0.12985022366046906,
      "learning_rate": 8e-05,
      "loss": 1.5964,
      "step": 752
    },
    {
      "epoch": 0.2521768251841929,
      "grad_norm": 0.13041792809963226,
      "learning_rate": 8e-05,
      "loss": 1.5759,
      "step": 753
    },
    {
      "epoch": 0.2525117213663764,
      "grad_norm": 0.131996288895607,
      "learning_rate": 8e-05,
      "loss": 1.4858,
      "step": 754
    },
    {
      "epoch": 0.25284661754855997,
      "grad_norm": 0.13691583275794983,
      "learning_rate": 8e-05,
      "loss": 1.6836,
      "step": 755
    },
    {
      "epoch": 0.2531815137307435,
      "grad_norm": 0.1419282704591751,
      "learning_rate": 8e-05,
      "loss": 1.586,
      "step": 756
    },
    {
      "epoch": 0.253516409912927,
      "grad_norm": 0.12938514351844788,
      "learning_rate": 8e-05,
      "loss": 1.5643,
      "step": 757
    },
    {
      "epoch": 0.25385130609511053,
      "grad_norm": 0.13646931946277618,
      "learning_rate": 8e-05,
      "loss": 1.7035,
      "step": 758
    },
    {
      "epoch": 0.25418620227729405,
      "grad_norm": 0.13911955058574677,
      "learning_rate": 8e-05,
      "loss": 1.5911,
      "step": 759
    },
    {
      "epoch": 0.25452109845947757,
      "grad_norm": 0.12548790872097015,
      "learning_rate": 8e-05,
      "loss": 1.5138,
      "step": 760
    },
    {
      "epoch": 0.2548559946416611,
      "grad_norm": 0.13062645494937897,
      "learning_rate": 8e-05,
      "loss": 1.5403,
      "step": 761
    },
    {
      "epoch": 0.2551908908238446,
      "grad_norm": 0.12768352031707764,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 762
    },
    {
      "epoch": 0.2555257870060281,
      "grad_norm": 0.12880420684814453,
      "learning_rate": 8e-05,
      "loss": 1.4925,
      "step": 763
    },
    {
      "epoch": 0.25586068318821165,
      "grad_norm": 0.12598992884159088,
      "learning_rate": 8e-05,
      "loss": 1.5503,
      "step": 764
    },
    {
      "epoch": 0.25619557937039517,
      "grad_norm": 0.13539069890975952,
      "learning_rate": 8e-05,
      "loss": 1.6927,
      "step": 765
    },
    {
      "epoch": 0.2565304755525787,
      "grad_norm": 0.13152951002120972,
      "learning_rate": 8e-05,
      "loss": 1.6138,
      "step": 766
    },
    {
      "epoch": 0.2568653717347622,
      "grad_norm": 0.13285508751869202,
      "learning_rate": 8e-05,
      "loss": 1.5043,
      "step": 767
    },
    {
      "epoch": 0.2572002679169457,
      "grad_norm": 0.1288931518793106,
      "learning_rate": 8e-05,
      "loss": 1.5987,
      "step": 768
    },
    {
      "epoch": 0.25753516409912924,
      "grad_norm": 0.12680785357952118,
      "learning_rate": 8e-05,
      "loss": 1.5234,
      "step": 769
    },
    {
      "epoch": 0.2578700602813128,
      "grad_norm": 0.13806788623332977,
      "learning_rate": 8e-05,
      "loss": 1.5352,
      "step": 770
    },
    {
      "epoch": 0.25820495646349634,
      "grad_norm": 0.13475541770458221,
      "learning_rate": 8e-05,
      "loss": 1.5543,
      "step": 771
    },
    {
      "epoch": 0.25853985264567986,
      "grad_norm": 0.12584535777568817,
      "learning_rate": 8e-05,
      "loss": 1.4722,
      "step": 772
    },
    {
      "epoch": 0.2588747488278634,
      "grad_norm": 0.12770451605319977,
      "learning_rate": 8e-05,
      "loss": 1.5242,
      "step": 773
    },
    {
      "epoch": 0.2592096450100469,
      "grad_norm": 0.13165010511875153,
      "learning_rate": 8e-05,
      "loss": 1.5653,
      "step": 774
    },
    {
      "epoch": 0.2595445411922304,
      "grad_norm": 0.13398289680480957,
      "learning_rate": 8e-05,
      "loss": 1.6425,
      "step": 775
    },
    {
      "epoch": 0.25987943737441394,
      "grad_norm": 0.12428684532642365,
      "learning_rate": 8e-05,
      "loss": 1.5377,
      "step": 776
    },
    {
      "epoch": 0.26021433355659745,
      "grad_norm": 0.14919427037239075,
      "learning_rate": 8e-05,
      "loss": 1.6257,
      "step": 777
    },
    {
      "epoch": 0.260549229738781,
      "grad_norm": 0.13437622785568237,
      "learning_rate": 8e-05,
      "loss": 1.5599,
      "step": 778
    },
    {
      "epoch": 0.2608841259209645,
      "grad_norm": 0.13978511095046997,
      "learning_rate": 8e-05,
      "loss": 1.5731,
      "step": 779
    },
    {
      "epoch": 0.261219022103148,
      "grad_norm": 0.13784627616405487,
      "learning_rate": 8e-05,
      "loss": 1.533,
      "step": 780
    },
    {
      "epoch": 0.26155391828533153,
      "grad_norm": 0.13427339494228363,
      "learning_rate": 8e-05,
      "loss": 1.4922,
      "step": 781
    },
    {
      "epoch": 0.26188881446751505,
      "grad_norm": 0.13782382011413574,
      "learning_rate": 8e-05,
      "loss": 1.6899,
      "step": 782
    },
    {
      "epoch": 0.26222371064969857,
      "grad_norm": 0.1329202800989151,
      "learning_rate": 8e-05,
      "loss": 1.5805,
      "step": 783
    },
    {
      "epoch": 0.2625586068318821,
      "grad_norm": 0.13564689457416534,
      "learning_rate": 8e-05,
      "loss": 1.6409,
      "step": 784
    },
    {
      "epoch": 0.26289350301406567,
      "grad_norm": 0.13041304051876068,
      "learning_rate": 8e-05,
      "loss": 1.6136,
      "step": 785
    },
    {
      "epoch": 0.2632283991962492,
      "grad_norm": 0.1268996000289917,
      "learning_rate": 8e-05,
      "loss": 1.4664,
      "step": 786
    },
    {
      "epoch": 0.2635632953784327,
      "grad_norm": 0.1395818591117859,
      "learning_rate": 8e-05,
      "loss": 1.5319,
      "step": 787
    },
    {
      "epoch": 0.2638981915606162,
      "grad_norm": 0.13246850669384003,
      "learning_rate": 8e-05,
      "loss": 1.5534,
      "step": 788
    },
    {
      "epoch": 0.26423308774279974,
      "grad_norm": 0.12399803102016449,
      "learning_rate": 8e-05,
      "loss": 1.4276,
      "step": 789
    },
    {
      "epoch": 0.26456798392498326,
      "grad_norm": 0.13108272850513458,
      "learning_rate": 8e-05,
      "loss": 1.4973,
      "step": 790
    },
    {
      "epoch": 0.2649028801071668,
      "grad_norm": 0.13151343166828156,
      "learning_rate": 8e-05,
      "loss": 1.5961,
      "step": 791
    },
    {
      "epoch": 0.2652377762893503,
      "grad_norm": 0.14603430032730103,
      "learning_rate": 8e-05,
      "loss": 1.7338,
      "step": 792
    },
    {
      "epoch": 0.2655726724715338,
      "grad_norm": 0.1468428671360016,
      "learning_rate": 8e-05,
      "loss": 1.6282,
      "step": 793
    },
    {
      "epoch": 0.26590756865371734,
      "grad_norm": 0.12955978512763977,
      "learning_rate": 8e-05,
      "loss": 1.4755,
      "step": 794
    },
    {
      "epoch": 0.26624246483590086,
      "grad_norm": 0.13324904441833496,
      "learning_rate": 8e-05,
      "loss": 1.6114,
      "step": 795
    },
    {
      "epoch": 0.2665773610180844,
      "grad_norm": 0.13578571379184723,
      "learning_rate": 8e-05,
      "loss": 1.5404,
      "step": 796
    },
    {
      "epoch": 0.2669122572002679,
      "grad_norm": 0.131987527012825,
      "learning_rate": 8e-05,
      "loss": 1.5271,
      "step": 797
    },
    {
      "epoch": 0.2672471533824514,
      "grad_norm": 0.1355757713317871,
      "learning_rate": 8e-05,
      "loss": 1.6055,
      "step": 798
    },
    {
      "epoch": 0.26758204956463494,
      "grad_norm": 0.1297028511762619,
      "learning_rate": 8e-05,
      "loss": 1.6284,
      "step": 799
    },
    {
      "epoch": 0.2679169457468185,
      "grad_norm": 0.12846900522708893,
      "learning_rate": 8e-05,
      "loss": 1.5172,
      "step": 800
    },
    {
      "epoch": 0.26825184192900203,
      "grad_norm": 0.142600879073143,
      "learning_rate": 8e-05,
      "loss": 1.5838,
      "step": 801
    },
    {
      "epoch": 0.26858673811118555,
      "grad_norm": 0.13587899506092072,
      "learning_rate": 8e-05,
      "loss": 1.5517,
      "step": 802
    },
    {
      "epoch": 0.26892163429336907,
      "grad_norm": 0.13015632331371307,
      "learning_rate": 8e-05,
      "loss": 1.6242,
      "step": 803
    },
    {
      "epoch": 0.2692565304755526,
      "grad_norm": 0.1421559453010559,
      "learning_rate": 8e-05,
      "loss": 1.5837,
      "step": 804
    },
    {
      "epoch": 0.2695914266577361,
      "grad_norm": 0.1381450742483139,
      "learning_rate": 8e-05,
      "loss": 1.5529,
      "step": 805
    },
    {
      "epoch": 0.26992632283991963,
      "grad_norm": 0.13914501667022705,
      "learning_rate": 8e-05,
      "loss": 1.5579,
      "step": 806
    },
    {
      "epoch": 0.27026121902210315,
      "grad_norm": 0.14403580129146576,
      "learning_rate": 8e-05,
      "loss": 1.5886,
      "step": 807
    },
    {
      "epoch": 0.27059611520428667,
      "grad_norm": 0.13505136966705322,
      "learning_rate": 8e-05,
      "loss": 1.6169,
      "step": 808
    },
    {
      "epoch": 0.2709310113864702,
      "grad_norm": 0.15877971053123474,
      "learning_rate": 8e-05,
      "loss": 1.612,
      "step": 809
    },
    {
      "epoch": 0.2712659075686537,
      "grad_norm": 0.1230534091591835,
      "learning_rate": 8e-05,
      "loss": 1.5706,
      "step": 810
    },
    {
      "epoch": 0.2716008037508372,
      "grad_norm": 0.1434101015329361,
      "learning_rate": 8e-05,
      "loss": 1.5798,
      "step": 811
    },
    {
      "epoch": 0.27193569993302075,
      "grad_norm": 0.15008553862571716,
      "learning_rate": 8e-05,
      "loss": 1.6222,
      "step": 812
    },
    {
      "epoch": 0.27227059611520427,
      "grad_norm": 0.12951186299324036,
      "learning_rate": 8e-05,
      "loss": 1.5561,
      "step": 813
    },
    {
      "epoch": 0.2726054922973878,
      "grad_norm": 0.13263414800167084,
      "learning_rate": 8e-05,
      "loss": 1.5184,
      "step": 814
    },
    {
      "epoch": 0.2729403884795713,
      "grad_norm": 0.1413082331418991,
      "learning_rate": 8e-05,
      "loss": 1.5675,
      "step": 815
    },
    {
      "epoch": 0.2732752846617549,
      "grad_norm": 0.13131369650363922,
      "learning_rate": 8e-05,
      "loss": 1.6297,
      "step": 816
    },
    {
      "epoch": 0.2736101808439384,
      "grad_norm": 0.13274845480918884,
      "learning_rate": 8e-05,
      "loss": 1.5903,
      "step": 817
    },
    {
      "epoch": 0.2739450770261219,
      "grad_norm": 0.13420841097831726,
      "learning_rate": 8e-05,
      "loss": 1.4932,
      "step": 818
    },
    {
      "epoch": 0.27427997320830544,
      "grad_norm": 0.12611226737499237,
      "learning_rate": 8e-05,
      "loss": 1.5776,
      "step": 819
    },
    {
      "epoch": 0.27461486939048896,
      "grad_norm": 0.1375024914741516,
      "learning_rate": 8e-05,
      "loss": 1.6447,
      "step": 820
    },
    {
      "epoch": 0.2749497655726725,
      "grad_norm": 0.12672987580299377,
      "learning_rate": 8e-05,
      "loss": 1.5107,
      "step": 821
    },
    {
      "epoch": 0.275284661754856,
      "grad_norm": 0.13180498778820038,
      "learning_rate": 8e-05,
      "loss": 1.4815,
      "step": 822
    },
    {
      "epoch": 0.2756195579370395,
      "grad_norm": 0.13017866015434265,
      "learning_rate": 8e-05,
      "loss": 1.5307,
      "step": 823
    },
    {
      "epoch": 0.27595445411922304,
      "grad_norm": 0.12504927814006805,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 824
    },
    {
      "epoch": 0.27628935030140656,
      "grad_norm": 0.14643152058124542,
      "learning_rate": 8e-05,
      "loss": 1.5688,
      "step": 825
    },
    {
      "epoch": 0.2766242464835901,
      "grad_norm": 0.12704408168792725,
      "learning_rate": 8e-05,
      "loss": 1.5538,
      "step": 826
    },
    {
      "epoch": 0.2769591426657736,
      "grad_norm": 0.1282750964164734,
      "learning_rate": 8e-05,
      "loss": 1.6128,
      "step": 827
    },
    {
      "epoch": 0.2772940388479571,
      "grad_norm": 0.12893646955490112,
      "learning_rate": 8e-05,
      "loss": 1.6067,
      "step": 828
    },
    {
      "epoch": 0.27762893503014063,
      "grad_norm": 0.12650758028030396,
      "learning_rate": 8e-05,
      "loss": 1.5376,
      "step": 829
    },
    {
      "epoch": 0.27796383121232415,
      "grad_norm": 0.13246691226959229,
      "learning_rate": 8e-05,
      "loss": 1.5516,
      "step": 830
    },
    {
      "epoch": 0.27829872739450773,
      "grad_norm": 0.13312768936157227,
      "learning_rate": 8e-05,
      "loss": 1.566,
      "step": 831
    },
    {
      "epoch": 0.27863362357669125,
      "grad_norm": 0.12865614891052246,
      "learning_rate": 8e-05,
      "loss": 1.5388,
      "step": 832
    },
    {
      "epoch": 0.27896851975887477,
      "grad_norm": 0.1370832324028015,
      "learning_rate": 8e-05,
      "loss": 1.7098,
      "step": 833
    },
    {
      "epoch": 0.2793034159410583,
      "grad_norm": 0.1310940831899643,
      "learning_rate": 8e-05,
      "loss": 1.6832,
      "step": 834
    },
    {
      "epoch": 0.2796383121232418,
      "grad_norm": 0.12810048460960388,
      "learning_rate": 8e-05,
      "loss": 1.5079,
      "step": 835
    },
    {
      "epoch": 0.2799732083054253,
      "grad_norm": 0.12749645113945007,
      "learning_rate": 8e-05,
      "loss": 1.5525,
      "step": 836
    },
    {
      "epoch": 0.28030810448760884,
      "grad_norm": 0.12761276960372925,
      "learning_rate": 8e-05,
      "loss": 1.5725,
      "step": 837
    },
    {
      "epoch": 0.28064300066979236,
      "grad_norm": 0.1258259415626526,
      "learning_rate": 8e-05,
      "loss": 1.5098,
      "step": 838
    },
    {
      "epoch": 0.2809778968519759,
      "grad_norm": 0.1534184366464615,
      "learning_rate": 8e-05,
      "loss": 1.6942,
      "step": 839
    },
    {
      "epoch": 0.2813127930341594,
      "grad_norm": 0.13205264508724213,
      "learning_rate": 8e-05,
      "loss": 1.5424,
      "step": 840
    },
    {
      "epoch": 0.2816476892163429,
      "grad_norm": 0.13070262968540192,
      "learning_rate": 8e-05,
      "loss": 1.5775,
      "step": 841
    },
    {
      "epoch": 0.28198258539852644,
      "grad_norm": 0.14288297295570374,
      "learning_rate": 8e-05,
      "loss": 1.5384,
      "step": 842
    },
    {
      "epoch": 0.28231748158070996,
      "grad_norm": 0.1252538114786148,
      "learning_rate": 8e-05,
      "loss": 1.5238,
      "step": 843
    },
    {
      "epoch": 0.2826523777628935,
      "grad_norm": 0.14572954177856445,
      "learning_rate": 8e-05,
      "loss": 1.492,
      "step": 844
    },
    {
      "epoch": 0.282987273945077,
      "grad_norm": 0.12701140344142914,
      "learning_rate": 8e-05,
      "loss": 1.6482,
      "step": 845
    },
    {
      "epoch": 0.2833221701272606,
      "grad_norm": 0.13496054708957672,
      "learning_rate": 8e-05,
      "loss": 1.5366,
      "step": 846
    },
    {
      "epoch": 0.2836570663094441,
      "grad_norm": 0.1333881914615631,
      "learning_rate": 8e-05,
      "loss": 1.4904,
      "step": 847
    },
    {
      "epoch": 0.2839919624916276,
      "grad_norm": 0.12623825669288635,
      "learning_rate": 8e-05,
      "loss": 1.6049,
      "step": 848
    },
    {
      "epoch": 0.28432685867381113,
      "grad_norm": 0.13467097282409668,
      "learning_rate": 8e-05,
      "loss": 1.6031,
      "step": 849
    },
    {
      "epoch": 0.28466175485599465,
      "grad_norm": 0.13897009193897247,
      "learning_rate": 8e-05,
      "loss": 1.5399,
      "step": 850
    },
    {
      "epoch": 0.2849966510381782,
      "grad_norm": 0.13542214035987854,
      "learning_rate": 8e-05,
      "loss": 1.6308,
      "step": 851
    },
    {
      "epoch": 0.2853315472203617,
      "grad_norm": 0.13921433687210083,
      "learning_rate": 8e-05,
      "loss": 1.5396,
      "step": 852
    },
    {
      "epoch": 0.2856664434025452,
      "grad_norm": 0.13067527115345,
      "learning_rate": 8e-05,
      "loss": 1.5671,
      "step": 853
    },
    {
      "epoch": 0.28600133958472873,
      "grad_norm": 0.1551179736852646,
      "learning_rate": 8e-05,
      "loss": 1.6057,
      "step": 854
    },
    {
      "epoch": 0.28633623576691225,
      "grad_norm": 0.1437058448791504,
      "learning_rate": 8e-05,
      "loss": 1.6031,
      "step": 855
    },
    {
      "epoch": 0.28667113194909577,
      "grad_norm": 0.13446955382823944,
      "learning_rate": 8e-05,
      "loss": 1.5691,
      "step": 856
    },
    {
      "epoch": 0.2870060281312793,
      "grad_norm": 0.13620354235172272,
      "learning_rate": 8e-05,
      "loss": 1.5125,
      "step": 857
    },
    {
      "epoch": 0.2873409243134628,
      "grad_norm": 0.14432457089424133,
      "learning_rate": 8e-05,
      "loss": 1.5702,
      "step": 858
    },
    {
      "epoch": 0.28767582049564633,
      "grad_norm": 0.14485962688922882,
      "learning_rate": 8e-05,
      "loss": 1.6099,
      "step": 859
    },
    {
      "epoch": 0.28801071667782985,
      "grad_norm": 0.14911822974681854,
      "learning_rate": 8e-05,
      "loss": 1.5118,
      "step": 860
    },
    {
      "epoch": 0.2883456128600134,
      "grad_norm": 0.12926478683948517,
      "learning_rate": 8e-05,
      "loss": 1.5099,
      "step": 861
    },
    {
      "epoch": 0.28868050904219694,
      "grad_norm": 0.13876453042030334,
      "learning_rate": 8e-05,
      "loss": 1.6103,
      "step": 862
    },
    {
      "epoch": 0.28901540522438046,
      "grad_norm": 0.12467885762453079,
      "learning_rate": 8e-05,
      "loss": 1.5391,
      "step": 863
    },
    {
      "epoch": 0.289350301406564,
      "grad_norm": 0.12399441003799438,
      "learning_rate": 8e-05,
      "loss": 1.602,
      "step": 864
    },
    {
      "epoch": 0.2896851975887475,
      "grad_norm": 0.13431240618228912,
      "learning_rate": 8e-05,
      "loss": 1.5474,
      "step": 865
    },
    {
      "epoch": 0.290020093770931,
      "grad_norm": 0.13138899207115173,
      "learning_rate": 8e-05,
      "loss": 1.6078,
      "step": 866
    },
    {
      "epoch": 0.29035498995311454,
      "grad_norm": 0.13111375272274017,
      "learning_rate": 8e-05,
      "loss": 1.5361,
      "step": 867
    },
    {
      "epoch": 0.29068988613529806,
      "grad_norm": 0.14043842256069183,
      "learning_rate": 8e-05,
      "loss": 1.6603,
      "step": 868
    },
    {
      "epoch": 0.2910247823174816,
      "grad_norm": 0.12573857605457306,
      "learning_rate": 8e-05,
      "loss": 1.5724,
      "step": 869
    },
    {
      "epoch": 0.2913596784996651,
      "grad_norm": 0.14294198155403137,
      "learning_rate": 8e-05,
      "loss": 1.5601,
      "step": 870
    },
    {
      "epoch": 0.2916945746818486,
      "grad_norm": 0.12831498682498932,
      "learning_rate": 8e-05,
      "loss": 1.6207,
      "step": 871
    },
    {
      "epoch": 0.29202947086403214,
      "grad_norm": 0.13977579772472382,
      "learning_rate": 8e-05,
      "loss": 1.6821,
      "step": 872
    },
    {
      "epoch": 0.29236436704621566,
      "grad_norm": 0.12402822822332382,
      "learning_rate": 8e-05,
      "loss": 1.4702,
      "step": 873
    },
    {
      "epoch": 0.2926992632283992,
      "grad_norm": 0.12975111603736877,
      "learning_rate": 8e-05,
      "loss": 1.586,
      "step": 874
    },
    {
      "epoch": 0.2930341594105827,
      "grad_norm": 0.13009095191955566,
      "learning_rate": 8e-05,
      "loss": 1.509,
      "step": 875
    },
    {
      "epoch": 0.29336905559276627,
      "grad_norm": 0.12669698894023895,
      "learning_rate": 8e-05,
      "loss": 1.5737,
      "step": 876
    },
    {
      "epoch": 0.2937039517749498,
      "grad_norm": 0.1269627958536148,
      "learning_rate": 8e-05,
      "loss": 1.5963,
      "step": 877
    },
    {
      "epoch": 0.2940388479571333,
      "grad_norm": 0.12993007898330688,
      "learning_rate": 8e-05,
      "loss": 1.6397,
      "step": 878
    },
    {
      "epoch": 0.29437374413931683,
      "grad_norm": 0.13023801147937775,
      "learning_rate": 8e-05,
      "loss": 1.6162,
      "step": 879
    },
    {
      "epoch": 0.29470864032150035,
      "grad_norm": 0.12906205654144287,
      "learning_rate": 8e-05,
      "loss": 1.5883,
      "step": 880
    },
    {
      "epoch": 0.29504353650368387,
      "grad_norm": 0.12893904745578766,
      "learning_rate": 8e-05,
      "loss": 1.6441,
      "step": 881
    },
    {
      "epoch": 0.2953784326858674,
      "grad_norm": 0.12341166287660599,
      "learning_rate": 8e-05,
      "loss": 1.4684,
      "step": 882
    },
    {
      "epoch": 0.2957133288680509,
      "grad_norm": 0.1270308643579483,
      "learning_rate": 8e-05,
      "loss": 1.4887,
      "step": 883
    },
    {
      "epoch": 0.2960482250502344,
      "grad_norm": 0.1316615641117096,
      "learning_rate": 8e-05,
      "loss": 1.6082,
      "step": 884
    },
    {
      "epoch": 0.29638312123241795,
      "grad_norm": 0.1389220803976059,
      "learning_rate": 8e-05,
      "loss": 1.5367,
      "step": 885
    },
    {
      "epoch": 0.29671801741460146,
      "grad_norm": 0.1287021040916443,
      "learning_rate": 8e-05,
      "loss": 1.5625,
      "step": 886
    },
    {
      "epoch": 0.297052913596785,
      "grad_norm": 0.13095614314079285,
      "learning_rate": 8e-05,
      "loss": 1.5203,
      "step": 887
    },
    {
      "epoch": 0.2973878097789685,
      "grad_norm": 0.1398552507162094,
      "learning_rate": 8e-05,
      "loss": 1.6878,
      "step": 888
    },
    {
      "epoch": 0.297722705961152,
      "grad_norm": 0.13754625618457794,
      "learning_rate": 8e-05,
      "loss": 1.6043,
      "step": 889
    },
    {
      "epoch": 0.29805760214333554,
      "grad_norm": 0.14075177907943726,
      "learning_rate": 8e-05,
      "loss": 1.6033,
      "step": 890
    },
    {
      "epoch": 0.29839249832551906,
      "grad_norm": 0.13437634706497192,
      "learning_rate": 8e-05,
      "loss": 1.6141,
      "step": 891
    },
    {
      "epoch": 0.29872739450770264,
      "grad_norm": 0.135538250207901,
      "learning_rate": 8e-05,
      "loss": 1.5659,
      "step": 892
    },
    {
      "epoch": 0.29906229068988616,
      "grad_norm": 0.1452537328004837,
      "learning_rate": 8e-05,
      "loss": 1.5494,
      "step": 893
    },
    {
      "epoch": 0.2993971868720697,
      "grad_norm": 0.12842579185962677,
      "learning_rate": 8e-05,
      "loss": 1.5263,
      "step": 894
    },
    {
      "epoch": 0.2997320830542532,
      "grad_norm": 0.14185068011283875,
      "learning_rate": 8e-05,
      "loss": 1.5753,
      "step": 895
    },
    {
      "epoch": 0.3000669792364367,
      "grad_norm": 0.13031187653541565,
      "learning_rate": 8e-05,
      "loss": 1.551,
      "step": 896
    },
    {
      "epoch": 0.30040187541862023,
      "grad_norm": 0.13001921772956848,
      "learning_rate": 8e-05,
      "loss": 1.5065,
      "step": 897
    },
    {
      "epoch": 0.30073677160080375,
      "grad_norm": 0.12155533581972122,
      "learning_rate": 8e-05,
      "loss": 1.4402,
      "step": 898
    },
    {
      "epoch": 0.3010716677829873,
      "grad_norm": 0.13820426166057587,
      "learning_rate": 8e-05,
      "loss": 1.6747,
      "step": 899
    },
    {
      "epoch": 0.3014065639651708,
      "grad_norm": 0.13313652575016022,
      "learning_rate": 8e-05,
      "loss": 1.6029,
      "step": 900
    },
    {
      "epoch": 0.3017414601473543,
      "grad_norm": 0.13543376326560974,
      "learning_rate": 8e-05,
      "loss": 1.5211,
      "step": 901
    },
    {
      "epoch": 0.30207635632953783,
      "grad_norm": 0.12439572066068649,
      "learning_rate": 8e-05,
      "loss": 1.61,
      "step": 902
    },
    {
      "epoch": 0.30241125251172135,
      "grad_norm": 0.12762728333473206,
      "learning_rate": 8e-05,
      "loss": 1.4349,
      "step": 903
    },
    {
      "epoch": 0.30274614869390487,
      "grad_norm": 0.13189052045345306,
      "learning_rate": 8e-05,
      "loss": 1.619,
      "step": 904
    },
    {
      "epoch": 0.3030810448760884,
      "grad_norm": 0.1322561800479889,
      "learning_rate": 8e-05,
      "loss": 1.5653,
      "step": 905
    },
    {
      "epoch": 0.3034159410582719,
      "grad_norm": 0.12980064749717712,
      "learning_rate": 8e-05,
      "loss": 1.5554,
      "step": 906
    },
    {
      "epoch": 0.3037508372404555,
      "grad_norm": 0.12505723536014557,
      "learning_rate": 8e-05,
      "loss": 1.4445,
      "step": 907
    },
    {
      "epoch": 0.304085733422639,
      "grad_norm": 0.1277865320444107,
      "learning_rate": 8e-05,
      "loss": 1.539,
      "step": 908
    },
    {
      "epoch": 0.3044206296048225,
      "grad_norm": 0.12552931904792786,
      "learning_rate": 8e-05,
      "loss": 1.4946,
      "step": 909
    },
    {
      "epoch": 0.30475552578700604,
      "grad_norm": 0.13355746865272522,
      "learning_rate": 8e-05,
      "loss": 1.5661,
      "step": 910
    },
    {
      "epoch": 0.30509042196918956,
      "grad_norm": 0.13673974573612213,
      "learning_rate": 8e-05,
      "loss": 1.5659,
      "step": 911
    },
    {
      "epoch": 0.3054253181513731,
      "grad_norm": 0.12781760096549988,
      "learning_rate": 8e-05,
      "loss": 1.6264,
      "step": 912
    },
    {
      "epoch": 0.3057602143335566,
      "grad_norm": 0.13222964107990265,
      "learning_rate": 8e-05,
      "loss": 1.6382,
      "step": 913
    },
    {
      "epoch": 0.3060951105157401,
      "grad_norm": 0.13267521560192108,
      "learning_rate": 8e-05,
      "loss": 1.5568,
      "step": 914
    },
    {
      "epoch": 0.30643000669792364,
      "grad_norm": 0.1228741705417633,
      "learning_rate": 8e-05,
      "loss": 1.5724,
      "step": 915
    },
    {
      "epoch": 0.30676490288010716,
      "grad_norm": 0.13394132256507874,
      "learning_rate": 8e-05,
      "loss": 1.4491,
      "step": 916
    },
    {
      "epoch": 0.3070997990622907,
      "grad_norm": 0.13297057151794434,
      "learning_rate": 8e-05,
      "loss": 1.5234,
      "step": 917
    },
    {
      "epoch": 0.3074346952444742,
      "grad_norm": 0.18455643951892853,
      "learning_rate": 8e-05,
      "loss": 1.4849,
      "step": 918
    },
    {
      "epoch": 0.3077695914266577,
      "grad_norm": 0.1492101550102234,
      "learning_rate": 8e-05,
      "loss": 1.5806,
      "step": 919
    },
    {
      "epoch": 0.30810448760884124,
      "grad_norm": 0.12643784284591675,
      "learning_rate": 8e-05,
      "loss": 1.5194,
      "step": 920
    },
    {
      "epoch": 0.30843938379102476,
      "grad_norm": 0.1376117467880249,
      "learning_rate": 8e-05,
      "loss": 1.5356,
      "step": 921
    },
    {
      "epoch": 0.30877427997320833,
      "grad_norm": 0.1306251734495163,
      "learning_rate": 8e-05,
      "loss": 1.5438,
      "step": 922
    },
    {
      "epoch": 0.30910917615539185,
      "grad_norm": 0.13655993342399597,
      "learning_rate": 8e-05,
      "loss": 1.6973,
      "step": 923
    },
    {
      "epoch": 0.30944407233757537,
      "grad_norm": 0.12340030074119568,
      "learning_rate": 8e-05,
      "loss": 1.5554,
      "step": 924
    },
    {
      "epoch": 0.3097789685197589,
      "grad_norm": 0.13056370615959167,
      "learning_rate": 8e-05,
      "loss": 1.5715,
      "step": 925
    },
    {
      "epoch": 0.3101138647019424,
      "grad_norm": 0.1316404640674591,
      "learning_rate": 8e-05,
      "loss": 1.5879,
      "step": 926
    },
    {
      "epoch": 0.31044876088412593,
      "grad_norm": 0.12839408218860626,
      "learning_rate": 8e-05,
      "loss": 1.513,
      "step": 927
    },
    {
      "epoch": 0.31078365706630945,
      "grad_norm": 0.13420824706554413,
      "learning_rate": 8e-05,
      "loss": 1.5745,
      "step": 928
    },
    {
      "epoch": 0.31111855324849297,
      "grad_norm": 0.12772025167942047,
      "learning_rate": 8e-05,
      "loss": 1.5016,
      "step": 929
    },
    {
      "epoch": 0.3114534494306765,
      "grad_norm": 0.1314687281847,
      "learning_rate": 8e-05,
      "loss": 1.6019,
      "step": 930
    },
    {
      "epoch": 0.31178834561286,
      "grad_norm": 0.12784765660762787,
      "learning_rate": 8e-05,
      "loss": 1.5277,
      "step": 931
    },
    {
      "epoch": 0.3121232417950435,
      "grad_norm": 0.13444146513938904,
      "learning_rate": 8e-05,
      "loss": 1.6255,
      "step": 932
    },
    {
      "epoch": 0.31245813797722705,
      "grad_norm": 0.12903441488742828,
      "learning_rate": 8e-05,
      "loss": 1.5753,
      "step": 933
    },
    {
      "epoch": 0.31279303415941057,
      "grad_norm": 0.12991207838058472,
      "learning_rate": 8e-05,
      "loss": 1.5191,
      "step": 934
    },
    {
      "epoch": 0.3131279303415941,
      "grad_norm": 0.12654927372932434,
      "learning_rate": 8e-05,
      "loss": 1.5515,
      "step": 935
    },
    {
      "epoch": 0.3134628265237776,
      "grad_norm": 0.14301279187202454,
      "learning_rate": 8e-05,
      "loss": 1.6316,
      "step": 936
    },
    {
      "epoch": 0.3137977227059612,
      "grad_norm": 0.12224981933832169,
      "learning_rate": 8e-05,
      "loss": 1.4691,
      "step": 937
    },
    {
      "epoch": 0.3141326188881447,
      "grad_norm": 0.13355055451393127,
      "learning_rate": 8e-05,
      "loss": 1.5596,
      "step": 938
    },
    {
      "epoch": 0.3144675150703282,
      "grad_norm": 0.12944301962852478,
      "learning_rate": 8e-05,
      "loss": 1.5701,
      "step": 939
    },
    {
      "epoch": 0.31480241125251174,
      "grad_norm": 0.13770173490047455,
      "learning_rate": 8e-05,
      "loss": 1.5956,
      "step": 940
    },
    {
      "epoch": 0.31513730743469526,
      "grad_norm": 0.13330836594104767,
      "learning_rate": 8e-05,
      "loss": 1.5635,
      "step": 941
    },
    {
      "epoch": 0.3154722036168788,
      "grad_norm": 0.1299058049917221,
      "learning_rate": 8e-05,
      "loss": 1.6057,
      "step": 942
    },
    {
      "epoch": 0.3158070997990623,
      "grad_norm": 0.12798339128494263,
      "learning_rate": 8e-05,
      "loss": 1.6043,
      "step": 943
    },
    {
      "epoch": 0.3161419959812458,
      "grad_norm": 0.12720638513565063,
      "learning_rate": 8e-05,
      "loss": 1.4645,
      "step": 944
    },
    {
      "epoch": 0.31647689216342934,
      "grad_norm": 0.13470999896526337,
      "learning_rate": 8e-05,
      "loss": 1.5777,
      "step": 945
    },
    {
      "epoch": 0.31681178834561285,
      "grad_norm": 0.13033650815486908,
      "learning_rate": 8e-05,
      "loss": 1.5986,
      "step": 946
    },
    {
      "epoch": 0.3171466845277964,
      "grad_norm": 0.12877848744392395,
      "learning_rate": 8e-05,
      "loss": 1.596,
      "step": 947
    },
    {
      "epoch": 0.3174815807099799,
      "grad_norm": 0.1273515373468399,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 948
    },
    {
      "epoch": 0.3178164768921634,
      "grad_norm": 0.13672082126140594,
      "learning_rate": 8e-05,
      "loss": 1.6059,
      "step": 949
    },
    {
      "epoch": 0.31815137307434693,
      "grad_norm": 0.12320803105831146,
      "learning_rate": 8e-05,
      "loss": 1.471,
      "step": 950
    },
    {
      "epoch": 0.31848626925653045,
      "grad_norm": 0.12723857164382935,
      "learning_rate": 8e-05,
      "loss": 1.4824,
      "step": 951
    },
    {
      "epoch": 0.31882116543871397,
      "grad_norm": 0.13589978218078613,
      "learning_rate": 8e-05,
      "loss": 1.5199,
      "step": 952
    },
    {
      "epoch": 0.31915606162089755,
      "grad_norm": 0.13483016192913055,
      "learning_rate": 8e-05,
      "loss": 1.6001,
      "step": 953
    },
    {
      "epoch": 0.31949095780308107,
      "grad_norm": 0.12625205516815186,
      "learning_rate": 8e-05,
      "loss": 1.5197,
      "step": 954
    },
    {
      "epoch": 0.3198258539852646,
      "grad_norm": 0.12133178114891052,
      "learning_rate": 8e-05,
      "loss": 1.4824,
      "step": 955
    },
    {
      "epoch": 0.3201607501674481,
      "grad_norm": 0.13707436621189117,
      "learning_rate": 8e-05,
      "loss": 1.5778,
      "step": 956
    },
    {
      "epoch": 0.3204956463496316,
      "grad_norm": 0.12868443131446838,
      "learning_rate": 8e-05,
      "loss": 1.5455,
      "step": 957
    },
    {
      "epoch": 0.32083054253181514,
      "grad_norm": 0.12976983189582825,
      "learning_rate": 8e-05,
      "loss": 1.5314,
      "step": 958
    },
    {
      "epoch": 0.32116543871399866,
      "grad_norm": 0.13820096850395203,
      "learning_rate": 8e-05,
      "loss": 1.5676,
      "step": 959
    },
    {
      "epoch": 0.3215003348961822,
      "grad_norm": 0.139744833111763,
      "learning_rate": 8e-05,
      "loss": 1.5334,
      "step": 960
    },
    {
      "epoch": 0.3218352310783657,
      "grad_norm": 0.13612404465675354,
      "learning_rate": 8e-05,
      "loss": 1.6175,
      "step": 961
    },
    {
      "epoch": 0.3221701272605492,
      "grad_norm": 0.13518410921096802,
      "learning_rate": 8e-05,
      "loss": 1.559,
      "step": 962
    },
    {
      "epoch": 0.32250502344273274,
      "grad_norm": 0.13413414359092712,
      "learning_rate": 8e-05,
      "loss": 1.5248,
      "step": 963
    },
    {
      "epoch": 0.32283991962491626,
      "grad_norm": 0.1324673742055893,
      "learning_rate": 8e-05,
      "loss": 1.5295,
      "step": 964
    },
    {
      "epoch": 0.3231748158070998,
      "grad_norm": 0.13459327816963196,
      "learning_rate": 8e-05,
      "loss": 1.6385,
      "step": 965
    },
    {
      "epoch": 0.3235097119892833,
      "grad_norm": 0.13489465415477753,
      "learning_rate": 8e-05,
      "loss": 1.552,
      "step": 966
    },
    {
      "epoch": 0.3238446081714668,
      "grad_norm": 0.1345088928937912,
      "learning_rate": 8e-05,
      "loss": 1.5583,
      "step": 967
    },
    {
      "epoch": 0.3241795043536504,
      "grad_norm": 0.13699717819690704,
      "learning_rate": 8e-05,
      "loss": 1.6086,
      "step": 968
    },
    {
      "epoch": 0.3245144005358339,
      "grad_norm": 0.1270645707845688,
      "learning_rate": 8e-05,
      "loss": 1.4463,
      "step": 969
    },
    {
      "epoch": 0.32484929671801743,
      "grad_norm": 0.14498881995677948,
      "learning_rate": 8e-05,
      "loss": 1.6242,
      "step": 970
    },
    {
      "epoch": 0.32518419290020095,
      "grad_norm": 0.1312459409236908,
      "learning_rate": 8e-05,
      "loss": 1.5939,
      "step": 971
    },
    {
      "epoch": 0.32551908908238447,
      "grad_norm": 0.13562238216400146,
      "learning_rate": 8e-05,
      "loss": 1.4596,
      "step": 972
    },
    {
      "epoch": 0.325853985264568,
      "grad_norm": 0.13759374618530273,
      "learning_rate": 8e-05,
      "loss": 1.7034,
      "step": 973
    },
    {
      "epoch": 0.3261888814467515,
      "grad_norm": 0.13825400173664093,
      "learning_rate": 8e-05,
      "loss": 1.5639,
      "step": 974
    },
    {
      "epoch": 0.32652377762893503,
      "grad_norm": 0.12913240492343903,
      "learning_rate": 8e-05,
      "loss": 1.5684,
      "step": 975
    },
    {
      "epoch": 0.32685867381111855,
      "grad_norm": 0.13698391616344452,
      "learning_rate": 8e-05,
      "loss": 1.6313,
      "step": 976
    },
    {
      "epoch": 0.32719356999330207,
      "grad_norm": 0.1358000785112381,
      "learning_rate": 8e-05,
      "loss": 1.6413,
      "step": 977
    },
    {
      "epoch": 0.3275284661754856,
      "grad_norm": 0.12882907688617706,
      "learning_rate": 8e-05,
      "loss": 1.5071,
      "step": 978
    },
    {
      "epoch": 0.3278633623576691,
      "grad_norm": 0.13259215652942657,
      "learning_rate": 8e-05,
      "loss": 1.5973,
      "step": 979
    },
    {
      "epoch": 0.3281982585398526,
      "grad_norm": 0.1310102939605713,
      "learning_rate": 8e-05,
      "loss": 1.6508,
      "step": 980
    },
    {
      "epoch": 0.32853315472203615,
      "grad_norm": 0.13902033865451813,
      "learning_rate": 8e-05,
      "loss": 1.5193,
      "step": 981
    },
    {
      "epoch": 0.32886805090421967,
      "grad_norm": 0.12965404987335205,
      "learning_rate": 8e-05,
      "loss": 1.5029,
      "step": 982
    },
    {
      "epoch": 0.32920294708640324,
      "grad_norm": 0.1450577825307846,
      "learning_rate": 8e-05,
      "loss": 1.6272,
      "step": 983
    },
    {
      "epoch": 0.32953784326858676,
      "grad_norm": 0.13510821759700775,
      "learning_rate": 8e-05,
      "loss": 1.6743,
      "step": 984
    },
    {
      "epoch": 0.3298727394507703,
      "grad_norm": 0.14346115291118622,
      "learning_rate": 8e-05,
      "loss": 1.6173,
      "step": 985
    },
    {
      "epoch": 0.3302076356329538,
      "grad_norm": 0.12319494038820267,
      "learning_rate": 8e-05,
      "loss": 1.4644,
      "step": 986
    },
    {
      "epoch": 0.3305425318151373,
      "grad_norm": 0.13054174184799194,
      "learning_rate": 8e-05,
      "loss": 1.4678,
      "step": 987
    },
    {
      "epoch": 0.33087742799732084,
      "grad_norm": 0.1310795694589615,
      "learning_rate": 8e-05,
      "loss": 1.6059,
      "step": 988
    },
    {
      "epoch": 0.33121232417950436,
      "grad_norm": 0.13240130245685577,
      "learning_rate": 8e-05,
      "loss": 1.5506,
      "step": 989
    },
    {
      "epoch": 0.3315472203616879,
      "grad_norm": 0.1329033076763153,
      "learning_rate": 8e-05,
      "loss": 1.6534,
      "step": 990
    },
    {
      "epoch": 0.3318821165438714,
      "grad_norm": 0.13081462681293488,
      "learning_rate": 8e-05,
      "loss": 1.5021,
      "step": 991
    },
    {
      "epoch": 0.3322170127260549,
      "grad_norm": 0.1264314502477646,
      "learning_rate": 8e-05,
      "loss": 1.5403,
      "step": 992
    },
    {
      "epoch": 0.33255190890823844,
      "grad_norm": 0.12634682655334473,
      "learning_rate": 8e-05,
      "loss": 1.5062,
      "step": 993
    },
    {
      "epoch": 0.33288680509042196,
      "grad_norm": 0.13914386928081512,
      "learning_rate": 8e-05,
      "loss": 1.6246,
      "step": 994
    },
    {
      "epoch": 0.3332217012726055,
      "grad_norm": 0.1359160840511322,
      "learning_rate": 8e-05,
      "loss": 1.6127,
      "step": 995
    },
    {
      "epoch": 0.333556597454789,
      "grad_norm": 0.1313653141260147,
      "learning_rate": 8e-05,
      "loss": 1.5487,
      "step": 996
    },
    {
      "epoch": 0.3338914936369725,
      "grad_norm": 0.13819873332977295,
      "learning_rate": 8e-05,
      "loss": 1.6736,
      "step": 997
    },
    {
      "epoch": 0.3342263898191561,
      "grad_norm": 0.12604205310344696,
      "learning_rate": 8e-05,
      "loss": 1.4854,
      "step": 998
    },
    {
      "epoch": 0.3345612860013396,
      "grad_norm": 0.13970758020877838,
      "learning_rate": 8e-05,
      "loss": 1.5272,
      "step": 999
    },
    {
      "epoch": 0.33489618218352313,
      "grad_norm": 0.13551361858844757,
      "learning_rate": 8e-05,
      "loss": 1.525,
      "step": 1000
    },
    {
      "epoch": 0.33523107836570665,
      "grad_norm": 0.13703738152980804,
      "learning_rate": 8e-05,
      "loss": 1.5775,
      "step": 1001
    },
    {
      "epoch": 0.33556597454789017,
      "grad_norm": 0.13194788992404938,
      "learning_rate": 8e-05,
      "loss": 1.5227,
      "step": 1002
    },
    {
      "epoch": 0.3359008707300737,
      "grad_norm": 0.1442449986934662,
      "learning_rate": 8e-05,
      "loss": 1.6181,
      "step": 1003
    },
    {
      "epoch": 0.3362357669122572,
      "grad_norm": 0.13230116665363312,
      "learning_rate": 8e-05,
      "loss": 1.6292,
      "step": 1004
    },
    {
      "epoch": 0.3365706630944407,
      "grad_norm": 0.15156884491443634,
      "learning_rate": 8e-05,
      "loss": 1.5983,
      "step": 1005
    },
    {
      "epoch": 0.33690555927662424,
      "grad_norm": 0.13065944612026215,
      "learning_rate": 8e-05,
      "loss": 1.6335,
      "step": 1006
    },
    {
      "epoch": 0.33724045545880776,
      "grad_norm": 0.1301802098751068,
      "learning_rate": 8e-05,
      "loss": 1.434,
      "step": 1007
    },
    {
      "epoch": 0.3375753516409913,
      "grad_norm": 0.12743952870368958,
      "learning_rate": 8e-05,
      "loss": 1.5195,
      "step": 1008
    },
    {
      "epoch": 0.3379102478231748,
      "grad_norm": 0.1298919916152954,
      "learning_rate": 8e-05,
      "loss": 1.5522,
      "step": 1009
    },
    {
      "epoch": 0.3382451440053583,
      "grad_norm": 0.13440625369548798,
      "learning_rate": 8e-05,
      "loss": 1.5461,
      "step": 1010
    },
    {
      "epoch": 0.33858004018754184,
      "grad_norm": 0.12996894121170044,
      "learning_rate": 8e-05,
      "loss": 1.4926,
      "step": 1011
    },
    {
      "epoch": 0.33891493636972536,
      "grad_norm": 0.12786002457141876,
      "learning_rate": 8e-05,
      "loss": 1.4489,
      "step": 1012
    },
    {
      "epoch": 0.3392498325519089,
      "grad_norm": 0.14357136189937592,
      "learning_rate": 8e-05,
      "loss": 1.7206,
      "step": 1013
    },
    {
      "epoch": 0.33958472873409246,
      "grad_norm": 0.1407151222229004,
      "learning_rate": 8e-05,
      "loss": 1.6067,
      "step": 1014
    },
    {
      "epoch": 0.339919624916276,
      "grad_norm": 0.1358192265033722,
      "learning_rate": 8e-05,
      "loss": 1.4945,
      "step": 1015
    },
    {
      "epoch": 0.3402545210984595,
      "grad_norm": 0.1328311413526535,
      "learning_rate": 8e-05,
      "loss": 1.6219,
      "step": 1016
    },
    {
      "epoch": 0.340589417280643,
      "grad_norm": 0.13880519568920135,
      "learning_rate": 8e-05,
      "loss": 1.548,
      "step": 1017
    },
    {
      "epoch": 0.34092431346282653,
      "grad_norm": 0.12885497510433197,
      "learning_rate": 8e-05,
      "loss": 1.4665,
      "step": 1018
    },
    {
      "epoch": 0.34125920964501005,
      "grad_norm": 0.13417167961597443,
      "learning_rate": 8e-05,
      "loss": 1.5781,
      "step": 1019
    },
    {
      "epoch": 0.3415941058271936,
      "grad_norm": 0.14466364681720734,
      "learning_rate": 8e-05,
      "loss": 1.6395,
      "step": 1020
    },
    {
      "epoch": 0.3419290020093771,
      "grad_norm": 0.13166135549545288,
      "learning_rate": 8e-05,
      "loss": 1.5805,
      "step": 1021
    },
    {
      "epoch": 0.3422638981915606,
      "grad_norm": 0.13645420968532562,
      "learning_rate": 8e-05,
      "loss": 1.6469,
      "step": 1022
    },
    {
      "epoch": 0.34259879437374413,
      "grad_norm": 0.13980740308761597,
      "learning_rate": 8e-05,
      "loss": 1.5334,
      "step": 1023
    },
    {
      "epoch": 0.34293369055592765,
      "grad_norm": 0.13232310116291046,
      "learning_rate": 8e-05,
      "loss": 1.5713,
      "step": 1024
    },
    {
      "epoch": 0.34326858673811117,
      "grad_norm": 0.14607025682926178,
      "learning_rate": 8e-05,
      "loss": 1.6075,
      "step": 1025
    },
    {
      "epoch": 0.3436034829202947,
      "grad_norm": 0.12906977534294128,
      "learning_rate": 8e-05,
      "loss": 1.5351,
      "step": 1026
    },
    {
      "epoch": 0.3439383791024782,
      "grad_norm": 0.1291840672492981,
      "learning_rate": 8e-05,
      "loss": 1.491,
      "step": 1027
    },
    {
      "epoch": 0.34427327528466173,
      "grad_norm": 0.13411249220371246,
      "learning_rate": 8e-05,
      "loss": 1.609,
      "step": 1028
    },
    {
      "epoch": 0.3446081714668453,
      "grad_norm": 0.1288759559392929,
      "learning_rate": 8e-05,
      "loss": 1.5323,
      "step": 1029
    },
    {
      "epoch": 0.3449430676490288,
      "grad_norm": 0.14127936959266663,
      "learning_rate": 8e-05,
      "loss": 1.6062,
      "step": 1030
    },
    {
      "epoch": 0.34527796383121234,
      "grad_norm": 0.13558867573738098,
      "learning_rate": 8e-05,
      "loss": 1.6367,
      "step": 1031
    },
    {
      "epoch": 0.34561286001339586,
      "grad_norm": 0.12294075638055801,
      "learning_rate": 8e-05,
      "loss": 1.5232,
      "step": 1032
    },
    {
      "epoch": 0.3459477561955794,
      "grad_norm": 0.1475956290960312,
      "learning_rate": 8e-05,
      "loss": 1.6897,
      "step": 1033
    },
    {
      "epoch": 0.3462826523777629,
      "grad_norm": 0.12888918817043304,
      "learning_rate": 8e-05,
      "loss": 1.5245,
      "step": 1034
    },
    {
      "epoch": 0.3466175485599464,
      "grad_norm": 0.1329401135444641,
      "learning_rate": 8e-05,
      "loss": 1.6012,
      "step": 1035
    },
    {
      "epoch": 0.34695244474212994,
      "grad_norm": 0.14566554129123688,
      "learning_rate": 8e-05,
      "loss": 1.6134,
      "step": 1036
    },
    {
      "epoch": 0.34728734092431346,
      "grad_norm": 0.13363684713840485,
      "learning_rate": 8e-05,
      "loss": 1.6192,
      "step": 1037
    },
    {
      "epoch": 0.347622237106497,
      "grad_norm": 0.14116698503494263,
      "learning_rate": 8e-05,
      "loss": 1.5965,
      "step": 1038
    },
    {
      "epoch": 0.3479571332886805,
      "grad_norm": 0.13872185349464417,
      "learning_rate": 8e-05,
      "loss": 1.5322,
      "step": 1039
    },
    {
      "epoch": 0.348292029470864,
      "grad_norm": 0.13171830773353577,
      "learning_rate": 8e-05,
      "loss": 1.5546,
      "step": 1040
    },
    {
      "epoch": 0.34862692565304754,
      "grad_norm": 0.13938450813293457,
      "learning_rate": 8e-05,
      "loss": 1.5295,
      "step": 1041
    },
    {
      "epoch": 0.34896182183523106,
      "grad_norm": 0.12911051511764526,
      "learning_rate": 8e-05,
      "loss": 1.6168,
      "step": 1042
    },
    {
      "epoch": 0.3492967180174146,
      "grad_norm": 0.13062910735607147,
      "learning_rate": 8e-05,
      "loss": 1.5126,
      "step": 1043
    },
    {
      "epoch": 0.34963161419959815,
      "grad_norm": 0.1359618455171585,
      "learning_rate": 8e-05,
      "loss": 1.5443,
      "step": 1044
    },
    {
      "epoch": 0.34996651038178167,
      "grad_norm": 0.13209740817546844,
      "learning_rate": 8e-05,
      "loss": 1.4975,
      "step": 1045
    },
    {
      "epoch": 0.3503014065639652,
      "grad_norm": 0.1629054695367813,
      "learning_rate": 8e-05,
      "loss": 1.6771,
      "step": 1046
    },
    {
      "epoch": 0.3506363027461487,
      "grad_norm": 0.13248220086097717,
      "learning_rate": 8e-05,
      "loss": 1.5415,
      "step": 1047
    },
    {
      "epoch": 0.35097119892833223,
      "grad_norm": 0.12892422080039978,
      "learning_rate": 8e-05,
      "loss": 1.6197,
      "step": 1048
    },
    {
      "epoch": 0.35130609511051575,
      "grad_norm": 0.14007604122161865,
      "learning_rate": 8e-05,
      "loss": 1.5642,
      "step": 1049
    },
    {
      "epoch": 0.35164099129269927,
      "grad_norm": 0.12688404321670532,
      "learning_rate": 8e-05,
      "loss": 1.5432,
      "step": 1050
    },
    {
      "epoch": 0.3519758874748828,
      "grad_norm": 0.13556437194347382,
      "learning_rate": 8e-05,
      "loss": 1.5074,
      "step": 1051
    },
    {
      "epoch": 0.3523107836570663,
      "grad_norm": 0.13047805428504944,
      "learning_rate": 8e-05,
      "loss": 1.4792,
      "step": 1052
    },
    {
      "epoch": 0.3526456798392498,
      "grad_norm": 0.13159802556037903,
      "learning_rate": 8e-05,
      "loss": 1.5594,
      "step": 1053
    },
    {
      "epoch": 0.35298057602143335,
      "grad_norm": 0.1419125199317932,
      "learning_rate": 8e-05,
      "loss": 1.5574,
      "step": 1054
    },
    {
      "epoch": 0.35331547220361686,
      "grad_norm": 0.13326700031757355,
      "learning_rate": 8e-05,
      "loss": 1.5415,
      "step": 1055
    },
    {
      "epoch": 0.3536503683858004,
      "grad_norm": 0.13112634420394897,
      "learning_rate": 8e-05,
      "loss": 1.5031,
      "step": 1056
    },
    {
      "epoch": 0.3539852645679839,
      "grad_norm": 0.13415643572807312,
      "learning_rate": 8e-05,
      "loss": 1.4698,
      "step": 1057
    },
    {
      "epoch": 0.3543201607501674,
      "grad_norm": 0.1313755214214325,
      "learning_rate": 8e-05,
      "loss": 1.5822,
      "step": 1058
    },
    {
      "epoch": 0.354655056932351,
      "grad_norm": 0.12887835502624512,
      "learning_rate": 8e-05,
      "loss": 1.4935,
      "step": 1059
    },
    {
      "epoch": 0.3549899531145345,
      "grad_norm": 0.13325469195842743,
      "learning_rate": 8e-05,
      "loss": 1.599,
      "step": 1060
    },
    {
      "epoch": 0.35532484929671804,
      "grad_norm": 0.13454914093017578,
      "learning_rate": 8e-05,
      "loss": 1.6274,
      "step": 1061
    },
    {
      "epoch": 0.35565974547890156,
      "grad_norm": 0.13077563047409058,
      "learning_rate": 8e-05,
      "loss": 1.537,
      "step": 1062
    },
    {
      "epoch": 0.3559946416610851,
      "grad_norm": 0.12971939146518707,
      "learning_rate": 8e-05,
      "loss": 1.5147,
      "step": 1063
    },
    {
      "epoch": 0.3563295378432686,
      "grad_norm": 0.13123884797096252,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 1064
    },
    {
      "epoch": 0.3566644340254521,
      "grad_norm": 0.13057561218738556,
      "learning_rate": 8e-05,
      "loss": 1.5501,
      "step": 1065
    },
    {
      "epoch": 0.35699933020763563,
      "grad_norm": 0.12873758375644684,
      "learning_rate": 8e-05,
      "loss": 1.5418,
      "step": 1066
    },
    {
      "epoch": 0.35733422638981915,
      "grad_norm": 0.1439938098192215,
      "learning_rate": 8e-05,
      "loss": 1.5796,
      "step": 1067
    },
    {
      "epoch": 0.3576691225720027,
      "grad_norm": 0.12840260565280914,
      "learning_rate": 8e-05,
      "loss": 1.5712,
      "step": 1068
    },
    {
      "epoch": 0.3580040187541862,
      "grad_norm": 0.13125395774841309,
      "learning_rate": 8e-05,
      "loss": 1.6111,
      "step": 1069
    },
    {
      "epoch": 0.3583389149363697,
      "grad_norm": 0.1314440220594406,
      "learning_rate": 8e-05,
      "loss": 1.6021,
      "step": 1070
    },
    {
      "epoch": 0.35867381111855323,
      "grad_norm": 0.1325618177652359,
      "learning_rate": 8e-05,
      "loss": 1.6422,
      "step": 1071
    },
    {
      "epoch": 0.35900870730073675,
      "grad_norm": 0.12549267709255219,
      "learning_rate": 8e-05,
      "loss": 1.517,
      "step": 1072
    },
    {
      "epoch": 0.35934360348292027,
      "grad_norm": 0.12718451023101807,
      "learning_rate": 8e-05,
      "loss": 1.5784,
      "step": 1073
    },
    {
      "epoch": 0.3596784996651038,
      "grad_norm": 0.13298921287059784,
      "learning_rate": 8e-05,
      "loss": 1.5566,
      "step": 1074
    },
    {
      "epoch": 0.36001339584728737,
      "grad_norm": 0.1283767819404602,
      "learning_rate": 8e-05,
      "loss": 1.547,
      "step": 1075
    },
    {
      "epoch": 0.3603482920294709,
      "grad_norm": 0.13161425292491913,
      "learning_rate": 8e-05,
      "loss": 1.5178,
      "step": 1076
    },
    {
      "epoch": 0.3606831882116544,
      "grad_norm": 0.1301116794347763,
      "learning_rate": 8e-05,
      "loss": 1.5697,
      "step": 1077
    },
    {
      "epoch": 0.3610180843938379,
      "grad_norm": 0.13150863349437714,
      "learning_rate": 8e-05,
      "loss": 1.5417,
      "step": 1078
    },
    {
      "epoch": 0.36135298057602144,
      "grad_norm": 0.14730602502822876,
      "learning_rate": 8e-05,
      "loss": 1.6539,
      "step": 1079
    },
    {
      "epoch": 0.36168787675820496,
      "grad_norm": 0.13192163407802582,
      "learning_rate": 8e-05,
      "loss": 1.5307,
      "step": 1080
    },
    {
      "epoch": 0.3620227729403885,
      "grad_norm": 0.14221028983592987,
      "learning_rate": 8e-05,
      "loss": 1.4984,
      "step": 1081
    },
    {
      "epoch": 0.362357669122572,
      "grad_norm": 0.1304173469543457,
      "learning_rate": 8e-05,
      "loss": 1.5044,
      "step": 1082
    },
    {
      "epoch": 0.3626925653047555,
      "grad_norm": 0.1369858831167221,
      "learning_rate": 8e-05,
      "loss": 1.5264,
      "step": 1083
    },
    {
      "epoch": 0.36302746148693904,
      "grad_norm": 0.13556815683841705,
      "learning_rate": 8e-05,
      "loss": 1.6127,
      "step": 1084
    },
    {
      "epoch": 0.36336235766912256,
      "grad_norm": 0.13916903734207153,
      "learning_rate": 8e-05,
      "loss": 1.5405,
      "step": 1085
    },
    {
      "epoch": 0.3636972538513061,
      "grad_norm": 0.12921611964702606,
      "learning_rate": 8e-05,
      "loss": 1.5835,
      "step": 1086
    },
    {
      "epoch": 0.3640321500334896,
      "grad_norm": 0.13801270723342896,
      "learning_rate": 8e-05,
      "loss": 1.5591,
      "step": 1087
    },
    {
      "epoch": 0.3643670462156731,
      "grad_norm": 0.12935388088226318,
      "learning_rate": 8e-05,
      "loss": 1.5314,
      "step": 1088
    },
    {
      "epoch": 0.36470194239785664,
      "grad_norm": 0.13330130279064178,
      "learning_rate": 8e-05,
      "loss": 1.5394,
      "step": 1089
    },
    {
      "epoch": 0.3650368385800402,
      "grad_norm": 0.12860313057899475,
      "learning_rate": 8e-05,
      "loss": 1.5076,
      "step": 1090
    },
    {
      "epoch": 0.36537173476222373,
      "grad_norm": 0.13359111547470093,
      "learning_rate": 8e-05,
      "loss": 1.5545,
      "step": 1091
    },
    {
      "epoch": 0.36570663094440725,
      "grad_norm": 0.142426997423172,
      "learning_rate": 8e-05,
      "loss": 1.6021,
      "step": 1092
    },
    {
      "epoch": 0.36604152712659077,
      "grad_norm": 0.13428418338298798,
      "learning_rate": 8e-05,
      "loss": 1.6496,
      "step": 1093
    },
    {
      "epoch": 0.3663764233087743,
      "grad_norm": 0.13094860315322876,
      "learning_rate": 8e-05,
      "loss": 1.5649,
      "step": 1094
    },
    {
      "epoch": 0.3667113194909578,
      "grad_norm": 0.14048536121845245,
      "learning_rate": 8e-05,
      "loss": 1.5804,
      "step": 1095
    },
    {
      "epoch": 0.36704621567314133,
      "grad_norm": 0.13849857449531555,
      "learning_rate": 8e-05,
      "loss": 1.4833,
      "step": 1096
    },
    {
      "epoch": 0.36738111185532485,
      "grad_norm": 0.1284637153148651,
      "learning_rate": 8e-05,
      "loss": 1.5778,
      "step": 1097
    },
    {
      "epoch": 0.36771600803750837,
      "grad_norm": 0.12754836678504944,
      "learning_rate": 8e-05,
      "loss": 1.5595,
      "step": 1098
    },
    {
      "epoch": 0.3680509042196919,
      "grad_norm": 0.13887593150138855,
      "learning_rate": 8e-05,
      "loss": 1.5551,
      "step": 1099
    },
    {
      "epoch": 0.3683858004018754,
      "grad_norm": 0.12660172581672668,
      "learning_rate": 8e-05,
      "loss": 1.5432,
      "step": 1100
    },
    {
      "epoch": 0.3687206965840589,
      "grad_norm": 0.13428205251693726,
      "learning_rate": 8e-05,
      "loss": 1.5251,
      "step": 1101
    },
    {
      "epoch": 0.36905559276624245,
      "grad_norm": 0.13426941633224487,
      "learning_rate": 8e-05,
      "loss": 1.501,
      "step": 1102
    },
    {
      "epoch": 0.36939048894842597,
      "grad_norm": 0.12819364666938782,
      "learning_rate": 8e-05,
      "loss": 1.5332,
      "step": 1103
    },
    {
      "epoch": 0.3697253851306095,
      "grad_norm": 0.12847276031970978,
      "learning_rate": 8e-05,
      "loss": 1.5281,
      "step": 1104
    },
    {
      "epoch": 0.37006028131279306,
      "grad_norm": 0.12772487103939056,
      "learning_rate": 8e-05,
      "loss": 1.4539,
      "step": 1105
    },
    {
      "epoch": 0.3703951774949766,
      "grad_norm": 0.13142144680023193,
      "learning_rate": 8e-05,
      "loss": 1.5241,
      "step": 1106
    },
    {
      "epoch": 0.3707300736771601,
      "grad_norm": 0.13728605210781097,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 1107
    },
    {
      "epoch": 0.3710649698593436,
      "grad_norm": 0.1335393637418747,
      "learning_rate": 8e-05,
      "loss": 1.6392,
      "step": 1108
    },
    {
      "epoch": 0.37139986604152714,
      "grad_norm": 0.13431330025196075,
      "learning_rate": 8e-05,
      "loss": 1.5963,
      "step": 1109
    },
    {
      "epoch": 0.37173476222371066,
      "grad_norm": 0.1413845419883728,
      "learning_rate": 8e-05,
      "loss": 1.6133,
      "step": 1110
    },
    {
      "epoch": 0.3720696584058942,
      "grad_norm": 0.1327686309814453,
      "learning_rate": 8e-05,
      "loss": 1.6108,
      "step": 1111
    },
    {
      "epoch": 0.3724045545880777,
      "grad_norm": 0.12949588894844055,
      "learning_rate": 8e-05,
      "loss": 1.5149,
      "step": 1112
    },
    {
      "epoch": 0.3727394507702612,
      "grad_norm": 0.1298668086528778,
      "learning_rate": 8e-05,
      "loss": 1.5175,
      "step": 1113
    },
    {
      "epoch": 0.37307434695244474,
      "grad_norm": 0.13521258533000946,
      "learning_rate": 8e-05,
      "loss": 1.6251,
      "step": 1114
    },
    {
      "epoch": 0.37340924313462825,
      "grad_norm": 0.12961983680725098,
      "learning_rate": 8e-05,
      "loss": 1.538,
      "step": 1115
    },
    {
      "epoch": 0.3737441393168118,
      "grad_norm": 0.12865962088108063,
      "learning_rate": 8e-05,
      "loss": 1.4422,
      "step": 1116
    },
    {
      "epoch": 0.3740790354989953,
      "grad_norm": 0.13097937405109406,
      "learning_rate": 8e-05,
      "loss": 1.5112,
      "step": 1117
    },
    {
      "epoch": 0.3744139316811788,
      "grad_norm": 0.1279972642660141,
      "learning_rate": 8e-05,
      "loss": 1.561,
      "step": 1118
    },
    {
      "epoch": 0.37474882786336233,
      "grad_norm": 0.12725596129894257,
      "learning_rate": 8e-05,
      "loss": 1.4824,
      "step": 1119
    },
    {
      "epoch": 0.3750837240455459,
      "grad_norm": 0.13181322813034058,
      "learning_rate": 8e-05,
      "loss": 1.5464,
      "step": 1120
    },
    {
      "epoch": 0.3754186202277294,
      "grad_norm": 0.13595356047153473,
      "learning_rate": 8e-05,
      "loss": 1.5984,
      "step": 1121
    },
    {
      "epoch": 0.37575351640991295,
      "grad_norm": 0.13120420277118683,
      "learning_rate": 8e-05,
      "loss": 1.6374,
      "step": 1122
    },
    {
      "epoch": 0.37608841259209647,
      "grad_norm": 0.1300223022699356,
      "learning_rate": 8e-05,
      "loss": 1.5251,
      "step": 1123
    },
    {
      "epoch": 0.37642330877428,
      "grad_norm": 0.13171425461769104,
      "learning_rate": 8e-05,
      "loss": 1.6027,
      "step": 1124
    },
    {
      "epoch": 0.3767582049564635,
      "grad_norm": 0.13001634180545807,
      "learning_rate": 8e-05,
      "loss": 1.6705,
      "step": 1125
    },
    {
      "epoch": 0.377093101138647,
      "grad_norm": 0.13117456436157227,
      "learning_rate": 8e-05,
      "loss": 1.5238,
      "step": 1126
    },
    {
      "epoch": 0.37742799732083054,
      "grad_norm": 0.1322060525417328,
      "learning_rate": 8e-05,
      "loss": 1.5687,
      "step": 1127
    },
    {
      "epoch": 0.37776289350301406,
      "grad_norm": 0.130983367562294,
      "learning_rate": 8e-05,
      "loss": 1.5248,
      "step": 1128
    },
    {
      "epoch": 0.3780977896851976,
      "grad_norm": 0.13106977939605713,
      "learning_rate": 8e-05,
      "loss": 1.505,
      "step": 1129
    },
    {
      "epoch": 0.3784326858673811,
      "grad_norm": 0.13523899018764496,
      "learning_rate": 8e-05,
      "loss": 1.5731,
      "step": 1130
    },
    {
      "epoch": 0.3787675820495646,
      "grad_norm": 0.12764014303684235,
      "learning_rate": 8e-05,
      "loss": 1.4562,
      "step": 1131
    },
    {
      "epoch": 0.37910247823174814,
      "grad_norm": 0.13228461146354675,
      "learning_rate": 8e-05,
      "loss": 1.5856,
      "step": 1132
    },
    {
      "epoch": 0.37943737441393166,
      "grad_norm": 0.13723643124103546,
      "learning_rate": 8e-05,
      "loss": 1.6211,
      "step": 1133
    },
    {
      "epoch": 0.3797722705961152,
      "grad_norm": 0.13113106787204742,
      "learning_rate": 8e-05,
      "loss": 1.584,
      "step": 1134
    },
    {
      "epoch": 0.38010716677829876,
      "grad_norm": 0.1363474279642105,
      "learning_rate": 8e-05,
      "loss": 1.6323,
      "step": 1135
    },
    {
      "epoch": 0.3804420629604823,
      "grad_norm": 0.128530815243721,
      "learning_rate": 8e-05,
      "loss": 1.5541,
      "step": 1136
    },
    {
      "epoch": 0.3807769591426658,
      "grad_norm": 0.1268177032470703,
      "learning_rate": 8e-05,
      "loss": 1.4562,
      "step": 1137
    },
    {
      "epoch": 0.3811118553248493,
      "grad_norm": 0.1341569423675537,
      "learning_rate": 8e-05,
      "loss": 1.5869,
      "step": 1138
    },
    {
      "epoch": 0.38144675150703283,
      "grad_norm": 0.12896324694156647,
      "learning_rate": 8e-05,
      "loss": 1.5266,
      "step": 1139
    },
    {
      "epoch": 0.38178164768921635,
      "grad_norm": 0.13469237089157104,
      "learning_rate": 8e-05,
      "loss": 1.5652,
      "step": 1140
    },
    {
      "epoch": 0.38211654387139987,
      "grad_norm": 0.1307423710823059,
      "learning_rate": 8e-05,
      "loss": 1.4526,
      "step": 1141
    },
    {
      "epoch": 0.3824514400535834,
      "grad_norm": 0.14718304574489594,
      "learning_rate": 8e-05,
      "loss": 1.538,
      "step": 1142
    },
    {
      "epoch": 0.3827863362357669,
      "grad_norm": 0.13944977521896362,
      "learning_rate": 8e-05,
      "loss": 1.5549,
      "step": 1143
    },
    {
      "epoch": 0.38312123241795043,
      "grad_norm": 0.13228091597557068,
      "learning_rate": 8e-05,
      "loss": 1.5868,
      "step": 1144
    },
    {
      "epoch": 0.38345612860013395,
      "grad_norm": 0.136200949549675,
      "learning_rate": 8e-05,
      "loss": 1.5394,
      "step": 1145
    },
    {
      "epoch": 0.38379102478231747,
      "grad_norm": 0.12693874537944794,
      "learning_rate": 8e-05,
      "loss": 1.4816,
      "step": 1146
    },
    {
      "epoch": 0.384125920964501,
      "grad_norm": 0.14487294852733612,
      "learning_rate": 8e-05,
      "loss": 1.5655,
      "step": 1147
    },
    {
      "epoch": 0.3844608171466845,
      "grad_norm": 0.13374902307987213,
      "learning_rate": 8e-05,
      "loss": 1.4591,
      "step": 1148
    },
    {
      "epoch": 0.384795713328868,
      "grad_norm": 0.1316477656364441,
      "learning_rate": 8e-05,
      "loss": 1.4653,
      "step": 1149
    },
    {
      "epoch": 0.38513060951105155,
      "grad_norm": 0.14006973803043365,
      "learning_rate": 8e-05,
      "loss": 1.6315,
      "step": 1150
    },
    {
      "epoch": 0.3854655056932351,
      "grad_norm": 0.13357411324977875,
      "learning_rate": 8e-05,
      "loss": 1.4779,
      "step": 1151
    },
    {
      "epoch": 0.38580040187541864,
      "grad_norm": 0.14890368282794952,
      "learning_rate": 8e-05,
      "loss": 1.4813,
      "step": 1152
    },
    {
      "epoch": 0.38613529805760216,
      "grad_norm": 0.1329137086868286,
      "learning_rate": 8e-05,
      "loss": 1.5617,
      "step": 1153
    },
    {
      "epoch": 0.3864701942397857,
      "grad_norm": 0.1395251452922821,
      "learning_rate": 8e-05,
      "loss": 1.5138,
      "step": 1154
    },
    {
      "epoch": 0.3868050904219692,
      "grad_norm": 0.14285027980804443,
      "learning_rate": 8e-05,
      "loss": 1.6438,
      "step": 1155
    },
    {
      "epoch": 0.3871399866041527,
      "grad_norm": 0.13385972380638123,
      "learning_rate": 8e-05,
      "loss": 1.6062,
      "step": 1156
    },
    {
      "epoch": 0.38747488278633624,
      "grad_norm": 0.13272151350975037,
      "learning_rate": 8e-05,
      "loss": 1.4834,
      "step": 1157
    },
    {
      "epoch": 0.38780977896851976,
      "grad_norm": 0.13248546421527863,
      "learning_rate": 8e-05,
      "loss": 1.5243,
      "step": 1158
    },
    {
      "epoch": 0.3881446751507033,
      "grad_norm": 0.13738685846328735,
      "learning_rate": 8e-05,
      "loss": 1.5777,
      "step": 1159
    },
    {
      "epoch": 0.3884795713328868,
      "grad_norm": 0.13606032729148865,
      "learning_rate": 8e-05,
      "loss": 1.6557,
      "step": 1160
    },
    {
      "epoch": 0.3888144675150703,
      "grad_norm": 0.13227078318595886,
      "learning_rate": 8e-05,
      "loss": 1.609,
      "step": 1161
    },
    {
      "epoch": 0.38914936369725384,
      "grad_norm": 0.13878707587718964,
      "learning_rate": 8e-05,
      "loss": 1.6036,
      "step": 1162
    },
    {
      "epoch": 0.38948425987943736,
      "grad_norm": 0.14113906025886536,
      "learning_rate": 8e-05,
      "loss": 1.5507,
      "step": 1163
    },
    {
      "epoch": 0.3898191560616209,
      "grad_norm": 0.132563516497612,
      "learning_rate": 8e-05,
      "loss": 1.5826,
      "step": 1164
    },
    {
      "epoch": 0.3901540522438044,
      "grad_norm": 0.13880528509616852,
      "learning_rate": 8e-05,
      "loss": 1.6727,
      "step": 1165
    },
    {
      "epoch": 0.39048894842598797,
      "grad_norm": 0.13337406516075134,
      "learning_rate": 8e-05,
      "loss": 1.5399,
      "step": 1166
    },
    {
      "epoch": 0.3908238446081715,
      "grad_norm": 0.12596063315868378,
      "learning_rate": 8e-05,
      "loss": 1.5238,
      "step": 1167
    },
    {
      "epoch": 0.391158740790355,
      "grad_norm": 0.1401601880788803,
      "learning_rate": 8e-05,
      "loss": 1.6723,
      "step": 1168
    },
    {
      "epoch": 0.39149363697253853,
      "grad_norm": 0.12796922028064728,
      "learning_rate": 8e-05,
      "loss": 1.556,
      "step": 1169
    },
    {
      "epoch": 0.39182853315472205,
      "grad_norm": 0.13482894003391266,
      "learning_rate": 8e-05,
      "loss": 1.4868,
      "step": 1170
    },
    {
      "epoch": 0.39216342933690557,
      "grad_norm": 0.1379643976688385,
      "learning_rate": 8e-05,
      "loss": 1.6256,
      "step": 1171
    },
    {
      "epoch": 0.3924983255190891,
      "grad_norm": 0.13268958032131195,
      "learning_rate": 8e-05,
      "loss": 1.5614,
      "step": 1172
    },
    {
      "epoch": 0.3928332217012726,
      "grad_norm": 0.13827885687351227,
      "learning_rate": 8e-05,
      "loss": 1.5828,
      "step": 1173
    },
    {
      "epoch": 0.3931681178834561,
      "grad_norm": 0.13382618129253387,
      "learning_rate": 8e-05,
      "loss": 1.5655,
      "step": 1174
    },
    {
      "epoch": 0.39350301406563964,
      "grad_norm": 0.13518062233924866,
      "learning_rate": 8e-05,
      "loss": 1.5611,
      "step": 1175
    },
    {
      "epoch": 0.39383791024782316,
      "grad_norm": 0.13492681086063385,
      "learning_rate": 8e-05,
      "loss": 1.577,
      "step": 1176
    },
    {
      "epoch": 0.3941728064300067,
      "grad_norm": 0.14084433019161224,
      "learning_rate": 8e-05,
      "loss": 1.6479,
      "step": 1177
    },
    {
      "epoch": 0.3945077026121902,
      "grad_norm": 0.1283160150051117,
      "learning_rate": 8e-05,
      "loss": 1.5015,
      "step": 1178
    },
    {
      "epoch": 0.3948425987943737,
      "grad_norm": 0.13776694238185883,
      "learning_rate": 8e-05,
      "loss": 1.5543,
      "step": 1179
    },
    {
      "epoch": 0.39517749497655724,
      "grad_norm": 0.13658897578716278,
      "learning_rate": 8e-05,
      "loss": 1.5565,
      "step": 1180
    },
    {
      "epoch": 0.3955123911587408,
      "grad_norm": 0.12725140154361725,
      "learning_rate": 8e-05,
      "loss": 1.5266,
      "step": 1181
    },
    {
      "epoch": 0.39584728734092434,
      "grad_norm": 0.1309778094291687,
      "learning_rate": 8e-05,
      "loss": 1.6248,
      "step": 1182
    },
    {
      "epoch": 0.39618218352310786,
      "grad_norm": 0.13276833295822144,
      "learning_rate": 8e-05,
      "loss": 1.5631,
      "step": 1183
    },
    {
      "epoch": 0.3965170797052914,
      "grad_norm": 0.13787959516048431,
      "learning_rate": 8e-05,
      "loss": 1.5334,
      "step": 1184
    },
    {
      "epoch": 0.3968519758874749,
      "grad_norm": 0.13021349906921387,
      "learning_rate": 8e-05,
      "loss": 1.5271,
      "step": 1185
    },
    {
      "epoch": 0.3971868720696584,
      "grad_norm": 0.13065333664417267,
      "learning_rate": 8e-05,
      "loss": 1.5312,
      "step": 1186
    },
    {
      "epoch": 0.39752176825184193,
      "grad_norm": 0.13351675868034363,
      "learning_rate": 8e-05,
      "loss": 1.5729,
      "step": 1187
    },
    {
      "epoch": 0.39785666443402545,
      "grad_norm": 0.13563372194766998,
      "learning_rate": 8e-05,
      "loss": 1.5339,
      "step": 1188
    },
    {
      "epoch": 0.398191560616209,
      "grad_norm": 0.1248985007405281,
      "learning_rate": 8e-05,
      "loss": 1.5594,
      "step": 1189
    },
    {
      "epoch": 0.3985264567983925,
      "grad_norm": 0.13976463675498962,
      "learning_rate": 8e-05,
      "loss": 1.5429,
      "step": 1190
    },
    {
      "epoch": 0.398861352980576,
      "grad_norm": 0.13962264358997345,
      "learning_rate": 8e-05,
      "loss": 1.4785,
      "step": 1191
    },
    {
      "epoch": 0.39919624916275953,
      "grad_norm": 0.13473886251449585,
      "learning_rate": 8e-05,
      "loss": 1.5042,
      "step": 1192
    },
    {
      "epoch": 0.39953114534494305,
      "grad_norm": 0.14025826752185822,
      "learning_rate": 8e-05,
      "loss": 1.6548,
      "step": 1193
    },
    {
      "epoch": 0.39986604152712657,
      "grad_norm": 0.12817798554897308,
      "learning_rate": 8e-05,
      "loss": 1.5828,
      "step": 1194
    },
    {
      "epoch": 0.4002009377093101,
      "grad_norm": 0.13231943547725677,
      "learning_rate": 8e-05,
      "loss": 1.5031,
      "step": 1195
    },
    {
      "epoch": 0.40053583389149366,
      "grad_norm": 0.1383522003889084,
      "learning_rate": 8e-05,
      "loss": 1.5626,
      "step": 1196
    },
    {
      "epoch": 0.4008707300736772,
      "grad_norm": 0.1256883293390274,
      "learning_rate": 8e-05,
      "loss": 1.5539,
      "step": 1197
    },
    {
      "epoch": 0.4012056262558607,
      "grad_norm": 0.1358519196510315,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 1198
    },
    {
      "epoch": 0.4015405224380442,
      "grad_norm": 0.13180354237556458,
      "learning_rate": 8e-05,
      "loss": 1.5602,
      "step": 1199
    },
    {
      "epoch": 0.40187541862022774,
      "grad_norm": 0.1301676332950592,
      "learning_rate": 8e-05,
      "loss": 1.5081,
      "step": 1200
    },
    {
      "epoch": 0.40221031480241126,
      "grad_norm": 0.13487569987773895,
      "learning_rate": 8e-05,
      "loss": 1.5951,
      "step": 1201
    },
    {
      "epoch": 0.4025452109845948,
      "grad_norm": 0.13668543100357056,
      "learning_rate": 8e-05,
      "loss": 1.6816,
      "step": 1202
    },
    {
      "epoch": 0.4028801071667783,
      "grad_norm": 0.12781603634357452,
      "learning_rate": 8e-05,
      "loss": 1.4886,
      "step": 1203
    },
    {
      "epoch": 0.4032150033489618,
      "grad_norm": 0.12808437645435333,
      "learning_rate": 8e-05,
      "loss": 1.4843,
      "step": 1204
    },
    {
      "epoch": 0.40354989953114534,
      "grad_norm": 0.1331264227628708,
      "learning_rate": 8e-05,
      "loss": 1.652,
      "step": 1205
    },
    {
      "epoch": 0.40388479571332886,
      "grad_norm": 0.13887585699558258,
      "learning_rate": 8e-05,
      "loss": 1.5962,
      "step": 1206
    },
    {
      "epoch": 0.4042196918955124,
      "grad_norm": 0.12996335327625275,
      "learning_rate": 8e-05,
      "loss": 1.5466,
      "step": 1207
    },
    {
      "epoch": 0.4045545880776959,
      "grad_norm": 0.1420496553182602,
      "learning_rate": 8e-05,
      "loss": 1.5718,
      "step": 1208
    },
    {
      "epoch": 0.4048894842598794,
      "grad_norm": 0.1350606083869934,
      "learning_rate": 8e-05,
      "loss": 1.5676,
      "step": 1209
    },
    {
      "epoch": 0.40522438044206294,
      "grad_norm": 0.1366005837917328,
      "learning_rate": 8e-05,
      "loss": 1.6442,
      "step": 1210
    },
    {
      "epoch": 0.40555927662424646,
      "grad_norm": 0.13252577185630798,
      "learning_rate": 8e-05,
      "loss": 1.5983,
      "step": 1211
    },
    {
      "epoch": 0.40589417280643003,
      "grad_norm": 0.1411760002374649,
      "learning_rate": 8e-05,
      "loss": 1.644,
      "step": 1212
    },
    {
      "epoch": 0.40622906898861355,
      "grad_norm": 0.13116455078125,
      "learning_rate": 8e-05,
      "loss": 1.488,
      "step": 1213
    },
    {
      "epoch": 0.40656396517079707,
      "grad_norm": 0.13370366394519806,
      "learning_rate": 8e-05,
      "loss": 1.62,
      "step": 1214
    },
    {
      "epoch": 0.4068988613529806,
      "grad_norm": 0.13314536213874817,
      "learning_rate": 8e-05,
      "loss": 1.5358,
      "step": 1215
    },
    {
      "epoch": 0.4072337575351641,
      "grad_norm": 0.1300952434539795,
      "learning_rate": 8e-05,
      "loss": 1.514,
      "step": 1216
    },
    {
      "epoch": 0.40756865371734763,
      "grad_norm": 0.13644681870937347,
      "learning_rate": 8e-05,
      "loss": 1.5784,
      "step": 1217
    },
    {
      "epoch": 0.40790354989953115,
      "grad_norm": 0.12972596287727356,
      "learning_rate": 8e-05,
      "loss": 1.5914,
      "step": 1218
    },
    {
      "epoch": 0.40823844608171467,
      "grad_norm": 0.13242173194885254,
      "learning_rate": 8e-05,
      "loss": 1.591,
      "step": 1219
    },
    {
      "epoch": 0.4085733422638982,
      "grad_norm": 0.13071291148662567,
      "learning_rate": 8e-05,
      "loss": 1.5302,
      "step": 1220
    },
    {
      "epoch": 0.4089082384460817,
      "grad_norm": 0.12986306846141815,
      "learning_rate": 8e-05,
      "loss": 1.514,
      "step": 1221
    },
    {
      "epoch": 0.4092431346282652,
      "grad_norm": 0.13040059804916382,
      "learning_rate": 8e-05,
      "loss": 1.4565,
      "step": 1222
    },
    {
      "epoch": 0.40957803081044875,
      "grad_norm": 0.13659396767616272,
      "learning_rate": 8e-05,
      "loss": 1.4696,
      "step": 1223
    },
    {
      "epoch": 0.40991292699263226,
      "grad_norm": 0.14554129540920258,
      "learning_rate": 8e-05,
      "loss": 1.5878,
      "step": 1224
    },
    {
      "epoch": 0.4102478231748158,
      "grad_norm": 0.14104045927524567,
      "learning_rate": 8e-05,
      "loss": 1.654,
      "step": 1225
    },
    {
      "epoch": 0.4105827193569993,
      "grad_norm": 0.12948858737945557,
      "learning_rate": 8e-05,
      "loss": 1.4943,
      "step": 1226
    },
    {
      "epoch": 0.4109176155391829,
      "grad_norm": 0.1352463662624359,
      "learning_rate": 8e-05,
      "loss": 1.387,
      "step": 1227
    },
    {
      "epoch": 0.4112525117213664,
      "grad_norm": 0.14293281733989716,
      "learning_rate": 8e-05,
      "loss": 1.4578,
      "step": 1228
    },
    {
      "epoch": 0.4115874079035499,
      "grad_norm": 0.1293664574623108,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 1229
    },
    {
      "epoch": 0.41192230408573344,
      "grad_norm": 0.1399645358324051,
      "learning_rate": 8e-05,
      "loss": 1.5716,
      "step": 1230
    },
    {
      "epoch": 0.41225720026791696,
      "grad_norm": 0.1449621617794037,
      "learning_rate": 8e-05,
      "loss": 1.596,
      "step": 1231
    },
    {
      "epoch": 0.4125920964501005,
      "grad_norm": 0.13978311419487,
      "learning_rate": 8e-05,
      "loss": 1.6096,
      "step": 1232
    },
    {
      "epoch": 0.412926992632284,
      "grad_norm": 0.14420388638973236,
      "learning_rate": 8e-05,
      "loss": 1.586,
      "step": 1233
    },
    {
      "epoch": 0.4132618888144675,
      "grad_norm": 0.13374017179012299,
      "learning_rate": 8e-05,
      "loss": 1.5349,
      "step": 1234
    },
    {
      "epoch": 0.41359678499665103,
      "grad_norm": 0.1422153264284134,
      "learning_rate": 8e-05,
      "loss": 1.5708,
      "step": 1235
    },
    {
      "epoch": 0.41393168117883455,
      "grad_norm": 0.1402144879102707,
      "learning_rate": 8e-05,
      "loss": 1.5622,
      "step": 1236
    },
    {
      "epoch": 0.4142665773610181,
      "grad_norm": 0.13241547346115112,
      "learning_rate": 8e-05,
      "loss": 1.5457,
      "step": 1237
    },
    {
      "epoch": 0.4146014735432016,
      "grad_norm": 0.13132508099079132,
      "learning_rate": 8e-05,
      "loss": 1.5336,
      "step": 1238
    },
    {
      "epoch": 0.4149363697253851,
      "grad_norm": 0.14239582419395447,
      "learning_rate": 8e-05,
      "loss": 1.5836,
      "step": 1239
    },
    {
      "epoch": 0.41527126590756863,
      "grad_norm": 0.13724124431610107,
      "learning_rate": 8e-05,
      "loss": 1.5726,
      "step": 1240
    },
    {
      "epoch": 0.41560616208975215,
      "grad_norm": 0.13699758052825928,
      "learning_rate": 8e-05,
      "loss": 1.5187,
      "step": 1241
    },
    {
      "epoch": 0.4159410582719357,
      "grad_norm": 0.17082099616527557,
      "learning_rate": 8e-05,
      "loss": 1.7157,
      "step": 1242
    },
    {
      "epoch": 0.41627595445411925,
      "grad_norm": 0.128647118806839,
      "learning_rate": 8e-05,
      "loss": 1.5101,
      "step": 1243
    },
    {
      "epoch": 0.41661085063630277,
      "grad_norm": 0.15654276311397552,
      "learning_rate": 8e-05,
      "loss": 1.555,
      "step": 1244
    },
    {
      "epoch": 0.4169457468184863,
      "grad_norm": 0.14728593826293945,
      "learning_rate": 8e-05,
      "loss": 1.5841,
      "step": 1245
    },
    {
      "epoch": 0.4172806430006698,
      "grad_norm": 0.1353878527879715,
      "learning_rate": 8e-05,
      "loss": 1.5802,
      "step": 1246
    },
    {
      "epoch": 0.4176155391828533,
      "grad_norm": 0.1424916833639145,
      "learning_rate": 8e-05,
      "loss": 1.5134,
      "step": 1247
    },
    {
      "epoch": 0.41795043536503684,
      "grad_norm": 0.14680534601211548,
      "learning_rate": 8e-05,
      "loss": 1.6086,
      "step": 1248
    },
    {
      "epoch": 0.41828533154722036,
      "grad_norm": 0.13519461452960968,
      "learning_rate": 8e-05,
      "loss": 1.5805,
      "step": 1249
    },
    {
      "epoch": 0.4186202277294039,
      "grad_norm": 0.15308713912963867,
      "learning_rate": 8e-05,
      "loss": 1.5777,
      "step": 1250
    },
    {
      "epoch": 0.4189551239115874,
      "grad_norm": 0.13519178330898285,
      "learning_rate": 8e-05,
      "loss": 1.4928,
      "step": 1251
    },
    {
      "epoch": 0.4192900200937709,
      "grad_norm": 0.13154390454292297,
      "learning_rate": 8e-05,
      "loss": 1.5996,
      "step": 1252
    },
    {
      "epoch": 0.41962491627595444,
      "grad_norm": 0.13077570497989655,
      "learning_rate": 8e-05,
      "loss": 1.5076,
      "step": 1253
    },
    {
      "epoch": 0.41995981245813796,
      "grad_norm": 0.13853789865970612,
      "learning_rate": 8e-05,
      "loss": 1.6045,
      "step": 1254
    },
    {
      "epoch": 0.4202947086403215,
      "grad_norm": 0.14276766777038574,
      "learning_rate": 8e-05,
      "loss": 1.6323,
      "step": 1255
    },
    {
      "epoch": 0.420629604822505,
      "grad_norm": 0.13965216279029846,
      "learning_rate": 8e-05,
      "loss": 1.4746,
      "step": 1256
    },
    {
      "epoch": 0.4209645010046886,
      "grad_norm": 0.14600685238838196,
      "learning_rate": 8e-05,
      "loss": 1.5237,
      "step": 1257
    },
    {
      "epoch": 0.4212993971868721,
      "grad_norm": 0.14251555502414703,
      "learning_rate": 8e-05,
      "loss": 1.6755,
      "step": 1258
    },
    {
      "epoch": 0.4216342933690556,
      "grad_norm": 0.13369220495224,
      "learning_rate": 8e-05,
      "loss": 1.5669,
      "step": 1259
    },
    {
      "epoch": 0.42196918955123913,
      "grad_norm": 0.15930430591106415,
      "learning_rate": 8e-05,
      "loss": 1.6364,
      "step": 1260
    },
    {
      "epoch": 0.42230408573342265,
      "grad_norm": 0.13117483258247375,
      "learning_rate": 8e-05,
      "loss": 1.5397,
      "step": 1261
    },
    {
      "epoch": 0.42263898191560617,
      "grad_norm": 0.12712416052818298,
      "learning_rate": 8e-05,
      "loss": 1.4281,
      "step": 1262
    },
    {
      "epoch": 0.4229738780977897,
      "grad_norm": 0.14871305227279663,
      "learning_rate": 8e-05,
      "loss": 1.5036,
      "step": 1263
    },
    {
      "epoch": 0.4233087742799732,
      "grad_norm": 0.14146003127098083,
      "learning_rate": 8e-05,
      "loss": 1.6105,
      "step": 1264
    },
    {
      "epoch": 0.42364367046215673,
      "grad_norm": 0.14092212915420532,
      "learning_rate": 8e-05,
      "loss": 1.5456,
      "step": 1265
    },
    {
      "epoch": 0.42397856664434025,
      "grad_norm": 0.14865554869174957,
      "learning_rate": 8e-05,
      "loss": 1.6076,
      "step": 1266
    },
    {
      "epoch": 0.42431346282652377,
      "grad_norm": 0.1298450529575348,
      "learning_rate": 8e-05,
      "loss": 1.544,
      "step": 1267
    },
    {
      "epoch": 0.4246483590087073,
      "grad_norm": 0.13525591790676117,
      "learning_rate": 8e-05,
      "loss": 1.6177,
      "step": 1268
    },
    {
      "epoch": 0.4249832551908908,
      "grad_norm": 0.13748937845230103,
      "learning_rate": 8e-05,
      "loss": 1.6163,
      "step": 1269
    },
    {
      "epoch": 0.4253181513730743,
      "grad_norm": 0.1303958296775818,
      "learning_rate": 8e-05,
      "loss": 1.5386,
      "step": 1270
    },
    {
      "epoch": 0.42565304755525785,
      "grad_norm": 0.12875042855739594,
      "learning_rate": 8e-05,
      "loss": 1.5445,
      "step": 1271
    },
    {
      "epoch": 0.42598794373744137,
      "grad_norm": 0.14172813296318054,
      "learning_rate": 8e-05,
      "loss": 1.6845,
      "step": 1272
    },
    {
      "epoch": 0.42632283991962494,
      "grad_norm": 0.13836611807346344,
      "learning_rate": 8e-05,
      "loss": 1.6045,
      "step": 1273
    },
    {
      "epoch": 0.42665773610180846,
      "grad_norm": 0.14205503463745117,
      "learning_rate": 8e-05,
      "loss": 1.5918,
      "step": 1274
    },
    {
      "epoch": 0.426992632283992,
      "grad_norm": 0.14322008192539215,
      "learning_rate": 8e-05,
      "loss": 1.4622,
      "step": 1275
    },
    {
      "epoch": 0.4273275284661755,
      "grad_norm": 0.12766124308109283,
      "learning_rate": 8e-05,
      "loss": 1.5642,
      "step": 1276
    },
    {
      "epoch": 0.427662424648359,
      "grad_norm": 0.1323024481534958,
      "learning_rate": 8e-05,
      "loss": 1.4495,
      "step": 1277
    },
    {
      "epoch": 0.42799732083054254,
      "grad_norm": 0.13960140943527222,
      "learning_rate": 8e-05,
      "loss": 1.5384,
      "step": 1278
    },
    {
      "epoch": 0.42833221701272606,
      "grad_norm": 0.12913861870765686,
      "learning_rate": 8e-05,
      "loss": 1.559,
      "step": 1279
    },
    {
      "epoch": 0.4286671131949096,
      "grad_norm": 0.13209496438503265,
      "learning_rate": 8e-05,
      "loss": 1.5837,
      "step": 1280
    },
    {
      "epoch": 0.4290020093770931,
      "grad_norm": 0.12498530745506287,
      "learning_rate": 8e-05,
      "loss": 1.3751,
      "step": 1281
    },
    {
      "epoch": 0.4293369055592766,
      "grad_norm": 0.13544778525829315,
      "learning_rate": 8e-05,
      "loss": 1.6104,
      "step": 1282
    },
    {
      "epoch": 0.42967180174146014,
      "grad_norm": 0.12769560515880585,
      "learning_rate": 8e-05,
      "loss": 1.5119,
      "step": 1283
    },
    {
      "epoch": 0.43000669792364365,
      "grad_norm": 0.13009239733219147,
      "learning_rate": 8e-05,
      "loss": 1.4844,
      "step": 1284
    },
    {
      "epoch": 0.4303415941058272,
      "grad_norm": 0.13427326083183289,
      "learning_rate": 8e-05,
      "loss": 1.5223,
      "step": 1285
    },
    {
      "epoch": 0.4306764902880107,
      "grad_norm": 0.1302190124988556,
      "learning_rate": 8e-05,
      "loss": 1.5103,
      "step": 1286
    },
    {
      "epoch": 0.4310113864701942,
      "grad_norm": 0.12717559933662415,
      "learning_rate": 8e-05,
      "loss": 1.5307,
      "step": 1287
    },
    {
      "epoch": 0.4313462826523778,
      "grad_norm": 0.13607282936573029,
      "learning_rate": 8e-05,
      "loss": 1.5621,
      "step": 1288
    },
    {
      "epoch": 0.4316811788345613,
      "grad_norm": 0.12742941081523895,
      "learning_rate": 8e-05,
      "loss": 1.511,
      "step": 1289
    },
    {
      "epoch": 0.4320160750167448,
      "grad_norm": 0.13899365067481995,
      "learning_rate": 8e-05,
      "loss": 1.6462,
      "step": 1290
    },
    {
      "epoch": 0.43235097119892835,
      "grad_norm": 0.13417717814445496,
      "learning_rate": 8e-05,
      "loss": 1.5406,
      "step": 1291
    },
    {
      "epoch": 0.43268586738111187,
      "grad_norm": 0.1292065978050232,
      "learning_rate": 8e-05,
      "loss": 1.4219,
      "step": 1292
    },
    {
      "epoch": 0.4330207635632954,
      "grad_norm": 0.13929469883441925,
      "learning_rate": 8e-05,
      "loss": 1.5843,
      "step": 1293
    },
    {
      "epoch": 0.4333556597454789,
      "grad_norm": 0.13504743576049805,
      "learning_rate": 8e-05,
      "loss": 1.6271,
      "step": 1294
    },
    {
      "epoch": 0.4336905559276624,
      "grad_norm": 0.1381644457578659,
      "learning_rate": 8e-05,
      "loss": 1.6522,
      "step": 1295
    },
    {
      "epoch": 0.43402545210984594,
      "grad_norm": 0.13780899345874786,
      "learning_rate": 8e-05,
      "loss": 1.659,
      "step": 1296
    },
    {
      "epoch": 0.43436034829202946,
      "grad_norm": 0.12949301302433014,
      "learning_rate": 8e-05,
      "loss": 1.4664,
      "step": 1297
    },
    {
      "epoch": 0.434695244474213,
      "grad_norm": 0.13511043787002563,
      "learning_rate": 8e-05,
      "loss": 1.5178,
      "step": 1298
    },
    {
      "epoch": 0.4350301406563965,
      "grad_norm": 0.14083999395370483,
      "learning_rate": 8e-05,
      "loss": 1.6363,
      "step": 1299
    },
    {
      "epoch": 0.43536503683858,
      "grad_norm": 0.1469547152519226,
      "learning_rate": 8e-05,
      "loss": 1.5164,
      "step": 1300
    },
    {
      "epoch": 0.43569993302076354,
      "grad_norm": 0.134847491979599,
      "learning_rate": 8e-05,
      "loss": 1.6383,
      "step": 1301
    },
    {
      "epoch": 0.43603482920294706,
      "grad_norm": 0.1417495161294937,
      "learning_rate": 8e-05,
      "loss": 1.5329,
      "step": 1302
    },
    {
      "epoch": 0.43636972538513064,
      "grad_norm": 0.13557201623916626,
      "learning_rate": 8e-05,
      "loss": 1.5445,
      "step": 1303
    },
    {
      "epoch": 0.43670462156731416,
      "grad_norm": 0.14819276332855225,
      "learning_rate": 8e-05,
      "loss": 1.5704,
      "step": 1304
    },
    {
      "epoch": 0.4370395177494977,
      "grad_norm": 0.13040944933891296,
      "learning_rate": 8e-05,
      "loss": 1.4684,
      "step": 1305
    },
    {
      "epoch": 0.4373744139316812,
      "grad_norm": 0.13241027295589447,
      "learning_rate": 8e-05,
      "loss": 1.5604,
      "step": 1306
    },
    {
      "epoch": 0.4377093101138647,
      "grad_norm": 0.14217562973499298,
      "learning_rate": 8e-05,
      "loss": 1.5176,
      "step": 1307
    },
    {
      "epoch": 0.43804420629604823,
      "grad_norm": 0.13327080011367798,
      "learning_rate": 8e-05,
      "loss": 1.5939,
      "step": 1308
    },
    {
      "epoch": 0.43837910247823175,
      "grad_norm": 0.13672107458114624,
      "learning_rate": 8e-05,
      "loss": 1.5175,
      "step": 1309
    },
    {
      "epoch": 0.43871399866041527,
      "grad_norm": 0.13439275324344635,
      "learning_rate": 8e-05,
      "loss": 1.5795,
      "step": 1310
    },
    {
      "epoch": 0.4390488948425988,
      "grad_norm": 0.13829827308654785,
      "learning_rate": 8e-05,
      "loss": 1.6001,
      "step": 1311
    },
    {
      "epoch": 0.4393837910247823,
      "grad_norm": 0.13784633576869965,
      "learning_rate": 8e-05,
      "loss": 1.6438,
      "step": 1312
    },
    {
      "epoch": 0.43971868720696583,
      "grad_norm": 0.13439945876598358,
      "learning_rate": 8e-05,
      "loss": 1.5891,
      "step": 1313
    },
    {
      "epoch": 0.44005358338914935,
      "grad_norm": 0.13452744483947754,
      "learning_rate": 8e-05,
      "loss": 1.6023,
      "step": 1314
    },
    {
      "epoch": 0.44038847957133287,
      "grad_norm": 0.1356423795223236,
      "learning_rate": 8e-05,
      "loss": 1.5119,
      "step": 1315
    },
    {
      "epoch": 0.4407233757535164,
      "grad_norm": 0.13023285567760468,
      "learning_rate": 8e-05,
      "loss": 1.5678,
      "step": 1316
    },
    {
      "epoch": 0.4410582719356999,
      "grad_norm": 0.14305801689624786,
      "learning_rate": 8e-05,
      "loss": 1.5137,
      "step": 1317
    },
    {
      "epoch": 0.4413931681178835,
      "grad_norm": 0.1327752023935318,
      "learning_rate": 8e-05,
      "loss": 1.5731,
      "step": 1318
    },
    {
      "epoch": 0.441728064300067,
      "grad_norm": 0.14438307285308838,
      "learning_rate": 8e-05,
      "loss": 1.5823,
      "step": 1319
    },
    {
      "epoch": 0.4420629604822505,
      "grad_norm": 0.12700924277305603,
      "learning_rate": 8e-05,
      "loss": 1.5378,
      "step": 1320
    },
    {
      "epoch": 0.44239785666443404,
      "grad_norm": 0.1328950673341751,
      "learning_rate": 8e-05,
      "loss": 1.5065,
      "step": 1321
    },
    {
      "epoch": 0.44273275284661756,
      "grad_norm": 0.1400187760591507,
      "learning_rate": 8e-05,
      "loss": 1.5314,
      "step": 1322
    },
    {
      "epoch": 0.4430676490288011,
      "grad_norm": 0.12969578802585602,
      "learning_rate": 8e-05,
      "loss": 1.5613,
      "step": 1323
    },
    {
      "epoch": 0.4434025452109846,
      "grad_norm": 0.13152474164962769,
      "learning_rate": 8e-05,
      "loss": 1.4878,
      "step": 1324
    },
    {
      "epoch": 0.4437374413931681,
      "grad_norm": 0.13225392997264862,
      "learning_rate": 8e-05,
      "loss": 1.5228,
      "step": 1325
    },
    {
      "epoch": 0.44407233757535164,
      "grad_norm": 0.13005337119102478,
      "learning_rate": 8e-05,
      "loss": 1.4784,
      "step": 1326
    },
    {
      "epoch": 0.44440723375753516,
      "grad_norm": 0.1410362720489502,
      "learning_rate": 8e-05,
      "loss": 1.616,
      "step": 1327
    },
    {
      "epoch": 0.4447421299397187,
      "grad_norm": 0.13921311497688293,
      "learning_rate": 8e-05,
      "loss": 1.5406,
      "step": 1328
    },
    {
      "epoch": 0.4450770261219022,
      "grad_norm": 0.1336551457643509,
      "learning_rate": 8e-05,
      "loss": 1.6145,
      "step": 1329
    },
    {
      "epoch": 0.4454119223040857,
      "grad_norm": 0.13398587703704834,
      "learning_rate": 8e-05,
      "loss": 1.5375,
      "step": 1330
    },
    {
      "epoch": 0.44574681848626924,
      "grad_norm": 0.13424965739250183,
      "learning_rate": 8e-05,
      "loss": 1.6101,
      "step": 1331
    },
    {
      "epoch": 0.44608171466845276,
      "grad_norm": 0.13913105428218842,
      "learning_rate": 8e-05,
      "loss": 1.5591,
      "step": 1332
    },
    {
      "epoch": 0.4464166108506363,
      "grad_norm": 0.13512229919433594,
      "learning_rate": 8e-05,
      "loss": 1.4981,
      "step": 1333
    },
    {
      "epoch": 0.44675150703281985,
      "grad_norm": 0.12680667638778687,
      "learning_rate": 8e-05,
      "loss": 1.4973,
      "step": 1334
    },
    {
      "epoch": 0.44708640321500337,
      "grad_norm": 0.12895867228507996,
      "learning_rate": 8e-05,
      "loss": 1.4835,
      "step": 1335
    },
    {
      "epoch": 0.4474212993971869,
      "grad_norm": 0.14138439297676086,
      "learning_rate": 8e-05,
      "loss": 1.5835,
      "step": 1336
    },
    {
      "epoch": 0.4477561955793704,
      "grad_norm": 0.1370331346988678,
      "learning_rate": 8e-05,
      "loss": 1.5349,
      "step": 1337
    },
    {
      "epoch": 0.44809109176155393,
      "grad_norm": 0.14024852216243744,
      "learning_rate": 8e-05,
      "loss": 1.5823,
      "step": 1338
    },
    {
      "epoch": 0.44842598794373745,
      "grad_norm": 0.14099976420402527,
      "learning_rate": 8e-05,
      "loss": 1.5966,
      "step": 1339
    },
    {
      "epoch": 0.44876088412592097,
      "grad_norm": 0.14149165153503418,
      "learning_rate": 8e-05,
      "loss": 1.5119,
      "step": 1340
    },
    {
      "epoch": 0.4490957803081045,
      "grad_norm": 0.1511516273021698,
      "learning_rate": 8e-05,
      "loss": 1.5339,
      "step": 1341
    },
    {
      "epoch": 0.449430676490288,
      "grad_norm": 0.12945909798145294,
      "learning_rate": 8e-05,
      "loss": 1.5725,
      "step": 1342
    },
    {
      "epoch": 0.4497655726724715,
      "grad_norm": 0.13771729171276093,
      "learning_rate": 8e-05,
      "loss": 1.5842,
      "step": 1343
    },
    {
      "epoch": 0.45010046885465504,
      "grad_norm": 0.14708411693572998,
      "learning_rate": 8e-05,
      "loss": 1.63,
      "step": 1344
    },
    {
      "epoch": 0.45043536503683856,
      "grad_norm": 0.13427825272083282,
      "learning_rate": 8e-05,
      "loss": 1.5629,
      "step": 1345
    },
    {
      "epoch": 0.4507702612190221,
      "grad_norm": 0.1329602152109146,
      "learning_rate": 8e-05,
      "loss": 1.5201,
      "step": 1346
    },
    {
      "epoch": 0.4511051574012056,
      "grad_norm": 0.13899549841880798,
      "learning_rate": 8e-05,
      "loss": 1.5615,
      "step": 1347
    },
    {
      "epoch": 0.4514400535833891,
      "grad_norm": 0.12686842679977417,
      "learning_rate": 8e-05,
      "loss": 1.4944,
      "step": 1348
    },
    {
      "epoch": 0.4517749497655727,
      "grad_norm": 0.13276571035385132,
      "learning_rate": 8e-05,
      "loss": 1.6482,
      "step": 1349
    },
    {
      "epoch": 0.4521098459477562,
      "grad_norm": 0.13458581268787384,
      "learning_rate": 8e-05,
      "loss": 1.5624,
      "step": 1350
    },
    {
      "epoch": 0.45244474212993974,
      "grad_norm": 0.13147974014282227,
      "learning_rate": 8e-05,
      "loss": 1.5357,
      "step": 1351
    },
    {
      "epoch": 0.45277963831212326,
      "grad_norm": 0.13537093997001648,
      "learning_rate": 8e-05,
      "loss": 1.5575,
      "step": 1352
    },
    {
      "epoch": 0.4531145344943068,
      "grad_norm": 0.13420267403125763,
      "learning_rate": 8e-05,
      "loss": 1.5663,
      "step": 1353
    },
    {
      "epoch": 0.4534494306764903,
      "grad_norm": 0.12978173792362213,
      "learning_rate": 8e-05,
      "loss": 1.5651,
      "step": 1354
    },
    {
      "epoch": 0.4537843268586738,
      "grad_norm": 0.12708374857902527,
      "learning_rate": 8e-05,
      "loss": 1.4671,
      "step": 1355
    },
    {
      "epoch": 0.45411922304085733,
      "grad_norm": 0.12995675206184387,
      "learning_rate": 8e-05,
      "loss": 1.402,
      "step": 1356
    },
    {
      "epoch": 0.45445411922304085,
      "grad_norm": 0.12922991812229156,
      "learning_rate": 8e-05,
      "loss": 1.5254,
      "step": 1357
    },
    {
      "epoch": 0.4547890154052244,
      "grad_norm": 0.13749176263809204,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 1358
    },
    {
      "epoch": 0.4551239115874079,
      "grad_norm": 0.13622784614562988,
      "learning_rate": 8e-05,
      "loss": 1.6766,
      "step": 1359
    },
    {
      "epoch": 0.4554588077695914,
      "grad_norm": 0.13433393836021423,
      "learning_rate": 8e-05,
      "loss": 1.594,
      "step": 1360
    },
    {
      "epoch": 0.45579370395177493,
      "grad_norm": 0.14424262940883636,
      "learning_rate": 8e-05,
      "loss": 1.5488,
      "step": 1361
    },
    {
      "epoch": 0.45612860013395845,
      "grad_norm": 0.13810984790325165,
      "learning_rate": 8e-05,
      "loss": 1.5217,
      "step": 1362
    },
    {
      "epoch": 0.45646349631614197,
      "grad_norm": 0.13262732326984406,
      "learning_rate": 8e-05,
      "loss": 1.5769,
      "step": 1363
    },
    {
      "epoch": 0.45679839249832555,
      "grad_norm": 0.14239387214183807,
      "learning_rate": 8e-05,
      "loss": 1.6405,
      "step": 1364
    },
    {
      "epoch": 0.45713328868050906,
      "grad_norm": 0.14274823665618896,
      "learning_rate": 8e-05,
      "loss": 1.6128,
      "step": 1365
    },
    {
      "epoch": 0.4574681848626926,
      "grad_norm": 0.13194583356380463,
      "learning_rate": 8e-05,
      "loss": 1.4824,
      "step": 1366
    },
    {
      "epoch": 0.4578030810448761,
      "grad_norm": 0.13871599733829498,
      "learning_rate": 8e-05,
      "loss": 1.5888,
      "step": 1367
    },
    {
      "epoch": 0.4581379772270596,
      "grad_norm": 0.13590937852859497,
      "learning_rate": 8e-05,
      "loss": 1.5714,
      "step": 1368
    },
    {
      "epoch": 0.45847287340924314,
      "grad_norm": 0.136251762509346,
      "learning_rate": 8e-05,
      "loss": 1.5623,
      "step": 1369
    },
    {
      "epoch": 0.45880776959142666,
      "grad_norm": 0.12937405705451965,
      "learning_rate": 8e-05,
      "loss": 1.4741,
      "step": 1370
    },
    {
      "epoch": 0.4591426657736102,
      "grad_norm": 0.13569459319114685,
      "learning_rate": 8e-05,
      "loss": 1.549,
      "step": 1371
    },
    {
      "epoch": 0.4594775619557937,
      "grad_norm": 0.1381871998310089,
      "learning_rate": 8e-05,
      "loss": 1.4626,
      "step": 1372
    },
    {
      "epoch": 0.4598124581379772,
      "grad_norm": 0.12484827637672424,
      "learning_rate": 8e-05,
      "loss": 1.4575,
      "step": 1373
    },
    {
      "epoch": 0.46014735432016074,
      "grad_norm": 0.13371463119983673,
      "learning_rate": 8e-05,
      "loss": 1.4729,
      "step": 1374
    },
    {
      "epoch": 0.46048225050234426,
      "grad_norm": 0.14049986004829407,
      "learning_rate": 8e-05,
      "loss": 1.5547,
      "step": 1375
    },
    {
      "epoch": 0.4608171466845278,
      "grad_norm": 0.13547277450561523,
      "learning_rate": 8e-05,
      "loss": 1.6236,
      "step": 1376
    },
    {
      "epoch": 0.4611520428667113,
      "grad_norm": 0.13160713016986847,
      "learning_rate": 8e-05,
      "loss": 1.4182,
      "step": 1377
    },
    {
      "epoch": 0.4614869390488948,
      "grad_norm": 0.14836764335632324,
      "learning_rate": 8e-05,
      "loss": 1.569,
      "step": 1378
    },
    {
      "epoch": 0.4618218352310784,
      "grad_norm": 0.1358698159456253,
      "learning_rate": 8e-05,
      "loss": 1.5104,
      "step": 1379
    },
    {
      "epoch": 0.4621567314132619,
      "grad_norm": 0.15062221884727478,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 1380
    },
    {
      "epoch": 0.46249162759544543,
      "grad_norm": 0.13700494170188904,
      "learning_rate": 8e-05,
      "loss": 1.5096,
      "step": 1381
    },
    {
      "epoch": 0.46282652377762895,
      "grad_norm": 0.13646738231182098,
      "learning_rate": 8e-05,
      "loss": 1.5596,
      "step": 1382
    },
    {
      "epoch": 0.46316141995981247,
      "grad_norm": 0.13588888943195343,
      "learning_rate": 8e-05,
      "loss": 1.5938,
      "step": 1383
    },
    {
      "epoch": 0.463496316141996,
      "grad_norm": 0.13292071223258972,
      "learning_rate": 8e-05,
      "loss": 1.5596,
      "step": 1384
    },
    {
      "epoch": 0.4638312123241795,
      "grad_norm": 0.1349012702703476,
      "learning_rate": 8e-05,
      "loss": 1.5821,
      "step": 1385
    },
    {
      "epoch": 0.46416610850636303,
      "grad_norm": 0.13228747248649597,
      "learning_rate": 8e-05,
      "loss": 1.5095,
      "step": 1386
    },
    {
      "epoch": 0.46450100468854655,
      "grad_norm": 0.1352642923593521,
      "learning_rate": 8e-05,
      "loss": 1.5907,
      "step": 1387
    },
    {
      "epoch": 0.46483590087073007,
      "grad_norm": 0.1373470574617386,
      "learning_rate": 8e-05,
      "loss": 1.6301,
      "step": 1388
    },
    {
      "epoch": 0.4651707970529136,
      "grad_norm": 0.13355818390846252,
      "learning_rate": 8e-05,
      "loss": 1.5833,
      "step": 1389
    },
    {
      "epoch": 0.4655056932350971,
      "grad_norm": 0.12650242447853088,
      "learning_rate": 8e-05,
      "loss": 1.4826,
      "step": 1390
    },
    {
      "epoch": 0.4658405894172806,
      "grad_norm": 0.13307027518749237,
      "learning_rate": 8e-05,
      "loss": 1.4788,
      "step": 1391
    },
    {
      "epoch": 0.46617548559946415,
      "grad_norm": 0.13566753268241882,
      "learning_rate": 8e-05,
      "loss": 1.5419,
      "step": 1392
    },
    {
      "epoch": 0.46651038178164767,
      "grad_norm": 0.1325606107711792,
      "learning_rate": 8e-05,
      "loss": 1.5573,
      "step": 1393
    },
    {
      "epoch": 0.46684527796383124,
      "grad_norm": 0.1306782364845276,
      "learning_rate": 8e-05,
      "loss": 1.4934,
      "step": 1394
    },
    {
      "epoch": 0.46718017414601476,
      "grad_norm": 0.14358948171138763,
      "learning_rate": 8e-05,
      "loss": 1.6687,
      "step": 1395
    },
    {
      "epoch": 0.4675150703281983,
      "grad_norm": 0.12763692438602448,
      "learning_rate": 8e-05,
      "loss": 1.5616,
      "step": 1396
    },
    {
      "epoch": 0.4678499665103818,
      "grad_norm": 0.15241365134716034,
      "learning_rate": 8e-05,
      "loss": 1.6288,
      "step": 1397
    },
    {
      "epoch": 0.4681848626925653,
      "grad_norm": 0.12833240628242493,
      "learning_rate": 8e-05,
      "loss": 1.5015,
      "step": 1398
    },
    {
      "epoch": 0.46851975887474884,
      "grad_norm": 0.14017948508262634,
      "learning_rate": 8e-05,
      "loss": 1.5492,
      "step": 1399
    },
    {
      "epoch": 0.46885465505693236,
      "grad_norm": 0.1317838877439499,
      "learning_rate": 8e-05,
      "loss": 1.4151,
      "step": 1400
    },
    {
      "epoch": 0.4691895512391159,
      "grad_norm": 0.13451865315437317,
      "learning_rate": 8e-05,
      "loss": 1.5607,
      "step": 1401
    },
    {
      "epoch": 0.4695244474212994,
      "grad_norm": 0.14512667059898376,
      "learning_rate": 8e-05,
      "loss": 1.6353,
      "step": 1402
    },
    {
      "epoch": 0.4698593436034829,
      "grad_norm": 0.1329972743988037,
      "learning_rate": 8e-05,
      "loss": 1.5386,
      "step": 1403
    },
    {
      "epoch": 0.47019423978566643,
      "grad_norm": 0.14929285645484924,
      "learning_rate": 8e-05,
      "loss": 1.5529,
      "step": 1404
    },
    {
      "epoch": 0.47052913596784995,
      "grad_norm": 0.13529764115810394,
      "learning_rate": 8e-05,
      "loss": 1.4863,
      "step": 1405
    },
    {
      "epoch": 0.4708640321500335,
      "grad_norm": 0.13484224677085876,
      "learning_rate": 8e-05,
      "loss": 1.5211,
      "step": 1406
    },
    {
      "epoch": 0.471198928332217,
      "grad_norm": 0.13165660202503204,
      "learning_rate": 8e-05,
      "loss": 1.5281,
      "step": 1407
    },
    {
      "epoch": 0.4715338245144005,
      "grad_norm": 0.13174279034137726,
      "learning_rate": 8e-05,
      "loss": 1.4722,
      "step": 1408
    },
    {
      "epoch": 0.47186872069658403,
      "grad_norm": 0.13460150361061096,
      "learning_rate": 8e-05,
      "loss": 1.5053,
      "step": 1409
    },
    {
      "epoch": 0.4722036168787676,
      "grad_norm": 0.14085479080677032,
      "learning_rate": 8e-05,
      "loss": 1.6152,
      "step": 1410
    },
    {
      "epoch": 0.4725385130609511,
      "grad_norm": 0.13234712183475494,
      "learning_rate": 8e-05,
      "loss": 1.5792,
      "step": 1411
    },
    {
      "epoch": 0.47287340924313465,
      "grad_norm": 0.13769885897636414,
      "learning_rate": 8e-05,
      "loss": 1.6393,
      "step": 1412
    },
    {
      "epoch": 0.47320830542531817,
      "grad_norm": 0.13575012981891632,
      "learning_rate": 8e-05,
      "loss": 1.5576,
      "step": 1413
    },
    {
      "epoch": 0.4735432016075017,
      "grad_norm": 0.13712593913078308,
      "learning_rate": 8e-05,
      "loss": 1.4871,
      "step": 1414
    },
    {
      "epoch": 0.4738780977896852,
      "grad_norm": 0.15135601162910461,
      "learning_rate": 8e-05,
      "loss": 1.7244,
      "step": 1415
    },
    {
      "epoch": 0.4742129939718687,
      "grad_norm": 0.13049952685832977,
      "learning_rate": 8e-05,
      "loss": 1.4959,
      "step": 1416
    },
    {
      "epoch": 0.47454789015405224,
      "grad_norm": 0.13493356108665466,
      "learning_rate": 8e-05,
      "loss": 1.5403,
      "step": 1417
    },
    {
      "epoch": 0.47488278633623576,
      "grad_norm": 0.13331690430641174,
      "learning_rate": 8e-05,
      "loss": 1.5406,
      "step": 1418
    },
    {
      "epoch": 0.4752176825184193,
      "grad_norm": 0.12928374111652374,
      "learning_rate": 8e-05,
      "loss": 1.5069,
      "step": 1419
    },
    {
      "epoch": 0.4755525787006028,
      "grad_norm": 0.14342328906059265,
      "learning_rate": 8e-05,
      "loss": 1.5213,
      "step": 1420
    },
    {
      "epoch": 0.4758874748827863,
      "grad_norm": 0.13330158591270447,
      "learning_rate": 8e-05,
      "loss": 1.536,
      "step": 1421
    },
    {
      "epoch": 0.47622237106496984,
      "grad_norm": 0.13900697231292725,
      "learning_rate": 8e-05,
      "loss": 1.5245,
      "step": 1422
    },
    {
      "epoch": 0.47655726724715336,
      "grad_norm": 0.13483251631259918,
      "learning_rate": 8e-05,
      "loss": 1.5388,
      "step": 1423
    },
    {
      "epoch": 0.4768921634293369,
      "grad_norm": 0.13439254462718964,
      "learning_rate": 8e-05,
      "loss": 1.5125,
      "step": 1424
    },
    {
      "epoch": 0.47722705961152045,
      "grad_norm": 0.13587237894535065,
      "learning_rate": 8e-05,
      "loss": 1.5634,
      "step": 1425
    },
    {
      "epoch": 0.477561955793704,
      "grad_norm": 0.13707709312438965,
      "learning_rate": 8e-05,
      "loss": 1.4907,
      "step": 1426
    },
    {
      "epoch": 0.4778968519758875,
      "grad_norm": 0.13741596043109894,
      "learning_rate": 8e-05,
      "loss": 1.514,
      "step": 1427
    },
    {
      "epoch": 0.478231748158071,
      "grad_norm": 0.13870275020599365,
      "learning_rate": 8e-05,
      "loss": 1.6151,
      "step": 1428
    },
    {
      "epoch": 0.47856664434025453,
      "grad_norm": 0.13958342373371124,
      "learning_rate": 8e-05,
      "loss": 1.5788,
      "step": 1429
    },
    {
      "epoch": 0.47890154052243805,
      "grad_norm": 0.12872742116451263,
      "learning_rate": 8e-05,
      "loss": 1.5673,
      "step": 1430
    },
    {
      "epoch": 0.47923643670462157,
      "grad_norm": 0.14035053551197052,
      "learning_rate": 8e-05,
      "loss": 1.6684,
      "step": 1431
    },
    {
      "epoch": 0.4795713328868051,
      "grad_norm": 0.13876856863498688,
      "learning_rate": 8e-05,
      "loss": 1.545,
      "step": 1432
    },
    {
      "epoch": 0.4799062290689886,
      "grad_norm": 0.13334226608276367,
      "learning_rate": 8e-05,
      "loss": 1.5629,
      "step": 1433
    },
    {
      "epoch": 0.48024112525117213,
      "grad_norm": 0.13676205277442932,
      "learning_rate": 8e-05,
      "loss": 1.5512,
      "step": 1434
    },
    {
      "epoch": 0.48057602143335565,
      "grad_norm": 0.14301729202270508,
      "learning_rate": 8e-05,
      "loss": 1.6361,
      "step": 1435
    },
    {
      "epoch": 0.48091091761553917,
      "grad_norm": 0.13038015365600586,
      "learning_rate": 8e-05,
      "loss": 1.4005,
      "step": 1436
    },
    {
      "epoch": 0.4812458137977227,
      "grad_norm": 0.1417866200208664,
      "learning_rate": 8e-05,
      "loss": 1.5891,
      "step": 1437
    },
    {
      "epoch": 0.4815807099799062,
      "grad_norm": 0.1548231989145279,
      "learning_rate": 8e-05,
      "loss": 1.6032,
      "step": 1438
    },
    {
      "epoch": 0.4819156061620897,
      "grad_norm": 0.13076241314411163,
      "learning_rate": 8e-05,
      "loss": 1.4592,
      "step": 1439
    },
    {
      "epoch": 0.4822505023442733,
      "grad_norm": 0.15356461703777313,
      "learning_rate": 8e-05,
      "loss": 1.5836,
      "step": 1440
    },
    {
      "epoch": 0.4825853985264568,
      "grad_norm": 0.1362692415714264,
      "learning_rate": 8e-05,
      "loss": 1.494,
      "step": 1441
    },
    {
      "epoch": 0.48292029470864034,
      "grad_norm": 0.13896577060222626,
      "learning_rate": 8e-05,
      "loss": 1.5318,
      "step": 1442
    },
    {
      "epoch": 0.48325519089082386,
      "grad_norm": 0.14562126994132996,
      "learning_rate": 8e-05,
      "loss": 1.474,
      "step": 1443
    },
    {
      "epoch": 0.4835900870730074,
      "grad_norm": 0.13810032606124878,
      "learning_rate": 8e-05,
      "loss": 1.5028,
      "step": 1444
    },
    {
      "epoch": 0.4839249832551909,
      "grad_norm": 0.13391505181789398,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 1445
    },
    {
      "epoch": 0.4842598794373744,
      "grad_norm": 0.14605800807476044,
      "learning_rate": 8e-05,
      "loss": 1.5096,
      "step": 1446
    },
    {
      "epoch": 0.48459477561955794,
      "grad_norm": 0.13562610745429993,
      "learning_rate": 8e-05,
      "loss": 1.5048,
      "step": 1447
    },
    {
      "epoch": 0.48492967180174146,
      "grad_norm": 0.13357006013393402,
      "learning_rate": 8e-05,
      "loss": 1.4947,
      "step": 1448
    },
    {
      "epoch": 0.485264567983925,
      "grad_norm": 0.15435440838336945,
      "learning_rate": 8e-05,
      "loss": 1.515,
      "step": 1449
    },
    {
      "epoch": 0.4855994641661085,
      "grad_norm": 0.13723711669445038,
      "learning_rate": 8e-05,
      "loss": 1.4984,
      "step": 1450
    },
    {
      "epoch": 0.485934360348292,
      "grad_norm": 0.132220059633255,
      "learning_rate": 8e-05,
      "loss": 1.4834,
      "step": 1451
    },
    {
      "epoch": 0.48626925653047554,
      "grad_norm": 0.1466621309518814,
      "learning_rate": 8e-05,
      "loss": 1.5563,
      "step": 1452
    },
    {
      "epoch": 0.48660415271265905,
      "grad_norm": 0.13908900320529938,
      "learning_rate": 8e-05,
      "loss": 1.612,
      "step": 1453
    },
    {
      "epoch": 0.4869390488948426,
      "grad_norm": 0.1374942511320114,
      "learning_rate": 8e-05,
      "loss": 1.5721,
      "step": 1454
    },
    {
      "epoch": 0.48727394507702615,
      "grad_norm": 0.13758109509944916,
      "learning_rate": 8e-05,
      "loss": 1.5041,
      "step": 1455
    },
    {
      "epoch": 0.48760884125920967,
      "grad_norm": 0.1350172907114029,
      "learning_rate": 8e-05,
      "loss": 1.5877,
      "step": 1456
    },
    {
      "epoch": 0.4879437374413932,
      "grad_norm": 0.1331929713487625,
      "learning_rate": 8e-05,
      "loss": 1.4536,
      "step": 1457
    },
    {
      "epoch": 0.4882786336235767,
      "grad_norm": 0.14570137858390808,
      "learning_rate": 8e-05,
      "loss": 1.5998,
      "step": 1458
    },
    {
      "epoch": 0.4886135298057602,
      "grad_norm": 0.13621316850185394,
      "learning_rate": 8e-05,
      "loss": 1.4992,
      "step": 1459
    },
    {
      "epoch": 0.48894842598794375,
      "grad_norm": 0.14762167632579803,
      "learning_rate": 8e-05,
      "loss": 1.586,
      "step": 1460
    },
    {
      "epoch": 0.48928332217012727,
      "grad_norm": 0.13871248066425323,
      "learning_rate": 8e-05,
      "loss": 1.4834,
      "step": 1461
    },
    {
      "epoch": 0.4896182183523108,
      "grad_norm": 0.1301746815443039,
      "learning_rate": 8e-05,
      "loss": 1.4253,
      "step": 1462
    },
    {
      "epoch": 0.4899531145344943,
      "grad_norm": 0.13972540199756622,
      "learning_rate": 8e-05,
      "loss": 1.5605,
      "step": 1463
    },
    {
      "epoch": 0.4902880107166778,
      "grad_norm": 0.13580873608589172,
      "learning_rate": 8e-05,
      "loss": 1.553,
      "step": 1464
    },
    {
      "epoch": 0.49062290689886134,
      "grad_norm": 0.13775992393493652,
      "learning_rate": 8e-05,
      "loss": 1.6178,
      "step": 1465
    },
    {
      "epoch": 0.49095780308104486,
      "grad_norm": 0.1369580179452896,
      "learning_rate": 8e-05,
      "loss": 1.5351,
      "step": 1466
    },
    {
      "epoch": 0.4912926992632284,
      "grad_norm": 0.1382039487361908,
      "learning_rate": 8e-05,
      "loss": 1.4578,
      "step": 1467
    },
    {
      "epoch": 0.4916275954454119,
      "grad_norm": 0.1338503658771515,
      "learning_rate": 8e-05,
      "loss": 1.4694,
      "step": 1468
    },
    {
      "epoch": 0.4919624916275954,
      "grad_norm": 0.13808788359165192,
      "learning_rate": 8e-05,
      "loss": 1.5925,
      "step": 1469
    },
    {
      "epoch": 0.49229738780977894,
      "grad_norm": 0.13132376968860626,
      "learning_rate": 8e-05,
      "loss": 1.4845,
      "step": 1470
    },
    {
      "epoch": 0.4926322839919625,
      "grad_norm": 0.1322912722826004,
      "learning_rate": 8e-05,
      "loss": 1.4891,
      "step": 1471
    },
    {
      "epoch": 0.49296718017414604,
      "grad_norm": 0.13255846500396729,
      "learning_rate": 8e-05,
      "loss": 1.5137,
      "step": 1472
    },
    {
      "epoch": 0.49330207635632956,
      "grad_norm": 0.13972516357898712,
      "learning_rate": 8e-05,
      "loss": 1.6249,
      "step": 1473
    },
    {
      "epoch": 0.4936369725385131,
      "grad_norm": 0.13479657471179962,
      "learning_rate": 8e-05,
      "loss": 1.5268,
      "step": 1474
    },
    {
      "epoch": 0.4939718687206966,
      "grad_norm": 0.1415734738111496,
      "learning_rate": 8e-05,
      "loss": 1.5273,
      "step": 1475
    },
    {
      "epoch": 0.4943067649028801,
      "grad_norm": 0.1289701908826828,
      "learning_rate": 8e-05,
      "loss": 1.4284,
      "step": 1476
    },
    {
      "epoch": 0.49464166108506363,
      "grad_norm": 0.13838624954223633,
      "learning_rate": 8e-05,
      "loss": 1.4745,
      "step": 1477
    },
    {
      "epoch": 0.49497655726724715,
      "grad_norm": 0.12986662983894348,
      "learning_rate": 8e-05,
      "loss": 1.5105,
      "step": 1478
    },
    {
      "epoch": 0.49531145344943067,
      "grad_norm": 0.1321294903755188,
      "learning_rate": 8e-05,
      "loss": 1.4876,
      "step": 1479
    },
    {
      "epoch": 0.4956463496316142,
      "grad_norm": 0.1369263082742691,
      "learning_rate": 8e-05,
      "loss": 1.5295,
      "step": 1480
    },
    {
      "epoch": 0.4959812458137977,
      "grad_norm": 0.13485805690288544,
      "learning_rate": 8e-05,
      "loss": 1.5683,
      "step": 1481
    },
    {
      "epoch": 0.49631614199598123,
      "grad_norm": 0.1378236562013626,
      "learning_rate": 8e-05,
      "loss": 1.5795,
      "step": 1482
    },
    {
      "epoch": 0.49665103817816475,
      "grad_norm": 0.14048084616661072,
      "learning_rate": 8e-05,
      "loss": 1.4974,
      "step": 1483
    },
    {
      "epoch": 0.49698593436034827,
      "grad_norm": 0.13479788601398468,
      "learning_rate": 8e-05,
      "loss": 1.5269,
      "step": 1484
    },
    {
      "epoch": 0.4973208305425318,
      "grad_norm": 0.15606361627578735,
      "learning_rate": 8e-05,
      "loss": 1.5147,
      "step": 1485
    },
    {
      "epoch": 0.49765572672471536,
      "grad_norm": 0.14261959493160248,
      "learning_rate": 8e-05,
      "loss": 1.573,
      "step": 1486
    },
    {
      "epoch": 0.4979906229068989,
      "grad_norm": 0.13978411257266998,
      "learning_rate": 8e-05,
      "loss": 1.5056,
      "step": 1487
    },
    {
      "epoch": 0.4983255190890824,
      "grad_norm": 0.15291480720043182,
      "learning_rate": 8e-05,
      "loss": 1.553,
      "step": 1488
    },
    {
      "epoch": 0.4986604152712659,
      "grad_norm": 0.13231641054153442,
      "learning_rate": 8e-05,
      "loss": 1.5365,
      "step": 1489
    },
    {
      "epoch": 0.49899531145344944,
      "grad_norm": 0.1442975401878357,
      "learning_rate": 8e-05,
      "loss": 1.509,
      "step": 1490
    },
    {
      "epoch": 0.49933020763563296,
      "grad_norm": 0.13819022476673126,
      "learning_rate": 8e-05,
      "loss": 1.4961,
      "step": 1491
    },
    {
      "epoch": 0.4996651038178165,
      "grad_norm": 0.13167428970336914,
      "learning_rate": 8e-05,
      "loss": 1.4446,
      "step": 1492
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.1332155168056488,
      "learning_rate": 8e-05,
      "loss": 1.4627,
      "step": 1493
    },
    {
      "epoch": 0.5003348961821835,
      "grad_norm": 0.14262352883815765,
      "learning_rate": 8e-05,
      "loss": 1.5017,
      "step": 1494
    },
    {
      "epoch": 0.500669792364367,
      "grad_norm": 0.1431969851255417,
      "learning_rate": 8e-05,
      "loss": 1.5472,
      "step": 1495
    },
    {
      "epoch": 0.5010046885465506,
      "grad_norm": 0.13634184002876282,
      "learning_rate": 8e-05,
      "loss": 1.5078,
      "step": 1496
    },
    {
      "epoch": 0.5013395847287341,
      "grad_norm": 0.1424323320388794,
      "learning_rate": 8e-05,
      "loss": 1.506,
      "step": 1497
    },
    {
      "epoch": 0.5016744809109176,
      "grad_norm": 0.15320394933223724,
      "learning_rate": 8e-05,
      "loss": 1.5806,
      "step": 1498
    },
    {
      "epoch": 0.5020093770931011,
      "grad_norm": 0.13950878381729126,
      "learning_rate": 8e-05,
      "loss": 1.5567,
      "step": 1499
    },
    {
      "epoch": 0.5023442732752846,
      "grad_norm": 0.15474767982959747,
      "learning_rate": 8e-05,
      "loss": 1.4953,
      "step": 1500
    },
    {
      "epoch": 0.5026791694574682,
      "grad_norm": 0.1339046210050583,
      "learning_rate": 8e-05,
      "loss": 1.5956,
      "step": 1501
    },
    {
      "epoch": 0.5030140656396517,
      "grad_norm": 0.13631151616573334,
      "learning_rate": 8e-05,
      "loss": 1.4793,
      "step": 1502
    },
    {
      "epoch": 0.5033489618218352,
      "grad_norm": 0.14126266539096832,
      "learning_rate": 8e-05,
      "loss": 1.5234,
      "step": 1503
    },
    {
      "epoch": 0.5036838580040187,
      "grad_norm": 0.1329958736896515,
      "learning_rate": 8e-05,
      "loss": 1.5394,
      "step": 1504
    },
    {
      "epoch": 0.5040187541862022,
      "grad_norm": 0.1400454193353653,
      "learning_rate": 8e-05,
      "loss": 1.572,
      "step": 1505
    },
    {
      "epoch": 0.5043536503683858,
      "grad_norm": 0.1338685005903244,
      "learning_rate": 8e-05,
      "loss": 1.5004,
      "step": 1506
    },
    {
      "epoch": 0.5046885465505693,
      "grad_norm": 0.1306898146867752,
      "learning_rate": 8e-05,
      "loss": 1.4648,
      "step": 1507
    },
    {
      "epoch": 0.5050234427327528,
      "grad_norm": 0.1329721212387085,
      "learning_rate": 8e-05,
      "loss": 1.4828,
      "step": 1508
    },
    {
      "epoch": 0.5053583389149364,
      "grad_norm": 0.13135147094726562,
      "learning_rate": 8e-05,
      "loss": 1.5019,
      "step": 1509
    },
    {
      "epoch": 0.5056932350971199,
      "grad_norm": 0.1395934522151947,
      "learning_rate": 8e-05,
      "loss": 1.567,
      "step": 1510
    },
    {
      "epoch": 0.5060281312793035,
      "grad_norm": 0.13567279279232025,
      "learning_rate": 8e-05,
      "loss": 1.4969,
      "step": 1511
    },
    {
      "epoch": 0.506363027461487,
      "grad_norm": 0.14081412553787231,
      "learning_rate": 8e-05,
      "loss": 1.5707,
      "step": 1512
    },
    {
      "epoch": 0.5066979236436705,
      "grad_norm": 0.13967132568359375,
      "learning_rate": 8e-05,
      "loss": 1.6018,
      "step": 1513
    },
    {
      "epoch": 0.507032819825854,
      "grad_norm": 0.1338859498500824,
      "learning_rate": 8e-05,
      "loss": 1.508,
      "step": 1514
    },
    {
      "epoch": 0.5073677160080375,
      "grad_norm": 0.14429129660129547,
      "learning_rate": 8e-05,
      "loss": 1.5294,
      "step": 1515
    },
    {
      "epoch": 0.5077026121902211,
      "grad_norm": 0.13419605791568756,
      "learning_rate": 8e-05,
      "loss": 1.5389,
      "step": 1516
    },
    {
      "epoch": 0.5080375083724046,
      "grad_norm": 0.13867507874965668,
      "learning_rate": 8e-05,
      "loss": 1.5305,
      "step": 1517
    },
    {
      "epoch": 0.5083724045545881,
      "grad_norm": 0.14632517099380493,
      "learning_rate": 8e-05,
      "loss": 1.5226,
      "step": 1518
    },
    {
      "epoch": 0.5087073007367716,
      "grad_norm": 0.13642947375774384,
      "learning_rate": 8e-05,
      "loss": 1.503,
      "step": 1519
    },
    {
      "epoch": 0.5090421969189551,
      "grad_norm": 0.14197154343128204,
      "learning_rate": 8e-05,
      "loss": 1.4944,
      "step": 1520
    },
    {
      "epoch": 0.5093770931011387,
      "grad_norm": 0.15007254481315613,
      "learning_rate": 8e-05,
      "loss": 1.6066,
      "step": 1521
    },
    {
      "epoch": 0.5097119892833222,
      "grad_norm": 0.13321147859096527,
      "learning_rate": 8e-05,
      "loss": 1.5243,
      "step": 1522
    },
    {
      "epoch": 0.5100468854655057,
      "grad_norm": 0.13780297338962555,
      "learning_rate": 8e-05,
      "loss": 1.4878,
      "step": 1523
    },
    {
      "epoch": 0.5103817816476892,
      "grad_norm": 0.1446111500263214,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 1524
    },
    {
      "epoch": 0.5107166778298727,
      "grad_norm": 0.13625630736351013,
      "learning_rate": 8e-05,
      "loss": 1.6114,
      "step": 1525
    },
    {
      "epoch": 0.5110515740120563,
      "grad_norm": 0.1358702927827835,
      "learning_rate": 8e-05,
      "loss": 1.5542,
      "step": 1526
    },
    {
      "epoch": 0.5113864701942398,
      "grad_norm": 0.13842421770095825,
      "learning_rate": 8e-05,
      "loss": 1.6154,
      "step": 1527
    },
    {
      "epoch": 0.5117213663764233,
      "grad_norm": 0.14459525048732758,
      "learning_rate": 8e-05,
      "loss": 1.6155,
      "step": 1528
    },
    {
      "epoch": 0.5120562625586068,
      "grad_norm": 0.13850168883800507,
      "learning_rate": 8e-05,
      "loss": 1.6333,
      "step": 1529
    },
    {
      "epoch": 0.5123911587407903,
      "grad_norm": 0.14903128147125244,
      "learning_rate": 8e-05,
      "loss": 1.5694,
      "step": 1530
    },
    {
      "epoch": 0.5127260549229739,
      "grad_norm": 0.13369476795196533,
      "learning_rate": 8e-05,
      "loss": 1.5417,
      "step": 1531
    },
    {
      "epoch": 0.5130609511051574,
      "grad_norm": 0.15089695155620575,
      "learning_rate": 8e-05,
      "loss": 1.5275,
      "step": 1532
    },
    {
      "epoch": 0.5133958472873409,
      "grad_norm": 0.1337990164756775,
      "learning_rate": 8e-05,
      "loss": 1.5861,
      "step": 1533
    },
    {
      "epoch": 0.5137307434695244,
      "grad_norm": 0.13394346833229065,
      "learning_rate": 8e-05,
      "loss": 1.519,
      "step": 1534
    },
    {
      "epoch": 0.5140656396517079,
      "grad_norm": 0.14651945233345032,
      "learning_rate": 8e-05,
      "loss": 1.5907,
      "step": 1535
    },
    {
      "epoch": 0.5144005358338914,
      "grad_norm": 0.13765332102775574,
      "learning_rate": 8e-05,
      "loss": 1.5602,
      "step": 1536
    },
    {
      "epoch": 0.514735432016075,
      "grad_norm": 0.13801978528499603,
      "learning_rate": 8e-05,
      "loss": 1.6103,
      "step": 1537
    },
    {
      "epoch": 0.5150703281982585,
      "grad_norm": 0.1368737667798996,
      "learning_rate": 8e-05,
      "loss": 1.4831,
      "step": 1538
    },
    {
      "epoch": 0.5154052243804421,
      "grad_norm": 0.14006683230400085,
      "learning_rate": 8e-05,
      "loss": 1.6652,
      "step": 1539
    },
    {
      "epoch": 0.5157401205626256,
      "grad_norm": 0.13527435064315796,
      "learning_rate": 8e-05,
      "loss": 1.5371,
      "step": 1540
    },
    {
      "epoch": 0.5160750167448092,
      "grad_norm": 0.13277162611484528,
      "learning_rate": 8e-05,
      "loss": 1.4549,
      "step": 1541
    },
    {
      "epoch": 0.5164099129269927,
      "grad_norm": 0.1306408792734146,
      "learning_rate": 8e-05,
      "loss": 1.4588,
      "step": 1542
    },
    {
      "epoch": 0.5167448091091762,
      "grad_norm": 0.143892303109169,
      "learning_rate": 8e-05,
      "loss": 1.5741,
      "step": 1543
    },
    {
      "epoch": 0.5170797052913597,
      "grad_norm": 0.14073526859283447,
      "learning_rate": 8e-05,
      "loss": 1.6441,
      "step": 1544
    },
    {
      "epoch": 0.5174146014735432,
      "grad_norm": 0.1453334540128708,
      "learning_rate": 8e-05,
      "loss": 1.6231,
      "step": 1545
    },
    {
      "epoch": 0.5177494976557268,
      "grad_norm": 0.13606394827365875,
      "learning_rate": 8e-05,
      "loss": 1.5302,
      "step": 1546
    },
    {
      "epoch": 0.5180843938379103,
      "grad_norm": 0.13272053003311157,
      "learning_rate": 8e-05,
      "loss": 1.6608,
      "step": 1547
    },
    {
      "epoch": 0.5184192900200938,
      "grad_norm": 0.1412811279296875,
      "learning_rate": 8e-05,
      "loss": 1.6457,
      "step": 1548
    },
    {
      "epoch": 0.5187541862022773,
      "grad_norm": 0.13119031488895416,
      "learning_rate": 8e-05,
      "loss": 1.5017,
      "step": 1549
    },
    {
      "epoch": 0.5190890823844608,
      "grad_norm": 0.13319101929664612,
      "learning_rate": 8e-05,
      "loss": 1.5512,
      "step": 1550
    },
    {
      "epoch": 0.5194239785666444,
      "grad_norm": 0.13011422753334045,
      "learning_rate": 8e-05,
      "loss": 1.5114,
      "step": 1551
    },
    {
      "epoch": 0.5197588747488279,
      "grad_norm": 0.13686086237430573,
      "learning_rate": 8e-05,
      "loss": 1.5508,
      "step": 1552
    },
    {
      "epoch": 0.5200937709310114,
      "grad_norm": 0.13508883118629456,
      "learning_rate": 8e-05,
      "loss": 1.5376,
      "step": 1553
    },
    {
      "epoch": 0.5204286671131949,
      "grad_norm": 0.14017988741397858,
      "learning_rate": 8e-05,
      "loss": 1.5945,
      "step": 1554
    },
    {
      "epoch": 0.5207635632953784,
      "grad_norm": 0.1317349225282669,
      "learning_rate": 8e-05,
      "loss": 1.506,
      "step": 1555
    },
    {
      "epoch": 0.521098459477562,
      "grad_norm": 0.13410162925720215,
      "learning_rate": 8e-05,
      "loss": 1.5391,
      "step": 1556
    },
    {
      "epoch": 0.5214333556597455,
      "grad_norm": 0.14281463623046875,
      "learning_rate": 8e-05,
      "loss": 1.5026,
      "step": 1557
    },
    {
      "epoch": 0.521768251841929,
      "grad_norm": 0.13112133741378784,
      "learning_rate": 8e-05,
      "loss": 1.4903,
      "step": 1558
    },
    {
      "epoch": 0.5221031480241125,
      "grad_norm": 0.13684020936489105,
      "learning_rate": 8e-05,
      "loss": 1.573,
      "step": 1559
    },
    {
      "epoch": 0.522438044206296,
      "grad_norm": 0.14161817729473114,
      "learning_rate": 8e-05,
      "loss": 1.6005,
      "step": 1560
    },
    {
      "epoch": 0.5227729403884795,
      "grad_norm": 0.13510800898075104,
      "learning_rate": 8e-05,
      "loss": 1.5772,
      "step": 1561
    },
    {
      "epoch": 0.5231078365706631,
      "grad_norm": 0.13297805190086365,
      "learning_rate": 8e-05,
      "loss": 1.5542,
      "step": 1562
    },
    {
      "epoch": 0.5234427327528466,
      "grad_norm": 0.1454104483127594,
      "learning_rate": 8e-05,
      "loss": 1.4955,
      "step": 1563
    },
    {
      "epoch": 0.5237776289350301,
      "grad_norm": 0.1356443166732788,
      "learning_rate": 8e-05,
      "loss": 1.5414,
      "step": 1564
    },
    {
      "epoch": 0.5241125251172136,
      "grad_norm": 0.14665047824382782,
      "learning_rate": 8e-05,
      "loss": 1.6163,
      "step": 1565
    },
    {
      "epoch": 0.5244474212993971,
      "grad_norm": 0.13482023775577545,
      "learning_rate": 8e-05,
      "loss": 1.568,
      "step": 1566
    },
    {
      "epoch": 0.5247823174815807,
      "grad_norm": 0.13328306376934052,
      "learning_rate": 8e-05,
      "loss": 1.4871,
      "step": 1567
    },
    {
      "epoch": 0.5251172136637642,
      "grad_norm": 0.1392839252948761,
      "learning_rate": 8e-05,
      "loss": 1.5079,
      "step": 1568
    },
    {
      "epoch": 0.5254521098459477,
      "grad_norm": 0.1345512568950653,
      "learning_rate": 8e-05,
      "loss": 1.5319,
      "step": 1569
    },
    {
      "epoch": 0.5257870060281313,
      "grad_norm": 0.14496064186096191,
      "learning_rate": 8e-05,
      "loss": 1.5909,
      "step": 1570
    },
    {
      "epoch": 0.5261219022103149,
      "grad_norm": 0.13826991617679596,
      "learning_rate": 8e-05,
      "loss": 1.5952,
      "step": 1571
    },
    {
      "epoch": 0.5264567983924984,
      "grad_norm": 0.14850930869579315,
      "learning_rate": 8e-05,
      "loss": 1.5434,
      "step": 1572
    },
    {
      "epoch": 0.5267916945746819,
      "grad_norm": 0.13955719769001007,
      "learning_rate": 8e-05,
      "loss": 1.6712,
      "step": 1573
    },
    {
      "epoch": 0.5271265907568654,
      "grad_norm": 0.14246869087219238,
      "learning_rate": 8e-05,
      "loss": 1.579,
      "step": 1574
    },
    {
      "epoch": 0.5274614869390489,
      "grad_norm": 0.13483554124832153,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 1575
    },
    {
      "epoch": 0.5277963831212324,
      "grad_norm": 0.1347486823797226,
      "learning_rate": 8e-05,
      "loss": 1.5424,
      "step": 1576
    },
    {
      "epoch": 0.528131279303416,
      "grad_norm": 0.13871312141418457,
      "learning_rate": 8e-05,
      "loss": 1.5367,
      "step": 1577
    },
    {
      "epoch": 0.5284661754855995,
      "grad_norm": 0.13920220732688904,
      "learning_rate": 8e-05,
      "loss": 1.528,
      "step": 1578
    },
    {
      "epoch": 0.528801071667783,
      "grad_norm": 0.12899106740951538,
      "learning_rate": 8e-05,
      "loss": 1.4647,
      "step": 1579
    },
    {
      "epoch": 0.5291359678499665,
      "grad_norm": 0.1442769467830658,
      "learning_rate": 8e-05,
      "loss": 1.4808,
      "step": 1580
    },
    {
      "epoch": 0.52947086403215,
      "grad_norm": 0.13814596831798553,
      "learning_rate": 8e-05,
      "loss": 1.6402,
      "step": 1581
    },
    {
      "epoch": 0.5298057602143336,
      "grad_norm": 0.13976840674877167,
      "learning_rate": 8e-05,
      "loss": 1.5459,
      "step": 1582
    },
    {
      "epoch": 0.5301406563965171,
      "grad_norm": 0.13619589805603027,
      "learning_rate": 8e-05,
      "loss": 1.5899,
      "step": 1583
    },
    {
      "epoch": 0.5304755525787006,
      "grad_norm": 0.14372453093528748,
      "learning_rate": 8e-05,
      "loss": 1.5341,
      "step": 1584
    },
    {
      "epoch": 0.5308104487608841,
      "grad_norm": 0.137297585606575,
      "learning_rate": 8e-05,
      "loss": 1.573,
      "step": 1585
    },
    {
      "epoch": 0.5311453449430676,
      "grad_norm": 0.13442541658878326,
      "learning_rate": 8e-05,
      "loss": 1.5427,
      "step": 1586
    },
    {
      "epoch": 0.5314802411252512,
      "grad_norm": 0.13843630254268646,
      "learning_rate": 8e-05,
      "loss": 1.539,
      "step": 1587
    },
    {
      "epoch": 0.5318151373074347,
      "grad_norm": 0.13697417080402374,
      "learning_rate": 8e-05,
      "loss": 1.5193,
      "step": 1588
    },
    {
      "epoch": 0.5321500334896182,
      "grad_norm": 0.13524366915225983,
      "learning_rate": 8e-05,
      "loss": 1.5804,
      "step": 1589
    },
    {
      "epoch": 0.5324849296718017,
      "grad_norm": 0.1432202011346817,
      "learning_rate": 8e-05,
      "loss": 1.5333,
      "step": 1590
    },
    {
      "epoch": 0.5328198258539852,
      "grad_norm": 0.14773796498775482,
      "learning_rate": 8e-05,
      "loss": 1.5474,
      "step": 1591
    },
    {
      "epoch": 0.5331547220361688,
      "grad_norm": 0.13485991954803467,
      "learning_rate": 8e-05,
      "loss": 1.5858,
      "step": 1592
    },
    {
      "epoch": 0.5334896182183523,
      "grad_norm": 0.1461578756570816,
      "learning_rate": 8e-05,
      "loss": 1.5919,
      "step": 1593
    },
    {
      "epoch": 0.5338245144005358,
      "grad_norm": 0.15733952820301056,
      "learning_rate": 8e-05,
      "loss": 1.5077,
      "step": 1594
    },
    {
      "epoch": 0.5341594105827193,
      "grad_norm": 0.1339595913887024,
      "learning_rate": 8e-05,
      "loss": 1.4991,
      "step": 1595
    },
    {
      "epoch": 0.5344943067649028,
      "grad_norm": 0.14904479682445526,
      "learning_rate": 8e-05,
      "loss": 1.6124,
      "step": 1596
    },
    {
      "epoch": 0.5348292029470864,
      "grad_norm": 0.13725702464580536,
      "learning_rate": 8e-05,
      "loss": 1.5133,
      "step": 1597
    },
    {
      "epoch": 0.5351640991292699,
      "grad_norm": 0.13724686205387115,
      "learning_rate": 8e-05,
      "loss": 1.4391,
      "step": 1598
    },
    {
      "epoch": 0.5354989953114534,
      "grad_norm": 0.15302959084510803,
      "learning_rate": 8e-05,
      "loss": 1.5653,
      "step": 1599
    },
    {
      "epoch": 0.535833891493637,
      "grad_norm": 0.1358100026845932,
      "learning_rate": 8e-05,
      "loss": 1.5262,
      "step": 1600
    },
    {
      "epoch": 0.5361687876758205,
      "grad_norm": 0.14411740005016327,
      "learning_rate": 8e-05,
      "loss": 1.5864,
      "step": 1601
    },
    {
      "epoch": 0.5365036838580041,
      "grad_norm": 0.15314540266990662,
      "learning_rate": 8e-05,
      "loss": 1.5465,
      "step": 1602
    },
    {
      "epoch": 0.5368385800401876,
      "grad_norm": 0.13246311247348785,
      "learning_rate": 8e-05,
      "loss": 1.4714,
      "step": 1603
    },
    {
      "epoch": 0.5371734762223711,
      "grad_norm": 0.1369827389717102,
      "learning_rate": 8e-05,
      "loss": 1.5051,
      "step": 1604
    },
    {
      "epoch": 0.5375083724045546,
      "grad_norm": 0.13591016829013824,
      "learning_rate": 8e-05,
      "loss": 1.602,
      "step": 1605
    },
    {
      "epoch": 0.5378432685867381,
      "grad_norm": 0.13686427474021912,
      "learning_rate": 8e-05,
      "loss": 1.4664,
      "step": 1606
    },
    {
      "epoch": 0.5381781647689217,
      "grad_norm": 0.132359117269516,
      "learning_rate": 8e-05,
      "loss": 1.5272,
      "step": 1607
    },
    {
      "epoch": 0.5385130609511052,
      "grad_norm": 0.15114635229110718,
      "learning_rate": 8e-05,
      "loss": 1.5157,
      "step": 1608
    },
    {
      "epoch": 0.5388479571332887,
      "grad_norm": 0.13409267365932465,
      "learning_rate": 8e-05,
      "loss": 1.4652,
      "step": 1609
    },
    {
      "epoch": 0.5391828533154722,
      "grad_norm": 0.13541719317436218,
      "learning_rate": 8e-05,
      "loss": 1.4854,
      "step": 1610
    },
    {
      "epoch": 0.5395177494976557,
      "grad_norm": 0.14564919471740723,
      "learning_rate": 8e-05,
      "loss": 1.5983,
      "step": 1611
    },
    {
      "epoch": 0.5398526456798393,
      "grad_norm": 0.1292896717786789,
      "learning_rate": 8e-05,
      "loss": 1.4738,
      "step": 1612
    },
    {
      "epoch": 0.5401875418620228,
      "grad_norm": 0.13790330290794373,
      "learning_rate": 8e-05,
      "loss": 1.5704,
      "step": 1613
    },
    {
      "epoch": 0.5405224380442063,
      "grad_norm": 0.1459583193063736,
      "learning_rate": 8e-05,
      "loss": 1.6384,
      "step": 1614
    },
    {
      "epoch": 0.5408573342263898,
      "grad_norm": 0.13505598902702332,
      "learning_rate": 8e-05,
      "loss": 1.4734,
      "step": 1615
    },
    {
      "epoch": 0.5411922304085733,
      "grad_norm": 0.14846599102020264,
      "learning_rate": 8e-05,
      "loss": 1.5252,
      "step": 1616
    },
    {
      "epoch": 0.5415271265907569,
      "grad_norm": 0.14023953676223755,
      "learning_rate": 8e-05,
      "loss": 1.5202,
      "step": 1617
    },
    {
      "epoch": 0.5418620227729404,
      "grad_norm": 0.15544360876083374,
      "learning_rate": 8e-05,
      "loss": 1.6227,
      "step": 1618
    },
    {
      "epoch": 0.5421969189551239,
      "grad_norm": 0.1416192203760147,
      "learning_rate": 8e-05,
      "loss": 1.563,
      "step": 1619
    },
    {
      "epoch": 0.5425318151373074,
      "grad_norm": 0.16486681997776031,
      "learning_rate": 8e-05,
      "loss": 1.6136,
      "step": 1620
    },
    {
      "epoch": 0.5428667113194909,
      "grad_norm": 0.13983997702598572,
      "learning_rate": 8e-05,
      "loss": 1.5653,
      "step": 1621
    },
    {
      "epoch": 0.5432016075016745,
      "grad_norm": 0.1584227830171585,
      "learning_rate": 8e-05,
      "loss": 1.5802,
      "step": 1622
    },
    {
      "epoch": 0.543536503683858,
      "grad_norm": 0.1354813426733017,
      "learning_rate": 8e-05,
      "loss": 1.4838,
      "step": 1623
    },
    {
      "epoch": 0.5438713998660415,
      "grad_norm": 0.13500718772411346,
      "learning_rate": 8e-05,
      "loss": 1.5106,
      "step": 1624
    },
    {
      "epoch": 0.544206296048225,
      "grad_norm": 0.13720117509365082,
      "learning_rate": 8e-05,
      "loss": 1.5103,
      "step": 1625
    },
    {
      "epoch": 0.5445411922304085,
      "grad_norm": 0.15283840894699097,
      "learning_rate": 8e-05,
      "loss": 1.5038,
      "step": 1626
    },
    {
      "epoch": 0.544876088412592,
      "grad_norm": 0.1419651210308075,
      "learning_rate": 8e-05,
      "loss": 1.556,
      "step": 1627
    },
    {
      "epoch": 0.5452109845947756,
      "grad_norm": 0.1543707251548767,
      "learning_rate": 8e-05,
      "loss": 1.6303,
      "step": 1628
    },
    {
      "epoch": 0.5455458807769591,
      "grad_norm": 0.14435073733329773,
      "learning_rate": 8e-05,
      "loss": 1.5485,
      "step": 1629
    },
    {
      "epoch": 0.5458807769591426,
      "grad_norm": 0.13154450058937073,
      "learning_rate": 8e-05,
      "loss": 1.502,
      "step": 1630
    },
    {
      "epoch": 0.5462156731413262,
      "grad_norm": 0.13697633147239685,
      "learning_rate": 8e-05,
      "loss": 1.5348,
      "step": 1631
    },
    {
      "epoch": 0.5465505693235098,
      "grad_norm": 0.13468950986862183,
      "learning_rate": 8e-05,
      "loss": 1.4824,
      "step": 1632
    },
    {
      "epoch": 0.5468854655056933,
      "grad_norm": 0.13517890870571136,
      "learning_rate": 8e-05,
      "loss": 1.4903,
      "step": 1633
    },
    {
      "epoch": 0.5472203616878768,
      "grad_norm": 0.1360122710466385,
      "learning_rate": 8e-05,
      "loss": 1.5543,
      "step": 1634
    },
    {
      "epoch": 0.5475552578700603,
      "grad_norm": 0.13541433215141296,
      "learning_rate": 8e-05,
      "loss": 1.4414,
      "step": 1635
    },
    {
      "epoch": 0.5478901540522438,
      "grad_norm": 0.1378811150789261,
      "learning_rate": 8e-05,
      "loss": 1.5282,
      "step": 1636
    },
    {
      "epoch": 0.5482250502344274,
      "grad_norm": 0.13487283885478973,
      "learning_rate": 8e-05,
      "loss": 1.4918,
      "step": 1637
    },
    {
      "epoch": 0.5485599464166109,
      "grad_norm": 0.13467545807361603,
      "learning_rate": 8e-05,
      "loss": 1.5254,
      "step": 1638
    },
    {
      "epoch": 0.5488948425987944,
      "grad_norm": 0.1338234394788742,
      "learning_rate": 8e-05,
      "loss": 1.5628,
      "step": 1639
    },
    {
      "epoch": 0.5492297387809779,
      "grad_norm": 0.12966948747634888,
      "learning_rate": 8e-05,
      "loss": 1.4589,
      "step": 1640
    },
    {
      "epoch": 0.5495646349631614,
      "grad_norm": 0.13671110570430756,
      "learning_rate": 8e-05,
      "loss": 1.5422,
      "step": 1641
    },
    {
      "epoch": 0.549899531145345,
      "grad_norm": 0.13506744801998138,
      "learning_rate": 8e-05,
      "loss": 1.6279,
      "step": 1642
    },
    {
      "epoch": 0.5502344273275285,
      "grad_norm": 0.1419616937637329,
      "learning_rate": 8e-05,
      "loss": 1.5658,
      "step": 1643
    },
    {
      "epoch": 0.550569323509712,
      "grad_norm": 0.13367274403572083,
      "learning_rate": 8e-05,
      "loss": 1.4709,
      "step": 1644
    },
    {
      "epoch": 0.5509042196918955,
      "grad_norm": 0.13656006753444672,
      "learning_rate": 8e-05,
      "loss": 1.5261,
      "step": 1645
    },
    {
      "epoch": 0.551239115874079,
      "grad_norm": 0.1389024555683136,
      "learning_rate": 8e-05,
      "loss": 1.5202,
      "step": 1646
    },
    {
      "epoch": 0.5515740120562626,
      "grad_norm": 0.13356976211071014,
      "learning_rate": 8e-05,
      "loss": 1.5453,
      "step": 1647
    },
    {
      "epoch": 0.5519089082384461,
      "grad_norm": 0.1397435963153839,
      "learning_rate": 8e-05,
      "loss": 1.5326,
      "step": 1648
    },
    {
      "epoch": 0.5522438044206296,
      "grad_norm": 0.13827131688594818,
      "learning_rate": 8e-05,
      "loss": 1.4851,
      "step": 1649
    },
    {
      "epoch": 0.5525787006028131,
      "grad_norm": 0.14171580970287323,
      "learning_rate": 8e-05,
      "loss": 1.5683,
      "step": 1650
    },
    {
      "epoch": 0.5529135967849966,
      "grad_norm": 0.14361204206943512,
      "learning_rate": 8e-05,
      "loss": 1.5769,
      "step": 1651
    },
    {
      "epoch": 0.5532484929671801,
      "grad_norm": 0.14249709248542786,
      "learning_rate": 8e-05,
      "loss": 1.5362,
      "step": 1652
    },
    {
      "epoch": 0.5535833891493637,
      "grad_norm": 0.13895311951637268,
      "learning_rate": 8e-05,
      "loss": 1.5022,
      "step": 1653
    },
    {
      "epoch": 0.5539182853315472,
      "grad_norm": 0.14169877767562866,
      "learning_rate": 8e-05,
      "loss": 1.5374,
      "step": 1654
    },
    {
      "epoch": 0.5542531815137307,
      "grad_norm": 0.13215318322181702,
      "learning_rate": 8e-05,
      "loss": 1.5293,
      "step": 1655
    },
    {
      "epoch": 0.5545880776959142,
      "grad_norm": 0.15016759932041168,
      "learning_rate": 8e-05,
      "loss": 1.5077,
      "step": 1656
    },
    {
      "epoch": 0.5549229738780977,
      "grad_norm": 0.1345091015100479,
      "learning_rate": 8e-05,
      "loss": 1.5106,
      "step": 1657
    },
    {
      "epoch": 0.5552578700602813,
      "grad_norm": 0.14259976148605347,
      "learning_rate": 8e-05,
      "loss": 1.5671,
      "step": 1658
    },
    {
      "epoch": 0.5555927662424648,
      "grad_norm": 0.14268161356449127,
      "learning_rate": 8e-05,
      "loss": 1.4896,
      "step": 1659
    },
    {
      "epoch": 0.5559276624246483,
      "grad_norm": 0.1358649879693985,
      "learning_rate": 8e-05,
      "loss": 1.5205,
      "step": 1660
    },
    {
      "epoch": 0.5562625586068319,
      "grad_norm": 0.14590661227703094,
      "learning_rate": 8e-05,
      "loss": 1.5703,
      "step": 1661
    },
    {
      "epoch": 0.5565974547890155,
      "grad_norm": 0.1424524039030075,
      "learning_rate": 8e-05,
      "loss": 1.547,
      "step": 1662
    },
    {
      "epoch": 0.556932350971199,
      "grad_norm": 0.13108335435390472,
      "learning_rate": 8e-05,
      "loss": 1.4405,
      "step": 1663
    },
    {
      "epoch": 0.5572672471533825,
      "grad_norm": 0.14386042952537537,
      "learning_rate": 8e-05,
      "loss": 1.4863,
      "step": 1664
    },
    {
      "epoch": 0.557602143335566,
      "grad_norm": 0.13748201727867126,
      "learning_rate": 8e-05,
      "loss": 1.5524,
      "step": 1665
    },
    {
      "epoch": 0.5579370395177495,
      "grad_norm": 0.13634933531284332,
      "learning_rate": 8e-05,
      "loss": 1.5806,
      "step": 1666
    },
    {
      "epoch": 0.558271935699933,
      "grad_norm": 0.14918926358222961,
      "learning_rate": 8e-05,
      "loss": 1.5817,
      "step": 1667
    },
    {
      "epoch": 0.5586068318821166,
      "grad_norm": 0.13791659474372864,
      "learning_rate": 8e-05,
      "loss": 1.4556,
      "step": 1668
    },
    {
      "epoch": 0.5589417280643001,
      "grad_norm": 0.14598511159420013,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 1669
    },
    {
      "epoch": 0.5592766242464836,
      "grad_norm": 0.13258598744869232,
      "learning_rate": 8e-05,
      "loss": 1.5106,
      "step": 1670
    },
    {
      "epoch": 0.5596115204286671,
      "grad_norm": 0.15111854672431946,
      "learning_rate": 8e-05,
      "loss": 1.6306,
      "step": 1671
    },
    {
      "epoch": 0.5599464166108507,
      "grad_norm": 0.14842630922794342,
      "learning_rate": 8e-05,
      "loss": 1.5686,
      "step": 1672
    },
    {
      "epoch": 0.5602813127930342,
      "grad_norm": 0.14140820503234863,
      "learning_rate": 8e-05,
      "loss": 1.5928,
      "step": 1673
    },
    {
      "epoch": 0.5606162089752177,
      "grad_norm": 0.16104954481124878,
      "learning_rate": 8e-05,
      "loss": 1.6062,
      "step": 1674
    },
    {
      "epoch": 0.5609511051574012,
      "grad_norm": 0.15004631876945496,
      "learning_rate": 8e-05,
      "loss": 1.6398,
      "step": 1675
    },
    {
      "epoch": 0.5612860013395847,
      "grad_norm": 0.13896405696868896,
      "learning_rate": 8e-05,
      "loss": 1.4881,
      "step": 1676
    },
    {
      "epoch": 0.5616208975217682,
      "grad_norm": 0.13647732138633728,
      "learning_rate": 8e-05,
      "loss": 1.4842,
      "step": 1677
    },
    {
      "epoch": 0.5619557937039518,
      "grad_norm": 0.14287316799163818,
      "learning_rate": 8e-05,
      "loss": 1.5314,
      "step": 1678
    },
    {
      "epoch": 0.5622906898861353,
      "grad_norm": 0.13661102950572968,
      "learning_rate": 8e-05,
      "loss": 1.4865,
      "step": 1679
    },
    {
      "epoch": 0.5626255860683188,
      "grad_norm": 0.13788506388664246,
      "learning_rate": 8e-05,
      "loss": 1.5728,
      "step": 1680
    },
    {
      "epoch": 0.5629604822505023,
      "grad_norm": 0.15514323115348816,
      "learning_rate": 8e-05,
      "loss": 1.6452,
      "step": 1681
    },
    {
      "epoch": 0.5632953784326858,
      "grad_norm": 0.13804540038108826,
      "learning_rate": 8e-05,
      "loss": 1.4846,
      "step": 1682
    },
    {
      "epoch": 0.5636302746148694,
      "grad_norm": 0.14125873148441315,
      "learning_rate": 8e-05,
      "loss": 1.4488,
      "step": 1683
    },
    {
      "epoch": 0.5639651707970529,
      "grad_norm": 0.136321023106575,
      "learning_rate": 8e-05,
      "loss": 1.4979,
      "step": 1684
    },
    {
      "epoch": 0.5643000669792364,
      "grad_norm": 0.13423895835876465,
      "learning_rate": 8e-05,
      "loss": 1.489,
      "step": 1685
    },
    {
      "epoch": 0.5646349631614199,
      "grad_norm": 0.1379750370979309,
      "learning_rate": 8e-05,
      "loss": 1.5335,
      "step": 1686
    },
    {
      "epoch": 0.5649698593436034,
      "grad_norm": 0.1342034786939621,
      "learning_rate": 8e-05,
      "loss": 1.4534,
      "step": 1687
    },
    {
      "epoch": 0.565304755525787,
      "grad_norm": 0.13408072292804718,
      "learning_rate": 8e-05,
      "loss": 1.4697,
      "step": 1688
    },
    {
      "epoch": 0.5656396517079705,
      "grad_norm": 0.13263754546642303,
      "learning_rate": 8e-05,
      "loss": 1.5419,
      "step": 1689
    },
    {
      "epoch": 0.565974547890154,
      "grad_norm": 0.13581611216068268,
      "learning_rate": 8e-05,
      "loss": 1.5922,
      "step": 1690
    },
    {
      "epoch": 0.5663094440723375,
      "grad_norm": 0.1390150934457779,
      "learning_rate": 8e-05,
      "loss": 1.5801,
      "step": 1691
    },
    {
      "epoch": 0.5666443402545212,
      "grad_norm": 0.13639895617961884,
      "learning_rate": 8e-05,
      "loss": 1.5345,
      "step": 1692
    },
    {
      "epoch": 0.5669792364367047,
      "grad_norm": 0.13647660613059998,
      "learning_rate": 8e-05,
      "loss": 1.5831,
      "step": 1693
    },
    {
      "epoch": 0.5673141326188882,
      "grad_norm": 0.13206808269023895,
      "learning_rate": 8e-05,
      "loss": 1.5044,
      "step": 1694
    },
    {
      "epoch": 0.5676490288010717,
      "grad_norm": 0.13894538581371307,
      "learning_rate": 8e-05,
      "loss": 1.5178,
      "step": 1695
    },
    {
      "epoch": 0.5679839249832552,
      "grad_norm": 0.13617099821567535,
      "learning_rate": 8e-05,
      "loss": 1.4885,
      "step": 1696
    },
    {
      "epoch": 0.5683188211654387,
      "grad_norm": 0.1373586803674698,
      "learning_rate": 8e-05,
      "loss": 1.5162,
      "step": 1697
    },
    {
      "epoch": 0.5686537173476223,
      "grad_norm": 0.1363256871700287,
      "learning_rate": 8e-05,
      "loss": 1.4765,
      "step": 1698
    },
    {
      "epoch": 0.5689886135298058,
      "grad_norm": 0.13689999282360077,
      "learning_rate": 8e-05,
      "loss": 1.5713,
      "step": 1699
    },
    {
      "epoch": 0.5693235097119893,
      "grad_norm": 0.14417500793933868,
      "learning_rate": 8e-05,
      "loss": 1.4943,
      "step": 1700
    },
    {
      "epoch": 0.5696584058941728,
      "grad_norm": 0.14807714521884918,
      "learning_rate": 8e-05,
      "loss": 1.5505,
      "step": 1701
    },
    {
      "epoch": 0.5699933020763563,
      "grad_norm": 0.14189092814922333,
      "learning_rate": 8e-05,
      "loss": 1.5747,
      "step": 1702
    },
    {
      "epoch": 0.5703281982585399,
      "grad_norm": 0.14040902256965637,
      "learning_rate": 8e-05,
      "loss": 1.4934,
      "step": 1703
    },
    {
      "epoch": 0.5706630944407234,
      "grad_norm": 0.13554899394512177,
      "learning_rate": 8e-05,
      "loss": 1.5496,
      "step": 1704
    },
    {
      "epoch": 0.5709979906229069,
      "grad_norm": 0.1387794017791748,
      "learning_rate": 8e-05,
      "loss": 1.4855,
      "step": 1705
    },
    {
      "epoch": 0.5713328868050904,
      "grad_norm": 0.13761338591575623,
      "learning_rate": 8e-05,
      "loss": 1.5475,
      "step": 1706
    },
    {
      "epoch": 0.5716677829872739,
      "grad_norm": 0.1337597668170929,
      "learning_rate": 8e-05,
      "loss": 1.5598,
      "step": 1707
    },
    {
      "epoch": 0.5720026791694575,
      "grad_norm": 0.1491946578025818,
      "learning_rate": 8e-05,
      "loss": 1.5816,
      "step": 1708
    },
    {
      "epoch": 0.572337575351641,
      "grad_norm": 0.13278450071811676,
      "learning_rate": 8e-05,
      "loss": 1.5084,
      "step": 1709
    },
    {
      "epoch": 0.5726724715338245,
      "grad_norm": 0.1330122947692871,
      "learning_rate": 8e-05,
      "loss": 1.4834,
      "step": 1710
    },
    {
      "epoch": 0.573007367716008,
      "grad_norm": 0.13812316954135895,
      "learning_rate": 8e-05,
      "loss": 1.4994,
      "step": 1711
    },
    {
      "epoch": 0.5733422638981915,
      "grad_norm": 0.1305518001317978,
      "learning_rate": 8e-05,
      "loss": 1.4723,
      "step": 1712
    },
    {
      "epoch": 0.5736771600803751,
      "grad_norm": 0.1350332796573639,
      "learning_rate": 8e-05,
      "loss": 1.4956,
      "step": 1713
    },
    {
      "epoch": 0.5740120562625586,
      "grad_norm": 0.14258170127868652,
      "learning_rate": 8e-05,
      "loss": 1.4902,
      "step": 1714
    },
    {
      "epoch": 0.5743469524447421,
      "grad_norm": 0.13595664501190186,
      "learning_rate": 8e-05,
      "loss": 1.5762,
      "step": 1715
    },
    {
      "epoch": 0.5746818486269256,
      "grad_norm": 0.14154091477394104,
      "learning_rate": 8e-05,
      "loss": 1.5673,
      "step": 1716
    },
    {
      "epoch": 0.5750167448091091,
      "grad_norm": 0.13926108181476593,
      "learning_rate": 8e-05,
      "loss": 1.5867,
      "step": 1717
    },
    {
      "epoch": 0.5753516409912927,
      "grad_norm": 0.14638902246952057,
      "learning_rate": 8e-05,
      "loss": 1.6003,
      "step": 1718
    },
    {
      "epoch": 0.5756865371734762,
      "grad_norm": 0.13324002921581268,
      "learning_rate": 8e-05,
      "loss": 1.4803,
      "step": 1719
    },
    {
      "epoch": 0.5760214333556597,
      "grad_norm": 0.14041388034820557,
      "learning_rate": 8e-05,
      "loss": 1.5631,
      "step": 1720
    },
    {
      "epoch": 0.5763563295378432,
      "grad_norm": 0.14208939671516418,
      "learning_rate": 8e-05,
      "loss": 1.5278,
      "step": 1721
    },
    {
      "epoch": 0.5766912257200268,
      "grad_norm": 0.14298604428768158,
      "learning_rate": 8e-05,
      "loss": 1.6156,
      "step": 1722
    },
    {
      "epoch": 0.5770261219022104,
      "grad_norm": 0.13586492836475372,
      "learning_rate": 8e-05,
      "loss": 1.5143,
      "step": 1723
    },
    {
      "epoch": 0.5773610180843939,
      "grad_norm": 0.13648158311843872,
      "learning_rate": 8e-05,
      "loss": 1.5168,
      "step": 1724
    },
    {
      "epoch": 0.5776959142665774,
      "grad_norm": 0.13415881991386414,
      "learning_rate": 8e-05,
      "loss": 1.5085,
      "step": 1725
    },
    {
      "epoch": 0.5780308104487609,
      "grad_norm": 0.13787512481212616,
      "learning_rate": 8e-05,
      "loss": 1.5309,
      "step": 1726
    },
    {
      "epoch": 0.5783657066309444,
      "grad_norm": 0.13661304116249084,
      "learning_rate": 8e-05,
      "loss": 1.538,
      "step": 1727
    },
    {
      "epoch": 0.578700602813128,
      "grad_norm": 0.13699474930763245,
      "learning_rate": 8e-05,
      "loss": 1.5565,
      "step": 1728
    },
    {
      "epoch": 0.5790354989953115,
      "grad_norm": 0.13948678970336914,
      "learning_rate": 8e-05,
      "loss": 1.5163,
      "step": 1729
    },
    {
      "epoch": 0.579370395177495,
      "grad_norm": 0.13543112576007843,
      "learning_rate": 8e-05,
      "loss": 1.473,
      "step": 1730
    },
    {
      "epoch": 0.5797052913596785,
      "grad_norm": 0.13125304877758026,
      "learning_rate": 8e-05,
      "loss": 1.4728,
      "step": 1731
    },
    {
      "epoch": 0.580040187541862,
      "grad_norm": 0.13940641283988953,
      "learning_rate": 8e-05,
      "loss": 1.5608,
      "step": 1732
    },
    {
      "epoch": 0.5803750837240456,
      "grad_norm": 0.13470712304115295,
      "learning_rate": 8e-05,
      "loss": 1.4602,
      "step": 1733
    },
    {
      "epoch": 0.5807099799062291,
      "grad_norm": 0.1389223039150238,
      "learning_rate": 8e-05,
      "loss": 1.5528,
      "step": 1734
    },
    {
      "epoch": 0.5810448760884126,
      "grad_norm": 0.13744962215423584,
      "learning_rate": 8e-05,
      "loss": 1.5059,
      "step": 1735
    },
    {
      "epoch": 0.5813797722705961,
      "grad_norm": 0.14194156229496002,
      "learning_rate": 8e-05,
      "loss": 1.4863,
      "step": 1736
    },
    {
      "epoch": 0.5817146684527796,
      "grad_norm": 0.14023222029209137,
      "learning_rate": 8e-05,
      "loss": 1.5691,
      "step": 1737
    },
    {
      "epoch": 0.5820495646349632,
      "grad_norm": 0.14826145768165588,
      "learning_rate": 8e-05,
      "loss": 1.5322,
      "step": 1738
    },
    {
      "epoch": 0.5823844608171467,
      "grad_norm": 0.13285011053085327,
      "learning_rate": 8e-05,
      "loss": 1.4934,
      "step": 1739
    },
    {
      "epoch": 0.5827193569993302,
      "grad_norm": 0.13342048227787018,
      "learning_rate": 8e-05,
      "loss": 1.4969,
      "step": 1740
    },
    {
      "epoch": 0.5830542531815137,
      "grad_norm": 0.14456771314144135,
      "learning_rate": 8e-05,
      "loss": 1.5577,
      "step": 1741
    },
    {
      "epoch": 0.5833891493636972,
      "grad_norm": 0.13935355842113495,
      "learning_rate": 8e-05,
      "loss": 1.5341,
      "step": 1742
    },
    {
      "epoch": 0.5837240455458808,
      "grad_norm": 0.1361750364303589,
      "learning_rate": 8e-05,
      "loss": 1.5505,
      "step": 1743
    },
    {
      "epoch": 0.5840589417280643,
      "grad_norm": 0.1420232206583023,
      "learning_rate": 8e-05,
      "loss": 1.5531,
      "step": 1744
    },
    {
      "epoch": 0.5843938379102478,
      "grad_norm": 0.13720549643039703,
      "learning_rate": 8e-05,
      "loss": 1.5998,
      "step": 1745
    },
    {
      "epoch": 0.5847287340924313,
      "grad_norm": 0.1373579502105713,
      "learning_rate": 8e-05,
      "loss": 1.5455,
      "step": 1746
    },
    {
      "epoch": 0.5850636302746148,
      "grad_norm": 0.1367008537054062,
      "learning_rate": 8e-05,
      "loss": 1.4773,
      "step": 1747
    },
    {
      "epoch": 0.5853985264567984,
      "grad_norm": 0.13566631078720093,
      "learning_rate": 8e-05,
      "loss": 1.5111,
      "step": 1748
    },
    {
      "epoch": 0.5857334226389819,
      "grad_norm": 0.13755787909030914,
      "learning_rate": 8e-05,
      "loss": 1.5372,
      "step": 1749
    },
    {
      "epoch": 0.5860683188211654,
      "grad_norm": 0.13900835812091827,
      "learning_rate": 8e-05,
      "loss": 1.4417,
      "step": 1750
    },
    {
      "epoch": 0.5864032150033489,
      "grad_norm": 0.1328989565372467,
      "learning_rate": 8e-05,
      "loss": 1.4622,
      "step": 1751
    },
    {
      "epoch": 0.5867381111855325,
      "grad_norm": 0.13057450950145721,
      "learning_rate": 8e-05,
      "loss": 1.4476,
      "step": 1752
    },
    {
      "epoch": 0.5870730073677161,
      "grad_norm": 0.1333111822605133,
      "learning_rate": 8e-05,
      "loss": 1.5049,
      "step": 1753
    },
    {
      "epoch": 0.5874079035498996,
      "grad_norm": 0.131779283285141,
      "learning_rate": 8e-05,
      "loss": 1.4463,
      "step": 1754
    },
    {
      "epoch": 0.5877427997320831,
      "grad_norm": 0.13350480794906616,
      "learning_rate": 8e-05,
      "loss": 1.419,
      "step": 1755
    },
    {
      "epoch": 0.5880776959142666,
      "grad_norm": 0.14189468324184418,
      "learning_rate": 8e-05,
      "loss": 1.5203,
      "step": 1756
    },
    {
      "epoch": 0.5884125920964501,
      "grad_norm": 0.14036928117275238,
      "learning_rate": 8e-05,
      "loss": 1.6439,
      "step": 1757
    },
    {
      "epoch": 0.5887474882786337,
      "grad_norm": 0.13563160598278046,
      "learning_rate": 8e-05,
      "loss": 1.4584,
      "step": 1758
    },
    {
      "epoch": 0.5890823844608172,
      "grad_norm": 0.133082315325737,
      "learning_rate": 8e-05,
      "loss": 1.4015,
      "step": 1759
    },
    {
      "epoch": 0.5894172806430007,
      "grad_norm": 0.1313558965921402,
      "learning_rate": 8e-05,
      "loss": 1.469,
      "step": 1760
    },
    {
      "epoch": 0.5897521768251842,
      "grad_norm": 0.1437879502773285,
      "learning_rate": 8e-05,
      "loss": 1.6512,
      "step": 1761
    },
    {
      "epoch": 0.5900870730073677,
      "grad_norm": 0.13308323919773102,
      "learning_rate": 8e-05,
      "loss": 1.53,
      "step": 1762
    },
    {
      "epoch": 0.5904219691895513,
      "grad_norm": 0.14312177896499634,
      "learning_rate": 8e-05,
      "loss": 1.7137,
      "step": 1763
    },
    {
      "epoch": 0.5907568653717348,
      "grad_norm": 0.13405494391918182,
      "learning_rate": 8e-05,
      "loss": 1.5439,
      "step": 1764
    },
    {
      "epoch": 0.5910917615539183,
      "grad_norm": 0.1394883096218109,
      "learning_rate": 8e-05,
      "loss": 1.5845,
      "step": 1765
    },
    {
      "epoch": 0.5914266577361018,
      "grad_norm": 0.1394815295934677,
      "learning_rate": 8e-05,
      "loss": 1.5464,
      "step": 1766
    },
    {
      "epoch": 0.5917615539182853,
      "grad_norm": 0.1333036869764328,
      "learning_rate": 8e-05,
      "loss": 1.5343,
      "step": 1767
    },
    {
      "epoch": 0.5920964501004689,
      "grad_norm": 0.1328606903553009,
      "learning_rate": 8e-05,
      "loss": 1.5207,
      "step": 1768
    },
    {
      "epoch": 0.5924313462826524,
      "grad_norm": 0.13554991781711578,
      "learning_rate": 8e-05,
      "loss": 1.5355,
      "step": 1769
    },
    {
      "epoch": 0.5927662424648359,
      "grad_norm": 0.12927456200122833,
      "learning_rate": 8e-05,
      "loss": 1.5135,
      "step": 1770
    },
    {
      "epoch": 0.5931011386470194,
      "grad_norm": 0.13953453302383423,
      "learning_rate": 8e-05,
      "loss": 1.5265,
      "step": 1771
    },
    {
      "epoch": 0.5934360348292029,
      "grad_norm": 0.13445602357387543,
      "learning_rate": 8e-05,
      "loss": 1.4762,
      "step": 1772
    },
    {
      "epoch": 0.5937709310113864,
      "grad_norm": 0.14243918657302856,
      "learning_rate": 8e-05,
      "loss": 1.6508,
      "step": 1773
    },
    {
      "epoch": 0.59410582719357,
      "grad_norm": 0.13664275407791138,
      "learning_rate": 8e-05,
      "loss": 1.5412,
      "step": 1774
    },
    {
      "epoch": 0.5944407233757535,
      "grad_norm": 0.13450013101100922,
      "learning_rate": 8e-05,
      "loss": 1.6114,
      "step": 1775
    },
    {
      "epoch": 0.594775619557937,
      "grad_norm": 0.14646732807159424,
      "learning_rate": 8e-05,
      "loss": 1.6552,
      "step": 1776
    },
    {
      "epoch": 0.5951105157401205,
      "grad_norm": 0.14169451594352722,
      "learning_rate": 8e-05,
      "loss": 1.6171,
      "step": 1777
    },
    {
      "epoch": 0.595445411922304,
      "grad_norm": 0.13938947021961212,
      "learning_rate": 8e-05,
      "loss": 1.5733,
      "step": 1778
    },
    {
      "epoch": 0.5957803081044876,
      "grad_norm": 0.13177448511123657,
      "learning_rate": 8e-05,
      "loss": 1.4731,
      "step": 1779
    },
    {
      "epoch": 0.5961152042866711,
      "grad_norm": 0.13734011352062225,
      "learning_rate": 8e-05,
      "loss": 1.5381,
      "step": 1780
    },
    {
      "epoch": 0.5964501004688546,
      "grad_norm": 0.14143142104148865,
      "learning_rate": 8e-05,
      "loss": 1.5157,
      "step": 1781
    },
    {
      "epoch": 0.5967849966510381,
      "grad_norm": 0.1346115618944168,
      "learning_rate": 8e-05,
      "loss": 1.4718,
      "step": 1782
    },
    {
      "epoch": 0.5971198928332218,
      "grad_norm": 0.13821807503700256,
      "learning_rate": 8e-05,
      "loss": 1.6113,
      "step": 1783
    },
    {
      "epoch": 0.5974547890154053,
      "grad_norm": 0.13546417653560638,
      "learning_rate": 8e-05,
      "loss": 1.4706,
      "step": 1784
    },
    {
      "epoch": 0.5977896851975888,
      "grad_norm": 0.13748307526111603,
      "learning_rate": 8e-05,
      "loss": 1.5365,
      "step": 1785
    },
    {
      "epoch": 0.5981245813797723,
      "grad_norm": 0.1333155781030655,
      "learning_rate": 8e-05,
      "loss": 1.4854,
      "step": 1786
    },
    {
      "epoch": 0.5984594775619558,
      "grad_norm": 0.13843688368797302,
      "learning_rate": 8e-05,
      "loss": 1.5205,
      "step": 1787
    },
    {
      "epoch": 0.5987943737441394,
      "grad_norm": 0.14346374571323395,
      "learning_rate": 8e-05,
      "loss": 1.4927,
      "step": 1788
    },
    {
      "epoch": 0.5991292699263229,
      "grad_norm": 0.1398942619562149,
      "learning_rate": 8e-05,
      "loss": 1.5347,
      "step": 1789
    },
    {
      "epoch": 0.5994641661085064,
      "grad_norm": 0.1344398558139801,
      "learning_rate": 8e-05,
      "loss": 1.5236,
      "step": 1790
    },
    {
      "epoch": 0.5997990622906899,
      "grad_norm": 0.1349104791879654,
      "learning_rate": 8e-05,
      "loss": 1.4742,
      "step": 1791
    },
    {
      "epoch": 0.6001339584728734,
      "grad_norm": 0.14543581008911133,
      "learning_rate": 8e-05,
      "loss": 1.4935,
      "step": 1792
    },
    {
      "epoch": 0.600468854655057,
      "grad_norm": 0.14359988272190094,
      "learning_rate": 8e-05,
      "loss": 1.5429,
      "step": 1793
    },
    {
      "epoch": 0.6008037508372405,
      "grad_norm": 0.1373475342988968,
      "learning_rate": 8e-05,
      "loss": 1.5378,
      "step": 1794
    },
    {
      "epoch": 0.601138647019424,
      "grad_norm": 0.16291013360023499,
      "learning_rate": 8e-05,
      "loss": 1.6291,
      "step": 1795
    },
    {
      "epoch": 0.6014735432016075,
      "grad_norm": 0.1366197168827057,
      "learning_rate": 8e-05,
      "loss": 1.5997,
      "step": 1796
    },
    {
      "epoch": 0.601808439383791,
      "grad_norm": 0.13999950885772705,
      "learning_rate": 8e-05,
      "loss": 1.4761,
      "step": 1797
    },
    {
      "epoch": 0.6021433355659745,
      "grad_norm": 0.14820708334445953,
      "learning_rate": 8e-05,
      "loss": 1.4316,
      "step": 1798
    },
    {
      "epoch": 0.6024782317481581,
      "grad_norm": 0.1371704339981079,
      "learning_rate": 8e-05,
      "loss": 1.4527,
      "step": 1799
    },
    {
      "epoch": 0.6028131279303416,
      "grad_norm": 0.1400216519832611,
      "learning_rate": 8e-05,
      "loss": 1.4969,
      "step": 1800
    }
  ],
  "logging_steps": 1,
  "max_steps": 2986,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 300,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0247934561170227e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}