{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 916,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001091703056768559,
      "grad_norm": 13.289404298642646,
      "learning_rate": 5.000000000000001e-07,
      "loss": 1.284,
      "step": 1
    },
    {
      "epoch": 0.002183406113537118,
      "grad_norm": 7.292217497278142,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 1.2399,
      "step": 2
    },
    {
      "epoch": 0.0032751091703056767,
      "grad_norm": 9.8568572384971,
      "learning_rate": 1.5e-06,
      "loss": 1.2389,
      "step": 3
    },
    {
      "epoch": 0.004366812227074236,
      "grad_norm": 9.989204669156571,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 1.2508,
      "step": 4
    },
    {
      "epoch": 0.0054585152838427945,
      "grad_norm": 7.838284019029892,
      "learning_rate": 2.5e-06,
      "loss": 1.1875,
      "step": 5
    },
    {
      "epoch": 0.006550218340611353,
      "grad_norm": 4.602193197170571,
      "learning_rate": 3e-06,
      "loss": 1.1885,
      "step": 6
    },
    {
      "epoch": 0.007641921397379912,
      "grad_norm": 7.670062089782238,
      "learning_rate": 3.5e-06,
      "loss": 1.1405,
      "step": 7
    },
    {
      "epoch": 0.008733624454148471,
      "grad_norm": 6.4393475774820095,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.1794,
      "step": 8
    },
    {
      "epoch": 0.009825327510917031,
      "grad_norm": 5.301388008979529,
      "learning_rate": 4.5e-06,
      "loss": 1.1664,
      "step": 9
    },
    {
      "epoch": 0.010917030567685589,
      "grad_norm": 4.776716991989775,
      "learning_rate": 5e-06,
      "loss": 1.1303,
      "step": 10
    },
    {
      "epoch": 0.012008733624454149,
      "grad_norm": 2.5583402498764554,
      "learning_rate": 5.500000000000001e-06,
      "loss": 1.0836,
      "step": 11
    },
    {
      "epoch": 0.013100436681222707,
      "grad_norm": 2.901999707087547,
      "learning_rate": 6e-06,
      "loss": 1.0848,
      "step": 12
    },
    {
      "epoch": 0.014192139737991267,
      "grad_norm": 1.972981929251036,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 1.1405,
      "step": 13
    },
    {
      "epoch": 0.015283842794759825,
      "grad_norm": 2.2759650970605385,
      "learning_rate": 7e-06,
      "loss": 1.1014,
      "step": 14
    },
    {
      "epoch": 0.016375545851528384,
      "grad_norm": 2.0304488449996088,
      "learning_rate": 7.500000000000001e-06,
      "loss": 1.0181,
      "step": 15
    },
    {
      "epoch": 0.017467248908296942,
      "grad_norm": 1.662782341007406,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.0578,
      "step": 16
    },
    {
      "epoch": 0.018558951965065504,
      "grad_norm": 1.5360585531700661,
      "learning_rate": 8.5e-06,
      "loss": 1.0547,
      "step": 17
    },
    {
      "epoch": 0.019650655021834062,
      "grad_norm": 1.4473228929395678,
      "learning_rate": 9e-06,
      "loss": 1.0592,
      "step": 18
    },
    {
      "epoch": 0.02074235807860262,
      "grad_norm": 1.5813095248190974,
      "learning_rate": 9.5e-06,
      "loss": 1.0583,
      "step": 19
    },
    {
      "epoch": 0.021834061135371178,
      "grad_norm": 1.5411563366540608,
      "learning_rate": 1e-05,
      "loss": 1.0476,
      "step": 20
    },
    {
      "epoch": 0.02292576419213974,
      "grad_norm": 1.5268980990168357,
      "learning_rate": 1.0500000000000001e-05,
      "loss": 1.0136,
      "step": 21
    },
    {
      "epoch": 0.024017467248908297,
      "grad_norm": 1.6136299704496118,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 1.0151,
      "step": 22
    },
    {
      "epoch": 0.025109170305676855,
      "grad_norm": 1.4361573100654315,
      "learning_rate": 1.15e-05,
      "loss": 0.9862,
      "step": 23
    },
    {
      "epoch": 0.026200873362445413,
      "grad_norm": 1.498362096620755,
      "learning_rate": 1.2e-05,
      "loss": 1.0541,
      "step": 24
    },
    {
      "epoch": 0.027292576419213975,
      "grad_norm": 1.4737481885978707,
      "learning_rate": 1.25e-05,
      "loss": 1.0067,
      "step": 25
    },
    {
      "epoch": 0.028384279475982533,
      "grad_norm": 1.3136557951278753,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 1.0575,
      "step": 26
    },
    {
      "epoch": 0.02947598253275109,
      "grad_norm": 1.370294058486715,
      "learning_rate": 1.3500000000000001e-05,
      "loss": 1.0432,
      "step": 27
    },
    {
      "epoch": 0.03056768558951965,
      "grad_norm": 1.4165018727433811,
      "learning_rate": 1.4e-05,
      "loss": 0.9864,
      "step": 28
    },
    {
      "epoch": 0.03165938864628821,
      "grad_norm": 1.4047679041248446,
      "learning_rate": 1.45e-05,
      "loss": 0.964,
      "step": 29
    },
    {
      "epoch": 0.03275109170305677,
      "grad_norm": 1.3627840469204053,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.976,
      "step": 30
    },
    {
      "epoch": 0.03384279475982533,
      "grad_norm": 1.3177557349824027,
      "learning_rate": 1.55e-05,
      "loss": 0.9612,
      "step": 31
    },
    {
      "epoch": 0.034934497816593885,
      "grad_norm": 1.2982379287553165,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 0.8974,
      "step": 32
    },
    {
      "epoch": 0.036026200873362446,
      "grad_norm": 1.2526530829979805,
      "learning_rate": 1.65e-05,
      "loss": 0.9451,
      "step": 33
    },
    {
      "epoch": 0.03711790393013101,
      "grad_norm": 1.2621127637568288,
      "learning_rate": 1.7e-05,
      "loss": 0.9786,
      "step": 34
    },
    {
      "epoch": 0.03820960698689956,
      "grad_norm": 1.2146341024686296,
      "learning_rate": 1.7500000000000002e-05,
      "loss": 1.0163,
      "step": 35
    },
    {
      "epoch": 0.039301310043668124,
      "grad_norm": 1.2607075617736583,
      "learning_rate": 1.8e-05,
      "loss": 0.9784,
      "step": 36
    },
    {
      "epoch": 0.04039301310043668,
      "grad_norm": 1.279591496396912,
      "learning_rate": 1.8500000000000002e-05,
      "loss": 0.977,
      "step": 37
    },
    {
      "epoch": 0.04148471615720524,
      "grad_norm": 1.2430348905926205,
      "learning_rate": 1.9e-05,
      "loss": 0.9571,
      "step": 38
    },
    {
      "epoch": 0.0425764192139738,
      "grad_norm": 1.2918696702298937,
      "learning_rate": 1.95e-05,
      "loss": 0.9074,
      "step": 39
    },
    {
      "epoch": 0.043668122270742356,
      "grad_norm": 1.218492845990098,
      "learning_rate": 2e-05,
      "loss": 0.9394,
      "step": 40
    },
    {
      "epoch": 0.04475982532751092,
      "grad_norm": 1.2012319777333658,
      "learning_rate": 1.999998463283948e-05,
      "loss": 0.9207,
      "step": 41
    },
    {
      "epoch": 0.04585152838427948,
      "grad_norm": 1.144437778164406,
      "learning_rate": 1.9999938531405142e-05,
      "loss": 0.9119,
      "step": 42
    },
    {
      "epoch": 0.04694323144104803,
      "grad_norm": 1.1570563596566175,
      "learning_rate": 1.9999861695838682e-05,
      "loss": 0.9513,
      "step": 43
    },
    {
      "epoch": 0.048034934497816595,
      "grad_norm": 1.210352870960915,
      "learning_rate": 1.9999754126376247e-05,
      "loss": 1.0351,
      "step": 44
    },
    {
      "epoch": 0.04912663755458515,
      "grad_norm": 1.1710603987199897,
      "learning_rate": 1.9999615823348444e-05,
      "loss": 0.9141,
      "step": 45
    },
    {
      "epoch": 0.05021834061135371,
      "grad_norm": 1.206539628486198,
      "learning_rate": 1.9999446787180338e-05,
      "loss": 0.8935,
      "step": 46
    },
    {
      "epoch": 0.05131004366812227,
      "grad_norm": 1.152816325560954,
      "learning_rate": 1.999924701839145e-05,
      "loss": 0.935,
      "step": 47
    },
    {
      "epoch": 0.05240174672489083,
      "grad_norm": 1.2244741767187948,
      "learning_rate": 1.9999016517595752e-05,
      "loss": 0.9221,
      "step": 48
    },
    {
      "epoch": 0.05349344978165939,
      "grad_norm": 1.268582156983677,
      "learning_rate": 1.999875528550168e-05,
      "loss": 0.9813,
      "step": 49
    },
    {
      "epoch": 0.05458515283842795,
      "grad_norm": 1.3643851641335847,
      "learning_rate": 1.999846332291211e-05,
      "loss": 0.9756,
      "step": 50
    },
    {
      "epoch": 0.055676855895196505,
      "grad_norm": 1.2528094271196928,
      "learning_rate": 1.9998140630724365e-05,
      "loss": 0.9473,
      "step": 51
    },
    {
      "epoch": 0.056768558951965066,
      "grad_norm": 1.2550897534969043,
      "learning_rate": 1.9997787209930222e-05,
      "loss": 0.994,
      "step": 52
    },
    {
      "epoch": 0.05786026200873363,
      "grad_norm": 1.2492909440859432,
      "learning_rate": 1.9997403061615898e-05,
      "loss": 0.9755,
      "step": 53
    },
    {
      "epoch": 0.05895196506550218,
      "grad_norm": 1.3242409227473286,
      "learning_rate": 1.9996988186962044e-05,
      "loss": 0.9597,
      "step": 54
    },
    {
      "epoch": 0.060043668122270744,
      "grad_norm": 1.2218569673827555,
      "learning_rate": 1.9996542587243747e-05,
      "loss": 0.903,
      "step": 55
    },
    {
      "epoch": 0.0611353711790393,
      "grad_norm": 1.2731882020274534,
      "learning_rate": 1.9996066263830533e-05,
      "loss": 0.9958,
      "step": 56
    },
    {
      "epoch": 0.06222707423580786,
      "grad_norm": 1.4086693673102497,
      "learning_rate": 1.999555921818634e-05,
      "loss": 1.0131,
      "step": 57
    },
    {
      "epoch": 0.06331877729257641,
      "grad_norm": 1.1634949732644826,
      "learning_rate": 1.9995021451869548e-05,
      "loss": 0.9712,
      "step": 58
    },
    {
      "epoch": 0.06441048034934498,
      "grad_norm": 1.2690994660555552,
      "learning_rate": 1.9994452966532943e-05,
      "loss": 0.9359,
      "step": 59
    },
    {
      "epoch": 0.06550218340611354,
      "grad_norm": 1.1985992015767803,
      "learning_rate": 1.9993853763923724e-05,
      "loss": 0.9378,
      "step": 60
    },
    {
      "epoch": 0.0665938864628821,
      "grad_norm": 1.1335004730759732,
      "learning_rate": 1.9993223845883496e-05,
      "loss": 0.9377,
      "step": 61
    },
    {
      "epoch": 0.06768558951965066,
      "grad_norm": 1.2705905274575864,
      "learning_rate": 1.999256321434828e-05,
      "loss": 1.0114,
      "step": 62
    },
    {
      "epoch": 0.06877729257641921,
      "grad_norm": 1.1788654125970075,
      "learning_rate": 1.999187187134847e-05,
      "loss": 0.931,
      "step": 63
    },
    {
      "epoch": 0.06986899563318777,
      "grad_norm": 1.2619228641910007,
      "learning_rate": 1.999114981900887e-05,
      "loss": 0.9497,
      "step": 64
    },
    {
      "epoch": 0.07096069868995633,
      "grad_norm": 1.2234170872884378,
      "learning_rate": 1.9990397059548655e-05,
      "loss": 0.9863,
      "step": 65
    },
    {
      "epoch": 0.07205240174672489,
      "grad_norm": 1.1757146049009946,
      "learning_rate": 1.9989613595281384e-05,
      "loss": 0.9152,
      "step": 66
    },
    {
      "epoch": 0.07314410480349345,
      "grad_norm": 1.1437402318653815,
      "learning_rate": 1.998879942861498e-05,
      "loss": 0.9346,
      "step": 67
    },
    {
      "epoch": 0.07423580786026202,
      "grad_norm": 1.2068538367952386,
      "learning_rate": 1.9987954562051724e-05,
      "loss": 0.9206,
      "step": 68
    },
    {
      "epoch": 0.07532751091703056,
      "grad_norm": 1.17298454542619,
      "learning_rate": 1.9987078998188264e-05,
      "loss": 0.8971,
      "step": 69
    },
    {
      "epoch": 0.07641921397379912,
      "grad_norm": 1.2149320044056757,
      "learning_rate": 1.998617273971558e-05,
      "loss": 0.9663,
      "step": 70
    },
    {
      "epoch": 0.07751091703056769,
      "grad_norm": 1.2081292741308731,
      "learning_rate": 1.9985235789418995e-05,
      "loss": 0.9423,
      "step": 71
    },
    {
      "epoch": 0.07860262008733625,
      "grad_norm": 1.143031294548552,
      "learning_rate": 1.998426815017817e-05,
      "loss": 0.8929,
      "step": 72
    },
    {
      "epoch": 0.07969432314410481,
      "grad_norm": 1.1968165551994472,
      "learning_rate": 1.998326982496707e-05,
      "loss": 0.918,
      "step": 73
    },
    {
      "epoch": 0.08078602620087336,
      "grad_norm": 1.1833288825915689,
      "learning_rate": 1.9982240816853983e-05,
      "loss": 0.9261,
      "step": 74
    },
    {
      "epoch": 0.08187772925764192,
      "grad_norm": 1.217048005558642,
      "learning_rate": 1.998118112900149e-05,
      "loss": 0.9599,
      "step": 75
    },
    {
      "epoch": 0.08296943231441048,
      "grad_norm": 1.1480745598282631,
      "learning_rate": 1.9980090764666486e-05,
      "loss": 0.9612,
      "step": 76
    },
    {
      "epoch": 0.08406113537117904,
      "grad_norm": 1.1471554189545394,
      "learning_rate": 1.9978969727200115e-05,
      "loss": 0.9281,
      "step": 77
    },
    {
      "epoch": 0.0851528384279476,
      "grad_norm": 1.1830446201397407,
      "learning_rate": 1.9977818020047816e-05,
      "loss": 0.9312,
      "step": 78
    },
    {
      "epoch": 0.08624454148471616,
      "grad_norm": 1.219436681873757,
      "learning_rate": 1.9976635646749286e-05,
      "loss": 0.9563,
      "step": 79
    },
    {
      "epoch": 0.08733624454148471,
      "grad_norm": 1.19047205985711,
      "learning_rate": 1.9975422610938463e-05,
      "loss": 0.9471,
      "step": 80
    },
    {
      "epoch": 0.08842794759825327,
      "grad_norm": 1.1708685165258725,
      "learning_rate": 1.997417891634353e-05,
      "loss": 0.9584,
      "step": 81
    },
    {
      "epoch": 0.08951965065502183,
      "grad_norm": 1.2011650126934366,
      "learning_rate": 1.9972904566786903e-05,
      "loss": 0.9019,
      "step": 82
    },
    {
      "epoch": 0.0906113537117904,
      "grad_norm": 1.2862256431550625,
      "learning_rate": 1.9971599566185205e-05,
      "loss": 0.9516,
      "step": 83
    },
    {
      "epoch": 0.09170305676855896,
      "grad_norm": 1.107666246039431,
      "learning_rate": 1.9970263918549274e-05,
      "loss": 0.8906,
      "step": 84
    },
    {
      "epoch": 0.0927947598253275,
      "grad_norm": 1.2388104557486592,
      "learning_rate": 1.996889762798412e-05,
      "loss": 0.9032,
      "step": 85
    },
    {
      "epoch": 0.09388646288209607,
      "grad_norm": 1.2604186198564908,
      "learning_rate": 1.996750069868895e-05,
      "loss": 0.9896,
      "step": 86
    },
    {
      "epoch": 0.09497816593886463,
      "grad_norm": 1.1374917097605022,
      "learning_rate": 1.9966073134957137e-05,
      "loss": 0.8745,
      "step": 87
    },
    {
      "epoch": 0.09606986899563319,
      "grad_norm": 1.1700957445316564,
      "learning_rate": 1.9964614941176194e-05,
      "loss": 0.9068,
      "step": 88
    },
    {
      "epoch": 0.09716157205240175,
      "grad_norm": 1.1538371134746046,
      "learning_rate": 1.996312612182778e-05,
      "loss": 0.9632,
      "step": 89
    },
    {
      "epoch": 0.0982532751091703,
      "grad_norm": 1.160813654766113,
      "learning_rate": 1.9961606681487685e-05,
      "loss": 0.9592,
      "step": 90
    },
    {
      "epoch": 0.09934497816593886,
      "grad_norm": 1.1687218710757636,
      "learning_rate": 1.996005662482581e-05,
      "loss": 0.9314,
      "step": 91
    },
    {
      "epoch": 0.10043668122270742,
      "grad_norm": 1.1625020584138288,
      "learning_rate": 1.9958475956606133e-05,
      "loss": 0.9364,
      "step": 92
    },
    {
      "epoch": 0.10152838427947598,
      "grad_norm": 1.1942587572603351,
      "learning_rate": 1.9956864681686746e-05,
      "loss": 0.9535,
      "step": 93
    },
    {
      "epoch": 0.10262008733624454,
      "grad_norm": 1.179796870351773,
      "learning_rate": 1.9955222805019786e-05,
      "loss": 0.9419,
      "step": 94
    },
    {
      "epoch": 0.1037117903930131,
      "grad_norm": 1.2186746600859906,
      "learning_rate": 1.995355033165145e-05,
      "loss": 0.9423,
      "step": 95
    },
    {
      "epoch": 0.10480349344978165,
      "grad_norm": 1.174682198448618,
      "learning_rate": 1.995184726672197e-05,
      "loss": 0.9489,
      "step": 96
    },
    {
      "epoch": 0.10589519650655022,
      "grad_norm": 1.2307959174474505,
      "learning_rate": 1.9950113615465604e-05,
      "loss": 0.8974,
      "step": 97
    },
    {
      "epoch": 0.10698689956331878,
      "grad_norm": 1.1772887705652375,
      "learning_rate": 1.994834938321061e-05,
      "loss": 0.9524,
      "step": 98
    },
    {
      "epoch": 0.10807860262008734,
      "grad_norm": 2.155776889552603,
      "learning_rate": 1.9946554575379236e-05,
      "loss": 1.0222,
      "step": 99
    },
    {
      "epoch": 0.1091703056768559,
      "grad_norm": 1.2829049345821588,
      "learning_rate": 1.9944729197487702e-05,
      "loss": 0.8802,
      "step": 100
    },
    {
      "epoch": 0.11026200873362445,
      "grad_norm": 1.095198322268674,
      "learning_rate": 1.9942873255146186e-05,
      "loss": 0.898,
      "step": 101
    },
    {
      "epoch": 0.11135371179039301,
      "grad_norm": 1.123579265286952,
      "learning_rate": 1.9940986754058792e-05,
      "loss": 0.9071,
      "step": 102
    },
    {
      "epoch": 0.11244541484716157,
      "grad_norm": 1.1093669744258132,
      "learning_rate": 1.9939069700023564e-05,
      "loss": 0.9566,
      "step": 103
    },
    {
      "epoch": 0.11353711790393013,
      "grad_norm": 1.1641010979372868,
      "learning_rate": 1.9937122098932428e-05,
      "loss": 0.8996,
      "step": 104
    },
    {
      "epoch": 0.1146288209606987,
      "grad_norm": 1.073655782753635,
      "learning_rate": 1.9935143956771208e-05,
      "loss": 0.9215,
      "step": 105
    },
    {
      "epoch": 0.11572052401746726,
      "grad_norm": 1.1599093450874336,
      "learning_rate": 1.9933135279619592e-05,
      "loss": 0.9647,
      "step": 106
    },
    {
      "epoch": 0.1168122270742358,
      "grad_norm": 1.1060908821324016,
      "learning_rate": 1.993109607365111e-05,
      "loss": 0.8704,
      "step": 107
    },
    {
      "epoch": 0.11790393013100436,
      "grad_norm": 1.2199264081103358,
      "learning_rate": 1.992902634513312e-05,
      "loss": 0.9317,
      "step": 108
    },
    {
      "epoch": 0.11899563318777293,
      "grad_norm": 1.076819952797705,
      "learning_rate": 1.99269261004268e-05,
      "loss": 0.8867,
      "step": 109
    },
    {
      "epoch": 0.12008733624454149,
      "grad_norm": 1.1167800769323946,
      "learning_rate": 1.9924795345987103e-05,
      "loss": 0.9363,
      "step": 110
    },
    {
      "epoch": 0.12117903930131005,
      "grad_norm": 1.166793744032167,
      "learning_rate": 1.992263408836276e-05,
      "loss": 0.9018,
      "step": 111
    },
    {
      "epoch": 0.1222707423580786,
      "grad_norm": 1.1612724847460054,
      "learning_rate": 1.9920442334196248e-05,
      "loss": 0.9855,
      "step": 112
    },
    {
      "epoch": 0.12336244541484716,
      "grad_norm": 1.1715585023326405,
      "learning_rate": 1.9918220090223778e-05,
      "loss": 0.9389,
      "step": 113
    },
    {
      "epoch": 0.12445414847161572,
      "grad_norm": 1.082870769593479,
      "learning_rate": 1.9915967363275264e-05,
      "loss": 0.9018,
      "step": 114
    },
    {
      "epoch": 0.12554585152838427,
      "grad_norm": 1.0926308702520453,
      "learning_rate": 1.991368416027431e-05,
      "loss": 0.923,
      "step": 115
    },
    {
      "epoch": 0.12663755458515283,
      "grad_norm": 1.109680296339338,
      "learning_rate": 1.9911370488238185e-05,
      "loss": 0.9309,
      "step": 116
    },
    {
      "epoch": 0.1277292576419214,
      "grad_norm": 1.1377031719748456,
      "learning_rate": 1.99090263542778e-05,
      "loss": 0.9221,
      "step": 117
    },
    {
      "epoch": 0.12882096069868995,
      "grad_norm": 1.140021798184673,
      "learning_rate": 1.99066517655977e-05,
      "loss": 0.9459,
      "step": 118
    },
    {
      "epoch": 0.1299126637554585,
      "grad_norm": 1.100102085760919,
      "learning_rate": 1.990424672949601e-05,
      "loss": 0.9494,
      "step": 119
    },
    {
      "epoch": 0.13100436681222707,
      "grad_norm": 3.398393246795348,
      "learning_rate": 1.9901811253364458e-05,
      "loss": 0.9903,
      "step": 120
    },
    {
      "epoch": 0.13209606986899564,
      "grad_norm": 1.1532733341471273,
      "learning_rate": 1.9899345344688305e-05,
      "loss": 0.9165,
      "step": 121
    },
    {
      "epoch": 0.1331877729257642,
      "grad_norm": 1.1660734374963202,
      "learning_rate": 1.9896849011046356e-05,
      "loss": 0.9208,
      "step": 122
    },
    {
      "epoch": 0.13427947598253276,
      "grad_norm": 1.2457338239550233,
      "learning_rate": 1.9894322260110927e-05,
      "loss": 0.9177,
      "step": 123
    },
    {
      "epoch": 0.13537117903930132,
      "grad_norm": 1.1844092920395781,
      "learning_rate": 1.989176509964781e-05,
      "loss": 0.9356,
      "step": 124
    },
    {
      "epoch": 0.13646288209606988,
      "grad_norm": 1.1588958575251505,
      "learning_rate": 1.988917753751627e-05,
      "loss": 0.8881,
      "step": 125
    },
    {
      "epoch": 0.13755458515283842,
      "grad_norm": 1.1697350579685266,
      "learning_rate": 1.9886559581669e-05,
      "loss": 0.8726,
      "step": 126
    },
    {
      "epoch": 0.13864628820960698,
      "grad_norm": 1.153883284055616,
      "learning_rate": 1.9883911240152104e-05,
      "loss": 0.945,
      "step": 127
    },
    {
      "epoch": 0.13973799126637554,
      "grad_norm": 1.152362270438983,
      "learning_rate": 1.988123252110509e-05,
      "loss": 0.9029,
      "step": 128
    },
    {
      "epoch": 0.1408296943231441,
      "grad_norm": 1.1501233711862964,
      "learning_rate": 1.987852343276081e-05,
      "loss": 0.9192,
      "step": 129
    },
    {
      "epoch": 0.14192139737991266,
      "grad_norm": 1.174818934233749,
      "learning_rate": 1.9875783983445473e-05,
      "loss": 0.9452,
      "step": 130
    },
    {
      "epoch": 0.14301310043668122,
      "grad_norm": 1.0908738128846232,
      "learning_rate": 1.9873014181578588e-05,
      "loss": 0.8974,
      "step": 131
    },
    {
      "epoch": 0.14410480349344978,
      "grad_norm": 1.138767021515309,
      "learning_rate": 1.9870214035672945e-05,
      "loss": 0.9276,
      "step": 132
    },
    {
      "epoch": 0.14519650655021835,
      "grad_norm": 1.0929665225790037,
      "learning_rate": 1.9867383554334606e-05,
      "loss": 0.9654,
      "step": 133
    },
    {
      "epoch": 0.1462882096069869,
      "grad_norm": 1.07283100414792,
      "learning_rate": 1.9864522746262867e-05,
      "loss": 0.8918,
      "step": 134
    },
    {
      "epoch": 0.14737991266375547,
      "grad_norm": 1.1601439978914436,
      "learning_rate": 1.9861631620250224e-05,
      "loss": 0.9745,
      "step": 135
    },
    {
      "epoch": 0.14847161572052403,
      "grad_norm": 1.1206737520514654,
      "learning_rate": 1.985871018518236e-05,
      "loss": 0.9347,
      "step": 136
    },
    {
      "epoch": 0.14956331877729256,
      "grad_norm": 1.0911753315113302,
      "learning_rate": 1.9855758450038104e-05,
      "loss": 0.8781,
      "step": 137
    },
    {
      "epoch": 0.15065502183406113,
      "grad_norm": 1.0928800650594352,
      "learning_rate": 1.9852776423889414e-05,
      "loss": 0.89,
      "step": 138
    },
    {
      "epoch": 0.1517467248908297,
      "grad_norm": 1.087821888975063,
      "learning_rate": 1.9849764115901347e-05,
      "loss": 0.8416,
      "step": 139
    },
    {
      "epoch": 0.15283842794759825,
      "grad_norm": 1.1367000509515228,
      "learning_rate": 1.984672153533202e-05,
      "loss": 0.9285,
      "step": 140
    },
    {
      "epoch": 0.1539301310043668,
      "grad_norm": 1.0777067492755554,
      "learning_rate": 1.9843648691532608e-05,
      "loss": 0.8983,
      "step": 141
    },
    {
      "epoch": 0.15502183406113537,
      "grad_norm": 1.1252760246699316,
      "learning_rate": 1.9840545593947286e-05,
      "loss": 0.9037,
      "step": 142
    },
    {
      "epoch": 0.15611353711790393,
      "grad_norm": 1.1026718224889325,
      "learning_rate": 1.9837412252113208e-05,
      "loss": 0.871,
      "step": 143
    },
    {
      "epoch": 0.1572052401746725,
      "grad_norm": 1.09520601629096,
      "learning_rate": 1.9834248675660484e-05,
      "loss": 0.8835,
      "step": 144
    },
    {
      "epoch": 0.15829694323144106,
      "grad_norm": 1.1334330913011768,
      "learning_rate": 1.9831054874312167e-05,
      "loss": 0.896,
      "step": 145
    },
    {
      "epoch": 0.15938864628820962,
      "grad_norm": 1.120111966883419,
      "learning_rate": 1.9827830857884173e-05,
      "loss": 0.9636,
      "step": 146
    },
    {
      "epoch": 0.16048034934497818,
      "grad_norm": 1.1400337285874271,
      "learning_rate": 1.9824576636285306e-05,
      "loss": 0.892,
      "step": 147
    },
    {
      "epoch": 0.1615720524017467,
      "grad_norm": 1.1111987618475436,
      "learning_rate": 1.982129221951719e-05,
      "loss": 0.9267,
      "step": 148
    },
    {
      "epoch": 0.16266375545851527,
      "grad_norm": 1.0890011222581428,
      "learning_rate": 1.9817977617674263e-05,
      "loss": 0.8851,
      "step": 149
    },
    {
      "epoch": 0.16375545851528384,
      "grad_norm": 1.118643797208063,
      "learning_rate": 1.9814632840943728e-05,
      "loss": 1.0023,
      "step": 150
    },
    {
      "epoch": 0.1648471615720524,
      "grad_norm": 1.2142861082842908,
      "learning_rate": 1.981125789960552e-05,
      "loss": 0.9428,
      "step": 151
    },
    {
      "epoch": 0.16593886462882096,
      "grad_norm": 1.2002950376492378,
      "learning_rate": 1.9807852804032306e-05,
      "loss": 0.9224,
      "step": 152
    },
    {
      "epoch": 0.16703056768558952,
      "grad_norm": 1.1653737685719343,
      "learning_rate": 1.9804417564689405e-05,
      "loss": 0.8864,
      "step": 153
    },
    {
      "epoch": 0.16812227074235808,
      "grad_norm": 1.1850492851012728,
      "learning_rate": 1.98009521921348e-05,
      "loss": 0.9356,
      "step": 154
    },
    {
      "epoch": 0.16921397379912664,
      "grad_norm": 1.182698281481592,
      "learning_rate": 1.979745669701907e-05,
      "loss": 0.8862,
      "step": 155
    },
    {
      "epoch": 0.1703056768558952,
      "grad_norm": 1.1180078893407057,
      "learning_rate": 1.9793931090085385e-05,
      "loss": 0.8888,
      "step": 156
    },
    {
      "epoch": 0.17139737991266377,
      "grad_norm": 1.142716433760269,
      "learning_rate": 1.979037538216946e-05,
      "loss": 0.9084,
      "step": 157
    },
    {
      "epoch": 0.17248908296943233,
      "grad_norm": 1.1171304481378381,
      "learning_rate": 1.9786789584199523e-05,
      "loss": 0.8867,
      "step": 158
    },
    {
      "epoch": 0.17358078602620086,
      "grad_norm": 1.1659904010027182,
      "learning_rate": 1.9783173707196278e-05,
      "loss": 0.9069,
      "step": 159
    },
    {
      "epoch": 0.17467248908296942,
      "grad_norm": 1.045365083133747,
      "learning_rate": 1.9779527762272877e-05,
      "loss": 0.9092,
      "step": 160
    },
    {
      "epoch": 0.17576419213973798,
      "grad_norm": 1.1201793382666256,
      "learning_rate": 1.9775851760634886e-05,
      "loss": 0.9424,
      "step": 161
    },
    {
      "epoch": 0.17685589519650655,
      "grad_norm": 1.0677966150679934,
      "learning_rate": 1.977214571358025e-05,
      "loss": 0.9442,
      "step": 162
    },
    {
      "epoch": 0.1779475982532751,
      "grad_norm": 1.0719807152314682,
      "learning_rate": 1.9768409632499244e-05,
      "loss": 0.8923,
      "step": 163
    },
    {
      "epoch": 0.17903930131004367,
      "grad_norm": 1.0694626417364073,
      "learning_rate": 1.976464352887447e-05,
      "loss": 0.8583,
      "step": 164
    },
    {
      "epoch": 0.18013100436681223,
      "grad_norm": 1.1275814819553525,
      "learning_rate": 1.9760847414280783e-05,
      "loss": 0.9339,
      "step": 165
    },
    {
      "epoch": 0.1812227074235808,
      "grad_norm": 1.0935826775961888,
      "learning_rate": 1.9757021300385288e-05,
      "loss": 0.8894,
      "step": 166
    },
    {
      "epoch": 0.18231441048034935,
      "grad_norm": 1.1136557849424122,
      "learning_rate": 1.9753165198947284e-05,
      "loss": 0.9035,
      "step": 167
    },
    {
      "epoch": 0.18340611353711792,
      "grad_norm": 1.1716854599828845,
      "learning_rate": 1.9749279121818235e-05,
      "loss": 0.9004,
      "step": 168
    },
    {
      "epoch": 0.18449781659388648,
      "grad_norm": 1.0838952277900018,
      "learning_rate": 1.9745363080941745e-05,
      "loss": 0.9016,
      "step": 169
    },
    {
      "epoch": 0.185589519650655,
      "grad_norm": 1.1593918034011053,
      "learning_rate": 1.974141708835349e-05,
      "loss": 0.9122,
      "step": 170
    },
    {
      "epoch": 0.18668122270742357,
      "grad_norm": 1.1432705462896862,
      "learning_rate": 1.973744115618121e-05,
      "loss": 0.8681,
      "step": 171
    },
    {
      "epoch": 0.18777292576419213,
      "grad_norm": 1.073066538159113,
      "learning_rate": 1.973343529664467e-05,
      "loss": 0.8685,
      "step": 172
    },
    {
      "epoch": 0.1888646288209607,
      "grad_norm": 1.139229770536511,
      "learning_rate": 1.9729399522055603e-05,
      "loss": 0.8824,
      "step": 173
    },
    {
      "epoch": 0.18995633187772926,
      "grad_norm": 1.103073711802851,
      "learning_rate": 1.9725333844817688e-05,
      "loss": 0.8713,
      "step": 174
    },
    {
      "epoch": 0.19104803493449782,
      "grad_norm": 1.1096932570978872,
      "learning_rate": 1.972123827742651e-05,
      "loss": 0.9336,
      "step": 175
    },
    {
      "epoch": 0.19213973799126638,
      "grad_norm": 1.1372987569252102,
      "learning_rate": 1.971711283246951e-05,
      "loss": 0.8666,
      "step": 176
    },
    {
      "epoch": 0.19323144104803494,
      "grad_norm": 1.2409826348380575,
      "learning_rate": 1.9712957522625974e-05,
      "loss": 0.945,
      "step": 177
    },
    {
      "epoch": 0.1943231441048035,
      "grad_norm": 1.0864161507998062,
      "learning_rate": 1.9708772360666958e-05,
      "loss": 0.9041,
      "step": 178
    },
    {
      "epoch": 0.19541484716157206,
      "grad_norm": 1.0687833462949532,
      "learning_rate": 1.970455735945527e-05,
      "loss": 0.9002,
      "step": 179
    },
    {
      "epoch": 0.1965065502183406,
      "grad_norm": 1.1122888170914484,
      "learning_rate": 1.9700312531945444e-05,
      "loss": 0.9068,
      "step": 180
    },
    {
      "epoch": 0.19759825327510916,
      "grad_norm": 1.0671231307410538,
      "learning_rate": 1.9696037891183652e-05,
      "loss": 0.8582,
      "step": 181
    },
    {
      "epoch": 0.19868995633187772,
      "grad_norm": 1.231978886418304,
      "learning_rate": 1.9691733450307723e-05,
      "loss": 0.8718,
      "step": 182
    },
    {
      "epoch": 0.19978165938864628,
      "grad_norm": 1.0513585608675498,
      "learning_rate": 1.968739922254706e-05,
      "loss": 0.8678,
      "step": 183
    },
    {
      "epoch": 0.20087336244541484,
      "grad_norm": 1.1004131801370571,
      "learning_rate": 1.9683035221222617e-05,
      "loss": 0.882,
      "step": 184
    },
    {
      "epoch": 0.2019650655021834,
      "grad_norm": 1.1119022799292562,
      "learning_rate": 1.9678641459746858e-05,
      "loss": 0.8375,
      "step": 185
    },
    {
      "epoch": 0.20305676855895197,
      "grad_norm": 1.2828585823405474,
      "learning_rate": 1.967421795162371e-05,
      "loss": 0.9672,
      "step": 186
    },
    {
      "epoch": 0.20414847161572053,
      "grad_norm": 1.0960032312397867,
      "learning_rate": 1.9669764710448523e-05,
      "loss": 0.826,
      "step": 187
    },
    {
      "epoch": 0.2052401746724891,
      "grad_norm": 1.136561558965275,
      "learning_rate": 1.9665281749908034e-05,
      "loss": 0.8788,
      "step": 188
    },
    {
      "epoch": 0.20633187772925765,
      "grad_norm": 1.0573043883882423,
      "learning_rate": 1.966076908378032e-05,
      "loss": 0.8727,
      "step": 189
    },
    {
      "epoch": 0.2074235807860262,
      "grad_norm": 1.0822840901766584,
      "learning_rate": 1.9656226725934745e-05,
      "loss": 0.8898,
      "step": 190
    },
    {
      "epoch": 0.20851528384279475,
      "grad_norm": 1.1120619489254118,
      "learning_rate": 1.9651654690331945e-05,
      "loss": 0.8518,
      "step": 191
    },
    {
      "epoch": 0.2096069868995633,
      "grad_norm": 1.0468864059258323,
      "learning_rate": 1.964705299102376e-05,
      "loss": 0.8557,
      "step": 192
    },
    {
      "epoch": 0.21069868995633187,
      "grad_norm": 1.4278927628034137,
      "learning_rate": 1.96424216421532e-05,
      "loss": 0.8696,
      "step": 193
    },
    {
      "epoch": 0.21179039301310043,
      "grad_norm": 1.147251174802579,
      "learning_rate": 1.96377606579544e-05,
      "loss": 0.89,
      "step": 194
    },
    {
      "epoch": 0.212882096069869,
      "grad_norm": 1.1186032822531382,
      "learning_rate": 1.963307005275258e-05,
      "loss": 0.881,
      "step": 195
    },
    {
      "epoch": 0.21397379912663755,
      "grad_norm": 1.0832284053417196,
      "learning_rate": 1.9628349840963997e-05,
      "loss": 0.9257,
      "step": 196
    },
    {
      "epoch": 0.21506550218340612,
      "grad_norm": 1.116941116046061,
      "learning_rate": 1.96236000370959e-05,
      "loss": 0.8976,
      "step": 197
    },
    {
      "epoch": 0.21615720524017468,
      "grad_norm": 1.023005979642442,
      "learning_rate": 1.9618820655746488e-05,
      "loss": 0.8532,
      "step": 198
    },
    {
      "epoch": 0.21724890829694324,
      "grad_norm": 1.1200494064955775,
      "learning_rate": 1.9614011711604863e-05,
      "loss": 0.9159,
      "step": 199
    },
    {
      "epoch": 0.2183406113537118,
      "grad_norm": 1.0966895099156009,
      "learning_rate": 1.9609173219450998e-05,
      "loss": 0.8763,
      "step": 200
    },
    {
      "epoch": 0.21943231441048036,
      "grad_norm": 1.1424389070902334,
      "learning_rate": 1.960430519415566e-05,
      "loss": 0.9287,
      "step": 201
    },
    {
      "epoch": 0.2205240174672489,
      "grad_norm": 1.1544455317485216,
      "learning_rate": 1.9599407650680397e-05,
      "loss": 0.9619,
      "step": 202
    },
    {
      "epoch": 0.22161572052401746,
      "grad_norm": 1.0466089924901163,
      "learning_rate": 1.959448060407748e-05,
      "loss": 0.9045,
      "step": 203
    },
    {
      "epoch": 0.22270742358078602,
      "grad_norm": 1.0824896062471592,
      "learning_rate": 1.958952406948985e-05,
      "loss": 0.9132,
      "step": 204
    },
    {
      "epoch": 0.22379912663755458,
      "grad_norm": 1.1093467073603955,
      "learning_rate": 1.9584538062151076e-05,
      "loss": 0.8482,
      "step": 205
    },
    {
      "epoch": 0.22489082969432314,
      "grad_norm": 1.0619679279007732,
      "learning_rate": 1.9579522597385315e-05,
      "loss": 0.9068,
      "step": 206
    },
    {
      "epoch": 0.2259825327510917,
      "grad_norm": 4.38385984663046,
      "learning_rate": 1.957447769060726e-05,
      "loss": 0.9276,
      "step": 207
    },
    {
      "epoch": 0.22707423580786026,
      "grad_norm": 1.2265776059461564,
      "learning_rate": 1.956940335732209e-05,
      "loss": 0.92,
      "step": 208
    },
    {
      "epoch": 0.22816593886462883,
      "grad_norm": 1.132581284506294,
      "learning_rate": 1.956429961312542e-05,
      "loss": 0.8389,
      "step": 209
    },
    {
      "epoch": 0.2292576419213974,
      "grad_norm": 1.109888606752121,
      "learning_rate": 1.9559166473703265e-05,
      "loss": 0.8816,
      "step": 210
    },
    {
      "epoch": 0.23034934497816595,
      "grad_norm": 1.2201116053725314,
      "learning_rate": 1.9554003954831975e-05,
      "loss": 0.9209,
      "step": 211
    },
    {
      "epoch": 0.2314410480349345,
      "grad_norm": 1.039809201288955,
      "learning_rate": 1.9548812072378208e-05,
      "loss": 0.8509,
      "step": 212
    },
    {
      "epoch": 0.23253275109170304,
      "grad_norm": 1.1486993213225967,
      "learning_rate": 1.9543590842298856e-05,
      "loss": 0.916,
      "step": 213
    },
    {
      "epoch": 0.2336244541484716,
      "grad_norm": 1.1166716250519264,
      "learning_rate": 1.9538340280641018e-05,
      "loss": 0.9079,
      "step": 214
    },
    {
      "epoch": 0.23471615720524017,
      "grad_norm": 1.0901968030731561,
      "learning_rate": 1.9533060403541937e-05,
      "loss": 0.9141,
      "step": 215
    },
    {
      "epoch": 0.23580786026200873,
      "grad_norm": 1.2117539613654056,
      "learning_rate": 1.9527751227228964e-05,
      "loss": 0.8885,
      "step": 216
    },
    {
      "epoch": 0.2368995633187773,
      "grad_norm": 1.0732394066038071,
      "learning_rate": 1.9522412768019485e-05,
      "loss": 0.825,
      "step": 217
    },
    {
      "epoch": 0.23799126637554585,
      "grad_norm": 1.1061545688900685,
      "learning_rate": 1.9517045042320893e-05,
      "loss": 0.8777,
      "step": 218
    },
    {
      "epoch": 0.2390829694323144,
      "grad_norm": 1.1462666937584411,
      "learning_rate": 1.9511648066630528e-05,
      "loss": 0.9296,
      "step": 219
    },
    {
      "epoch": 0.24017467248908297,
      "grad_norm": 1.0583366131175636,
      "learning_rate": 1.950622185753563e-05,
      "loss": 0.8803,
      "step": 220
    },
    {
      "epoch": 0.24126637554585154,
      "grad_norm": 1.234586850245016,
      "learning_rate": 1.9500766431713284e-05,
      "loss": 0.9204,
      "step": 221
    },
    {
      "epoch": 0.2423580786026201,
      "grad_norm": 1.1576185571814945,
      "learning_rate": 1.949528180593037e-05,
      "loss": 0.8806,
      "step": 222
    },
    {
      "epoch": 0.24344978165938866,
      "grad_norm": 1.1061637979478478,
      "learning_rate": 1.9489767997043513e-05,
      "loss": 0.9004,
      "step": 223
    },
    {
      "epoch": 0.2445414847161572,
      "grad_norm": 1.1137629138437286,
      "learning_rate": 1.9484225021999032e-05,
      "loss": 0.9081,
      "step": 224
    },
    {
      "epoch": 0.24563318777292575,
      "grad_norm": 1.0960347699600748,
      "learning_rate": 1.947865289783288e-05,
      "loss": 0.9296,
      "step": 225
    },
    {
      "epoch": 0.24672489082969432,
      "grad_norm": 1.039350963491418,
      "learning_rate": 1.9473051641670606e-05,
      "loss": 0.8883,
      "step": 226
    },
    {
      "epoch": 0.24781659388646288,
      "grad_norm": 1.0866918799532765,
      "learning_rate": 1.9467421270727292e-05,
      "loss": 0.9159,
      "step": 227
    },
    {
      "epoch": 0.24890829694323144,
      "grad_norm": 1.093705184952943,
      "learning_rate": 1.9461761802307494e-05,
      "loss": 0.9412,
      "step": 228
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2947600816095237,
      "learning_rate": 1.9456073253805214e-05,
      "loss": 0.8916,
      "step": 229
    },
    {
      "epoch": 0.25109170305676853,
      "grad_norm": 1.1659459607951335,
      "learning_rate": 1.9450355642703812e-05,
      "loss": 0.8984,
      "step": 230
    },
    {
      "epoch": 0.2521834061135371,
      "grad_norm": 1.0686347894819066,
      "learning_rate": 1.9444608986575983e-05,
      "loss": 0.8169,
      "step": 231
    },
    {
      "epoch": 0.25327510917030566,
      "grad_norm": 1.081412554616493,
      "learning_rate": 1.9438833303083677e-05,
      "loss": 0.8356,
      "step": 232
    },
    {
      "epoch": 0.25436681222707425,
      "grad_norm": 1.1259063624208197,
      "learning_rate": 1.943302860997807e-05,
      "loss": 0.8907,
      "step": 233
    },
    {
      "epoch": 0.2554585152838428,
      "grad_norm": 3.913366519387283,
      "learning_rate": 1.9427194925099494e-05,
      "loss": 0.8454,
      "step": 234
    },
    {
      "epoch": 0.25655021834061137,
      "grad_norm": 1.2143857617378389,
      "learning_rate": 1.942133226637738e-05,
      "loss": 0.8486,
      "step": 235
    },
    {
      "epoch": 0.2576419213973799,
      "grad_norm": 1.1627640633320033,
      "learning_rate": 1.941544065183021e-05,
      "loss": 0.8935,
      "step": 236
    },
    {
      "epoch": 0.2587336244541485,
      "grad_norm": 1.0628171650504668,
      "learning_rate": 1.9409520099565463e-05,
      "loss": 0.9077,
      "step": 237
    },
    {
      "epoch": 0.259825327510917,
      "grad_norm": 1.218465436130322,
      "learning_rate": 1.940357062777956e-05,
      "loss": 0.8603,
      "step": 238
    },
    {
      "epoch": 0.2609170305676856,
      "grad_norm": 1.1387894450341074,
      "learning_rate": 1.939759225475779e-05,
      "loss": 0.8989,
      "step": 239
    },
    {
      "epoch": 0.26200873362445415,
      "grad_norm": 1.1726845697998067,
      "learning_rate": 1.939158499887428e-05,
      "loss": 0.8979,
      "step": 240
    },
    {
      "epoch": 0.2631004366812227,
      "grad_norm": 1.119987541750633,
      "learning_rate": 1.9385548878591925e-05,
      "loss": 0.8676,
      "step": 241
    },
    {
      "epoch": 0.26419213973799127,
      "grad_norm": 1.1196661256503484,
      "learning_rate": 1.9379483912462326e-05,
      "loss": 0.8699,
      "step": 242
    },
    {
      "epoch": 0.2652838427947598,
      "grad_norm": 1.0649434577941834,
      "learning_rate": 1.937339011912575e-05,
      "loss": 0.8744,
      "step": 243
    },
    {
      "epoch": 0.2663755458515284,
      "grad_norm": 1.1304833471428484,
      "learning_rate": 1.9367267517311057e-05,
      "loss": 0.9176,
      "step": 244
    },
    {
      "epoch": 0.26746724890829693,
      "grad_norm": 1.0999222694926711,
      "learning_rate": 1.9361116125835645e-05,
      "loss": 0.9084,
      "step": 245
    },
    {
      "epoch": 0.2685589519650655,
      "grad_norm": 1.1117779685873486,
      "learning_rate": 1.9354935963605395e-05,
      "loss": 0.9227,
      "step": 246
    },
    {
      "epoch": 0.26965065502183405,
      "grad_norm": 1.0980143373141853,
      "learning_rate": 1.9348727049614623e-05,
      "loss": 0.8546,
      "step": 247
    },
    {
      "epoch": 0.27074235807860264,
      "grad_norm": 1.044338143636063,
      "learning_rate": 1.9342489402945997e-05,
      "loss": 0.8226,
      "step": 248
    },
    {
      "epoch": 0.2718340611353712,
      "grad_norm": 1.024743860918796,
      "learning_rate": 1.933622304277051e-05,
      "loss": 0.908,
      "step": 249
    },
    {
      "epoch": 0.27292576419213976,
      "grad_norm": 1.0175454403113442,
      "learning_rate": 1.932992798834739e-05,
      "loss": 0.8619,
      "step": 250
    },
    {
      "epoch": 0.2740174672489083,
      "grad_norm": 1.0517054850354142,
      "learning_rate": 1.9323604259024058e-05,
      "loss": 0.8951,
      "step": 251
    },
    {
      "epoch": 0.27510917030567683,
      "grad_norm": 1.0893504511321779,
      "learning_rate": 1.9317251874236066e-05,
      "loss": 0.9239,
      "step": 252
    },
    {
      "epoch": 0.2762008733624454,
      "grad_norm": 1.0864146357207372,
      "learning_rate": 1.9310870853507043e-05,
      "loss": 0.8384,
      "step": 253
    },
    {
      "epoch": 0.27729257641921395,
      "grad_norm": 1.0941739834235782,
      "learning_rate": 1.9304461216448612e-05,
      "loss": 0.8796,
      "step": 254
    },
    {
      "epoch": 0.27838427947598254,
      "grad_norm": 1.0936293887799418,
      "learning_rate": 1.929802298276037e-05,
      "loss": 0.86,
      "step": 255
    },
    {
      "epoch": 0.2794759825327511,
      "grad_norm": 1.0722380682685169,
      "learning_rate": 1.9291556172229784e-05,
      "loss": 0.8999,
      "step": 256
    },
    {
      "epoch": 0.28056768558951967,
      "grad_norm": 1.0187008687239898,
      "learning_rate": 1.928506080473216e-05,
      "loss": 0.8493,
      "step": 257
    },
    {
      "epoch": 0.2816593886462882,
      "grad_norm": 1.0626955444528252,
      "learning_rate": 1.9278536900230564e-05,
      "loss": 0.8672,
      "step": 258
    },
    {
      "epoch": 0.2827510917030568,
      "grad_norm": 1.1529872565057653,
      "learning_rate": 1.9271984478775776e-05,
      "loss": 0.9069,
      "step": 259
    },
    {
      "epoch": 0.2838427947598253,
      "grad_norm": 1.021822512630616,
      "learning_rate": 1.9265403560506223e-05,
      "loss": 0.8016,
      "step": 260
    },
    {
      "epoch": 0.2849344978165939,
      "grad_norm": 1.077071455011887,
      "learning_rate": 1.9258794165647904e-05,
      "loss": 0.922,
      "step": 261
    },
    {
      "epoch": 0.28602620087336245,
      "grad_norm": 1.02625158220979,
      "learning_rate": 1.9252156314514353e-05,
      "loss": 0.8756,
      "step": 262
    },
    {
      "epoch": 0.287117903930131,
      "grad_norm": 1.071479499275788,
      "learning_rate": 1.9245490027506544e-05,
      "loss": 0.8883,
      "step": 263
    },
    {
      "epoch": 0.28820960698689957,
      "grad_norm": 1.0311583545444096,
      "learning_rate": 1.9238795325112867e-05,
      "loss": 0.8505,
      "step": 264
    },
    {
      "epoch": 0.2893013100436681,
      "grad_norm": 1.0397037870150452,
      "learning_rate": 1.9232072227909033e-05,
      "loss": 0.8736,
      "step": 265
    },
    {
      "epoch": 0.2903930131004367,
      "grad_norm": 1.0810821707671576,
      "learning_rate": 1.9225320756558023e-05,
      "loss": 0.8578,
      "step": 266
    },
    {
      "epoch": 0.2914847161572052,
      "grad_norm": 1.0344879510590226,
      "learning_rate": 1.9218540931810027e-05,
      "loss": 0.8613,
      "step": 267
    },
    {
      "epoch": 0.2925764192139738,
      "grad_norm": 1.0718787461179933,
      "learning_rate": 1.9211732774502372e-05,
      "loss": 0.8708,
      "step": 268
    },
    {
      "epoch": 0.29366812227074235,
      "grad_norm": 1.079544308085131,
      "learning_rate": 1.9204896305559474e-05,
      "loss": 0.8676,
      "step": 269
    },
    {
      "epoch": 0.29475982532751094,
      "grad_norm": 1.0270429568112234,
      "learning_rate": 1.919803154599275e-05,
      "loss": 0.8731,
      "step": 270
    },
    {
      "epoch": 0.29585152838427947,
      "grad_norm": 1.0100906029409351,
      "learning_rate": 1.919113851690058e-05,
      "loss": 0.8821,
      "step": 271
    },
    {
      "epoch": 0.29694323144104806,
      "grad_norm": 1.5042233737791588,
      "learning_rate": 1.9184217239468213e-05,
      "loss": 0.9698,
      "step": 272
    },
    {
      "epoch": 0.2980349344978166,
      "grad_norm": 1.0859546180077055,
      "learning_rate": 1.9177267734967727e-05,
      "loss": 0.8897,
      "step": 273
    },
    {
      "epoch": 0.29912663755458513,
      "grad_norm": 1.025542463223278,
      "learning_rate": 1.9170290024757958e-05,
      "loss": 0.8476,
      "step": 274
    },
    {
      "epoch": 0.3002183406113537,
      "grad_norm": 1.0993519364312672,
      "learning_rate": 1.9163284130284417e-05,
      "loss": 0.9075,
      "step": 275
    },
    {
      "epoch": 0.30131004366812225,
      "grad_norm": 1.0927829067402064,
      "learning_rate": 1.915625007307925e-05,
      "loss": 0.8239,
      "step": 276
    },
    {
      "epoch": 0.30240174672489084,
      "grad_norm": 1.1243233455921855,
      "learning_rate": 1.914918787476115e-05,
      "loss": 0.8297,
      "step": 277
    },
    {
      "epoch": 0.3034934497816594,
      "grad_norm": 1.0879664494442347,
      "learning_rate": 1.914209755703531e-05,
      "loss": 0.8871,
      "step": 278
    },
    {
      "epoch": 0.30458515283842796,
      "grad_norm": 1.094207883593622,
      "learning_rate": 1.9134979141693333e-05,
      "loss": 0.8862,
      "step": 279
    },
    {
      "epoch": 0.3056768558951965,
      "grad_norm": 1.1171396644422387,
      "learning_rate": 1.912783265061319e-05,
      "loss": 0.8719,
      "step": 280
    },
    {
      "epoch": 0.3067685589519651,
      "grad_norm": 1.080936511227442,
      "learning_rate": 1.9120658105759138e-05,
      "loss": 0.8944,
      "step": 281
    },
    {
      "epoch": 0.3078602620087336,
      "grad_norm": 1.1204710720033177,
      "learning_rate": 1.9113455529181645e-05,
      "loss": 0.8525,
      "step": 282
    },
    {
      "epoch": 0.3089519650655022,
      "grad_norm": 1.0747416230222755,
      "learning_rate": 1.9106224943017355e-05,
      "loss": 0.885,
      "step": 283
    },
    {
      "epoch": 0.31004366812227074,
      "grad_norm": 1.1007595003526711,
      "learning_rate": 1.9098966369488967e-05,
      "loss": 0.8806,
      "step": 284
    },
    {
      "epoch": 0.3111353711790393,
      "grad_norm": 1.1272704353445784,
      "learning_rate": 1.9091679830905225e-05,
      "loss": 0.8561,
      "step": 285
    },
    {
      "epoch": 0.31222707423580787,
      "grad_norm": 1.047445304068462,
      "learning_rate": 1.908436534966081e-05,
      "loss": 0.9214,
      "step": 286
    },
    {
      "epoch": 0.3133187772925764,
      "grad_norm": 1.1850281966860399,
      "learning_rate": 1.907702294823628e-05,
      "loss": 0.9584,
      "step": 287
    },
    {
      "epoch": 0.314410480349345,
      "grad_norm": 1.057267707952885,
      "learning_rate": 1.9069652649198004e-05,
      "loss": 0.8708,
      "step": 288
    },
    {
      "epoch": 0.3155021834061135,
      "grad_norm": 1.0491354134226445,
      "learning_rate": 1.9062254475198107e-05,
      "loss": 0.8429,
      "step": 289
    },
    {
      "epoch": 0.3165938864628821,
      "grad_norm": 1.071884430813601,
      "learning_rate": 1.9054828448974363e-05,
      "loss": 0.8839,
      "step": 290
    },
    {
      "epoch": 0.31768558951965065,
      "grad_norm": 1.0139303388937126,
      "learning_rate": 1.9047374593350166e-05,
      "loss": 0.8614,
      "step": 291
    },
    {
      "epoch": 0.31877729257641924,
      "grad_norm": 1.0305651242570724,
      "learning_rate": 1.9039892931234434e-05,
      "loss": 0.8824,
      "step": 292
    },
    {
      "epoch": 0.31986899563318777,
      "grad_norm": 1.0507521878832264,
      "learning_rate": 1.9032383485621547e-05,
      "loss": 0.8182,
      "step": 293
    },
    {
      "epoch": 0.32096069868995636,
      "grad_norm": 1.0217727036915132,
      "learning_rate": 1.9024846279591275e-05,
      "loss": 0.8643,
      "step": 294
    },
    {
      "epoch": 0.3220524017467249,
      "grad_norm": 1.157334719383855,
      "learning_rate": 1.901728133630871e-05,
      "loss": 0.8379,
      "step": 295
    },
    {
      "epoch": 0.3231441048034934,
      "grad_norm": 1.0997360316521576,
      "learning_rate": 1.900968867902419e-05,
      "loss": 0.864,
      "step": 296
    },
    {
      "epoch": 0.324235807860262,
      "grad_norm": 1.1108332410646824,
      "learning_rate": 1.9002068331073237e-05,
      "loss": 0.9096,
      "step": 297
    },
    {
      "epoch": 0.32532751091703055,
      "grad_norm": 1.0926477915837476,
      "learning_rate": 1.899442031587647e-05,
      "loss": 0.8797,
      "step": 298
    },
    {
      "epoch": 0.32641921397379914,
      "grad_norm": 1.1002227344486895,
      "learning_rate": 1.898674465693954e-05,
      "loss": 0.8819,
      "step": 299
    },
    {
      "epoch": 0.32751091703056767,
      "grad_norm": 1.0841231073305384,
      "learning_rate": 1.8979041377853068e-05,
      "loss": 0.8634,
      "step": 300
    },
    {
      "epoch": 0.32860262008733626,
      "grad_norm": 1.0942944122131784,
      "learning_rate": 1.897131050229256e-05,
      "loss": 0.9292,
      "step": 301
    },
    {
      "epoch": 0.3296943231441048,
      "grad_norm": 1.0715243516004385,
      "learning_rate": 1.8963552054018335e-05,
      "loss": 0.8716,
      "step": 302
    },
    {
      "epoch": 0.3307860262008734,
      "grad_norm": 0.9927779537186682,
      "learning_rate": 1.8955766056875456e-05,
      "loss": 0.8362,
      "step": 303
    },
    {
      "epoch": 0.3318777292576419,
      "grad_norm": 1.0640155771936333,
      "learning_rate": 1.8947952534793663e-05,
      "loss": 0.8649,
      "step": 304
    },
    {
      "epoch": 0.3329694323144105,
      "grad_norm": 1.053838113711653,
      "learning_rate": 1.8940111511787277e-05,
      "loss": 0.867,
      "step": 305
    },
    {
      "epoch": 0.33406113537117904,
      "grad_norm": 1.006526089115897,
      "learning_rate": 1.8932243011955154e-05,
      "loss": 0.9006,
      "step": 306
    },
    {
      "epoch": 0.3351528384279476,
      "grad_norm": 1.0728197830124255,
      "learning_rate": 1.8924347059480595e-05,
      "loss": 0.8567,
      "step": 307
    },
    {
      "epoch": 0.33624454148471616,
      "grad_norm": 1.05344829703244,
      "learning_rate": 1.891642367863127e-05,
      "loss": 0.8772,
      "step": 308
    },
    {
      "epoch": 0.3373362445414847,
      "grad_norm": 1.0645124448972854,
      "learning_rate": 1.890847289375916e-05,
      "loss": 0.9114,
      "step": 309
    },
    {
      "epoch": 0.3384279475982533,
      "grad_norm": 1.0747344407375048,
      "learning_rate": 1.8900494729300453e-05,
      "loss": 0.8583,
      "step": 310
    },
    {
      "epoch": 0.3395196506550218,
      "grad_norm": 1.0290709872101504,
      "learning_rate": 1.88924892097755e-05,
      "loss": 0.8742,
      "step": 311
    },
    {
      "epoch": 0.3406113537117904,
      "grad_norm": 1.0708426763000087,
      "learning_rate": 1.8884456359788725e-05,
      "loss": 0.8905,
      "step": 312
    },
    {
      "epoch": 0.34170305676855894,
      "grad_norm": 1.1036268372797233,
      "learning_rate": 1.8876396204028543e-05,
      "loss": 0.8412,
      "step": 313
    },
    {
      "epoch": 0.34279475982532753,
      "grad_norm": 1.682452908084444,
      "learning_rate": 1.8868308767267294e-05,
      "loss": 0.9803,
      "step": 314
    },
    {
      "epoch": 0.34388646288209607,
      "grad_norm": 1.0618935535379088,
      "learning_rate": 1.8860194074361168e-05,
      "loss": 0.8668,
      "step": 315
    },
    {
      "epoch": 0.34497816593886466,
      "grad_norm": 1.2769841836547489,
      "learning_rate": 1.8852052150250123e-05,
      "loss": 0.8677,
      "step": 316
    },
    {
      "epoch": 0.3460698689956332,
      "grad_norm": 1.0224935661717929,
      "learning_rate": 1.884388301995781e-05,
      "loss": 0.8243,
      "step": 317
    },
    {
      "epoch": 0.3471615720524017,
      "grad_norm": 1.0306490619845388,
      "learning_rate": 1.8835686708591495e-05,
      "loss": 0.8013,
      "step": 318
    },
    {
      "epoch": 0.3482532751091703,
      "grad_norm": 1.0625559163468348,
      "learning_rate": 1.882746324134199e-05,
      "loss": 0.8922,
      "step": 319
    },
    {
      "epoch": 0.34934497816593885,
      "grad_norm": 1.1094178005123845,
      "learning_rate": 1.881921264348355e-05,
      "loss": 0.875,
      "step": 320
    },
    {
      "epoch": 0.35043668122270744,
      "grad_norm": 1.019854115964412,
      "learning_rate": 1.8810934940373843e-05,
      "loss": 0.8288,
      "step": 321
    },
    {
      "epoch": 0.35152838427947597,
      "grad_norm": 1.129491723926347,
      "learning_rate": 1.8802630157453817e-05,
      "loss": 0.8893,
      "step": 322
    },
    {
      "epoch": 0.35262008733624456,
      "grad_norm": 2.407984766571855,
      "learning_rate": 1.8794298320247665e-05,
      "loss": 0.8996,
      "step": 323
    },
    {
      "epoch": 0.3537117903930131,
      "grad_norm": 1.0668869542446686,
      "learning_rate": 1.878593945436272e-05,
      "loss": 0.8829,
      "step": 324
    },
    {
      "epoch": 0.3548034934497817,
      "grad_norm": 1.027197909624692,
      "learning_rate": 1.8777553585489386e-05,
      "loss": 0.8869,
      "step": 325
    },
    {
      "epoch": 0.3558951965065502,
      "grad_norm": 1.1180374790635763,
      "learning_rate": 1.8769140739401063e-05,
      "loss": 0.8918,
      "step": 326
    },
    {
      "epoch": 0.3569868995633188,
      "grad_norm": 1.0468999001715216,
      "learning_rate": 1.8760700941954066e-05,
      "loss": 0.8623,
      "step": 327
    },
    {
      "epoch": 0.35807860262008734,
      "grad_norm": 1.0603483002623066,
      "learning_rate": 1.8752234219087538e-05,
      "loss": 0.8979,
      "step": 328
    },
    {
      "epoch": 0.35917030567685587,
      "grad_norm": 1.0943787564656549,
      "learning_rate": 1.8743740596823373e-05,
      "loss": 0.889,
      "step": 329
    },
    {
      "epoch": 0.36026200873362446,
      "grad_norm": 1.040251056957098,
      "learning_rate": 1.873522010126615e-05,
      "loss": 0.8615,
      "step": 330
    },
    {
      "epoch": 0.361353711790393,
      "grad_norm": 1.0252415932639054,
      "learning_rate": 1.8726672758603028e-05,
      "loss": 0.822,
      "step": 331
    },
    {
      "epoch": 0.3624454148471616,
      "grad_norm": 1.0498064378341836,
      "learning_rate": 1.871809859510368e-05,
      "loss": 0.876,
      "step": 332
    },
    {
      "epoch": 0.3635371179039301,
      "grad_norm": 3.1234497627187476,
      "learning_rate": 1.8709497637120222e-05,
      "loss": 1.0257,
      "step": 333
    },
    {
      "epoch": 0.3646288209606987,
      "grad_norm": 1.1941436771593972,
      "learning_rate": 1.8700869911087115e-05,
      "loss": 0.9056,
      "step": 334
    },
    {
      "epoch": 0.36572052401746724,
      "grad_norm": 1.0664111934492433,
      "learning_rate": 1.8692215443521086e-05,
      "loss": 0.8953,
      "step": 335
    },
    {
      "epoch": 0.36681222707423583,
      "grad_norm": 3.941553612022084,
      "learning_rate": 1.8683534261021058e-05,
      "loss": 0.9104,
      "step": 336
    },
    {
      "epoch": 0.36790393013100436,
      "grad_norm": 1.1169531095255332,
      "learning_rate": 1.867482639026805e-05,
      "loss": 0.9231,
      "step": 337
    },
    {
      "epoch": 0.36899563318777295,
      "grad_norm": 1.0345131327197774,
      "learning_rate": 1.8666091858025113e-05,
      "loss": 0.8831,
      "step": 338
    },
    {
      "epoch": 0.3700873362445415,
      "grad_norm": 1.0197343975131627,
      "learning_rate": 1.865733069113724e-05,
      "loss": 0.8138,
      "step": 339
    },
    {
      "epoch": 0.37117903930131,
      "grad_norm": 1.1099897380567005,
      "learning_rate": 1.8648542916531283e-05,
      "loss": 0.8628,
      "step": 340
    },
    {
      "epoch": 0.3722707423580786,
      "grad_norm": 1.1244141351963375,
      "learning_rate": 1.863972856121587e-05,
      "loss": 0.8417,
      "step": 341
    },
    {
      "epoch": 0.37336244541484714,
      "grad_norm": 1.0138120177828884,
      "learning_rate": 1.8630887652281325e-05,
      "loss": 0.8069,
      "step": 342
    },
    {
      "epoch": 0.37445414847161573,
      "grad_norm": 1.0651674776026643,
      "learning_rate": 1.8622020216899578e-05,
      "loss": 0.8388,
      "step": 343
    },
    {
      "epoch": 0.37554585152838427,
      "grad_norm": 1.0324245520605353,
      "learning_rate": 1.8613126282324092e-05,
      "loss": 0.8435,
      "step": 344
    },
    {
      "epoch": 0.37663755458515286,
      "grad_norm": 1.0564097917077362,
      "learning_rate": 1.860420587588977e-05,
      "loss": 0.8118,
      "step": 345
    },
    {
      "epoch": 0.3777292576419214,
      "grad_norm": 1.1426965106863376,
      "learning_rate": 1.859525902501288e-05,
      "loss": 0.8844,
      "step": 346
    },
    {
      "epoch": 0.37882096069869,
      "grad_norm": 1.0998660035228724,
      "learning_rate": 1.8586285757190952e-05,
      "loss": 0.861,
      "step": 347
    },
    {
      "epoch": 0.3799126637554585,
      "grad_norm": 1.0891194187264164,
      "learning_rate": 1.8577286100002723e-05,
      "loss": 0.8693,
      "step": 348
    },
    {
      "epoch": 0.38100436681222705,
      "grad_norm": 1.0445800669656011,
      "learning_rate": 1.8568260081108026e-05,
      "loss": 0.8549,
      "step": 349
    },
    {
      "epoch": 0.38209606986899564,
      "grad_norm": 1.0095555737733146,
      "learning_rate": 1.8559207728247716e-05,
      "loss": 0.8372,
      "step": 350
    },
    {
      "epoch": 0.38318777292576417,
      "grad_norm": 1.0782684914388916,
      "learning_rate": 1.8550129069243585e-05,
      "loss": 0.905,
      "step": 351
    },
    {
      "epoch": 0.38427947598253276,
      "grad_norm": 1.0732992425493888,
      "learning_rate": 1.8541024131998277e-05,
      "loss": 0.8223,
      "step": 352
    },
    {
      "epoch": 0.3853711790393013,
      "grad_norm": 1.0895010265352918,
      "learning_rate": 1.8531892944495197e-05,
      "loss": 0.8398,
      "step": 353
    },
    {
      "epoch": 0.3864628820960699,
      "grad_norm": 1.0360428026938602,
      "learning_rate": 1.852273553479843e-05,
      "loss": 0.877,
      "step": 354
    },
    {
      "epoch": 0.3875545851528384,
      "grad_norm": 1.962940812783276,
      "learning_rate": 1.8513551931052654e-05,
      "loss": 0.9007,
      "step": 355
    },
    {
      "epoch": 0.388646288209607,
      "grad_norm": 1.1920882816536065,
      "learning_rate": 1.850434216148305e-05,
      "loss": 0.9108,
      "step": 356
    },
    {
      "epoch": 0.38973799126637554,
      "grad_norm": 1.0752529630656973,
      "learning_rate": 1.8495106254395217e-05,
      "loss": 0.8958,
      "step": 357
    },
    {
      "epoch": 0.39082969432314413,
      "grad_norm": 1.1468554032302092,
      "learning_rate": 1.8485844238175096e-05,
      "loss": 0.8918,
      "step": 358
    },
    {
      "epoch": 0.39192139737991266,
      "grad_norm": 1.0162198739363895,
      "learning_rate": 1.8476556141288858e-05,
      "loss": 0.8029,
      "step": 359
    },
    {
      "epoch": 0.3930131004366812,
      "grad_norm": 1.0071775391810776,
      "learning_rate": 1.8467241992282842e-05,
      "loss": 0.7979,
      "step": 360
    },
    {
      "epoch": 0.3941048034934498,
      "grad_norm": 1.2228374262090314,
      "learning_rate": 1.845790181978345e-05,
      "loss": 0.8762,
      "step": 361
    },
    {
      "epoch": 0.3951965065502183,
      "grad_norm": 1.0304357048780401,
      "learning_rate": 1.8448535652497073e-05,
      "loss": 0.8561,
      "step": 362
    },
    {
      "epoch": 0.3962882096069869,
      "grad_norm": 1.1760020019475943,
      "learning_rate": 1.8439143519209982e-05,
      "loss": 0.881,
      "step": 363
    },
    {
      "epoch": 0.39737991266375544,
      "grad_norm": 1.0672221787016125,
      "learning_rate": 1.8429725448788267e-05,
      "loss": 0.8421,
      "step": 364
    },
    {
      "epoch": 0.39847161572052403,
      "grad_norm": 1.0929075918275972,
      "learning_rate": 1.8420281470177728e-05,
      "loss": 0.9352,
      "step": 365
    },
    {
      "epoch": 0.39956331877729256,
      "grad_norm": 1.1162701706741684,
      "learning_rate": 1.841081161240379e-05,
      "loss": 0.907,
      "step": 366
    },
    {
      "epoch": 0.40065502183406115,
      "grad_norm": 1.1076237739075554,
      "learning_rate": 1.8401315904571415e-05,
      "loss": 0.8667,
      "step": 367
    },
    {
      "epoch": 0.4017467248908297,
      "grad_norm": 1.0712665487420094,
      "learning_rate": 1.8391794375865025e-05,
      "loss": 0.8315,
      "step": 368
    },
    {
      "epoch": 0.4028384279475983,
      "grad_norm": 1.0898594530898202,
      "learning_rate": 1.838224705554838e-05,
      "loss": 0.8743,
      "step": 369
    },
    {
      "epoch": 0.4039301310043668,
      "grad_norm": 1.0819675266807698,
      "learning_rate": 1.8372673972964535e-05,
      "loss": 0.8878,
      "step": 370
    },
    {
      "epoch": 0.40502183406113534,
      "grad_norm": 1.045266116724849,
      "learning_rate": 1.8363075157535696e-05,
      "loss": 0.874,
      "step": 371
    },
    {
      "epoch": 0.40611353711790393,
      "grad_norm": 1.0785004475662123,
      "learning_rate": 1.8353450638763178e-05,
      "loss": 0.8574,
      "step": 372
    },
    {
      "epoch": 0.40720524017467247,
      "grad_norm": 1.002318943543793,
      "learning_rate": 1.8343800446227286e-05,
      "loss": 0.838,
      "step": 373
    },
    {
      "epoch": 0.40829694323144106,
      "grad_norm": 1.0959648774204325,
      "learning_rate": 1.833412460958723e-05,
      "loss": 0.8624,
      "step": 374
    },
    {
      "epoch": 0.4093886462882096,
      "grad_norm": 1.0679441203378826,
      "learning_rate": 1.8324423158581034e-05,
      "loss": 0.9165,
      "step": 375
    },
    {
      "epoch": 0.4104803493449782,
      "grad_norm": 1.0657977208061515,
      "learning_rate": 1.8314696123025456e-05,
      "loss": 0.8504,
      "step": 376
    },
    {
      "epoch": 0.4115720524017467,
      "grad_norm": 1.0786066636114091,
      "learning_rate": 1.830494353281587e-05,
      "loss": 0.8859,
      "step": 377
    },
    {
      "epoch": 0.4126637554585153,
      "grad_norm": 1.0844538985964034,
      "learning_rate": 1.8295165417926207e-05,
      "loss": 0.8758,
      "step": 378
    },
    {
      "epoch": 0.41375545851528384,
      "grad_norm": 1.1369381234410079,
      "learning_rate": 1.828536180840884e-05,
      "loss": 0.878,
      "step": 379
    },
    {
      "epoch": 0.4148471615720524,
      "grad_norm": 1.0365327422122983,
      "learning_rate": 1.827553273439449e-05,
      "loss": 0.8178,
      "step": 380
    },
    {
      "epoch": 0.41593886462882096,
      "grad_norm": 1.010419294509892,
      "learning_rate": 1.826567822609216e-05,
      "loss": 0.7879,
      "step": 381
    },
    {
      "epoch": 0.4170305676855895,
      "grad_norm": 1.1313321136780952,
      "learning_rate": 1.8255798313789e-05,
      "loss": 0.8538,
      "step": 382
    },
    {
      "epoch": 0.4181222707423581,
      "grad_norm": 1.0546556015471207,
      "learning_rate": 1.8245893027850255e-05,
      "loss": 0.8535,
      "step": 383
    },
    {
      "epoch": 0.4192139737991266,
      "grad_norm": 1.1066352453385073,
      "learning_rate": 1.823596239871915e-05,
      "loss": 0.8706,
      "step": 384
    },
    {
      "epoch": 0.4203056768558952,
      "grad_norm": 1.0788001936830498,
      "learning_rate": 1.8226006456916796e-05,
      "loss": 0.8743,
      "step": 385
    },
    {
      "epoch": 0.42139737991266374,
      "grad_norm": 1.0281859293036308,
      "learning_rate": 1.821602523304211e-05,
      "loss": 0.8326,
      "step": 386
    },
    {
      "epoch": 0.42248908296943233,
      "grad_norm": 1.0826900331711504,
      "learning_rate": 1.82060187577717e-05,
      "loss": 0.8939,
      "step": 387
    },
    {
      "epoch": 0.42358078602620086,
      "grad_norm": 0.9839950051934626,
      "learning_rate": 1.819598706185979e-05,
      "loss": 0.8482,
      "step": 388
    },
    {
      "epoch": 0.42467248908296945,
      "grad_norm": 1.0589092947298755,
      "learning_rate": 1.8185930176138116e-05,
      "loss": 0.8876,
      "step": 389
    },
    {
      "epoch": 0.425764192139738,
      "grad_norm": 1.0750509472214214,
      "learning_rate": 1.817584813151584e-05,
      "loss": 0.877,
      "step": 390
    },
    {
      "epoch": 0.4268558951965066,
      "grad_norm": 0.9919087062730784,
      "learning_rate": 1.816574095897943e-05,
      "loss": 0.8508,
      "step": 391
    },
    {
      "epoch": 0.4279475982532751,
      "grad_norm": 1.0145840698237465,
      "learning_rate": 1.8155608689592604e-05,
      "loss": 0.8078,
      "step": 392
    },
    {
      "epoch": 0.42903930131004364,
      "grad_norm": 1.0185084268471,
      "learning_rate": 1.81454513544962e-05,
      "loss": 0.8084,
      "step": 393
    },
    {
      "epoch": 0.43013100436681223,
      "grad_norm": 1.0254127908397044,
      "learning_rate": 1.8135268984908096e-05,
      "loss": 0.8917,
      "step": 394
    },
    {
      "epoch": 0.43122270742358076,
      "grad_norm": 1.0258173941195141,
      "learning_rate": 1.8125061612123115e-05,
      "loss": 0.8304,
      "step": 395
    },
    {
      "epoch": 0.43231441048034935,
      "grad_norm": 1.0484331902250323,
      "learning_rate": 1.811482926751293e-05,
      "loss": 0.8323,
      "step": 396
    },
    {
      "epoch": 0.4334061135371179,
      "grad_norm": 4.282417220328665,
      "learning_rate": 1.810457198252595e-05,
      "loss": 0.8679,
      "step": 397
    },
    {
      "epoch": 0.4344978165938865,
      "grad_norm": 1.254363294463263,
      "learning_rate": 1.8094289788687245e-05,
      "loss": 0.827,
      "step": 398
    },
    {
      "epoch": 0.435589519650655,
      "grad_norm": 1.2029279537370476,
      "learning_rate": 1.8083982717598445e-05,
      "loss": 0.8952,
      "step": 399
    },
    {
      "epoch": 0.4366812227074236,
      "grad_norm": 1.1033747688307167,
      "learning_rate": 1.8073650800937627e-05,
      "loss": 0.7987,
      "step": 400
    },
    {
      "epoch": 0.43777292576419213,
      "grad_norm": 1.0665321603069233,
      "learning_rate": 1.8063294070459237e-05,
      "loss": 0.8465,
      "step": 401
    },
    {
      "epoch": 0.4388646288209607,
      "grad_norm": 1.169774102727397,
      "learning_rate": 1.8052912557993983e-05,
      "loss": 0.9538,
      "step": 402
    },
    {
      "epoch": 0.43995633187772926,
      "grad_norm": 1.1194509195428748,
      "learning_rate": 1.804250629544874e-05,
      "loss": 0.8943,
      "step": 403
    },
    {
      "epoch": 0.4410480349344978,
      "grad_norm": 1.0577514930567236,
      "learning_rate": 1.803207531480645e-05,
      "loss": 0.8548,
      "step": 404
    },
    {
      "epoch": 0.4421397379912664,
      "grad_norm": 0.9973644029012136,
      "learning_rate": 1.8021619648126022e-05,
      "loss": 0.8669,
      "step": 405
    },
    {
      "epoch": 0.4432314410480349,
      "grad_norm": 1.0523028770471372,
      "learning_rate": 1.8011139327542238e-05,
      "loss": 0.8684,
      "step": 406
    },
    {
      "epoch": 0.4443231441048035,
      "grad_norm": 1.1262524145047217,
      "learning_rate": 1.8000634385265653e-05,
      "loss": 0.8784,
      "step": 407
    },
    {
      "epoch": 0.44541484716157204,
      "grad_norm": 1.0496533920359254,
      "learning_rate": 1.7990104853582494e-05,
      "loss": 0.8894,
      "step": 408
    },
    {
      "epoch": 0.4465065502183406,
      "grad_norm": 1.1201302730875389,
      "learning_rate": 1.7979550764854556e-05,
      "loss": 0.9027,
      "step": 409
    },
    {
      "epoch": 0.44759825327510916,
      "grad_norm": 0.9929036874744435,
      "learning_rate": 1.796897215151912e-05,
      "loss": 0.8014,
      "step": 410
    },
    {
      "epoch": 0.44868995633187775,
      "grad_norm": 1.041192261408248,
      "learning_rate": 1.7958369046088837e-05,
      "loss": 0.855,
      "step": 411
    },
    {
      "epoch": 0.4497816593886463,
      "grad_norm": 1.0402849967481036,
      "learning_rate": 1.7947741481151628e-05,
      "loss": 0.8846,
      "step": 412
    },
    {
      "epoch": 0.45087336244541487,
      "grad_norm": 1.1162899779922457,
      "learning_rate": 1.7937089489370593e-05,
      "loss": 0.8348,
      "step": 413
    },
    {
      "epoch": 0.4519650655021834,
      "grad_norm": 1.0259479728400953,
      "learning_rate": 1.7926413103483903e-05,
      "loss": 0.8383,
      "step": 414
    },
    {
      "epoch": 0.45305676855895194,
      "grad_norm": 1.0423937380857937,
      "learning_rate": 1.7915712356304716e-05,
      "loss": 0.8764,
      "step": 415
    },
    {
      "epoch": 0.45414847161572053,
      "grad_norm": 1.0442894283040909,
      "learning_rate": 1.7904987280721037e-05,
      "loss": 0.8492,
      "step": 416
    },
    {
      "epoch": 0.45524017467248906,
      "grad_norm": 2.3381394965875426,
      "learning_rate": 1.7894237909695666e-05,
      "loss": 0.9194,
      "step": 417
    },
    {
      "epoch": 0.45633187772925765,
      "grad_norm": 1.0457862793643864,
      "learning_rate": 1.7883464276266064e-05,
      "loss": 0.9105,
      "step": 418
    },
    {
      "epoch": 0.4574235807860262,
      "grad_norm": 1.0938487563819301,
      "learning_rate": 1.7872666413544263e-05,
      "loss": 0.8505,
      "step": 419
    },
    {
      "epoch": 0.4585152838427948,
      "grad_norm": 1.0479613316053789,
      "learning_rate": 1.7861844354716757e-05,
      "loss": 0.8666,
      "step": 420
    },
    {
      "epoch": 0.4596069868995633,
      "grad_norm": 1.0354989854912366,
      "learning_rate": 1.7850998133044414e-05,
      "loss": 0.8579,
      "step": 421
    },
    {
      "epoch": 0.4606986899563319,
      "grad_norm": 1.0244832450034898,
      "learning_rate": 1.7840127781862354e-05,
      "loss": 0.8339,
      "step": 422
    },
    {
      "epoch": 0.46179039301310043,
      "grad_norm": 1.0701586177160183,
      "learning_rate": 1.782923333457987e-05,
      "loss": 0.8655,
      "step": 423
    },
    {
      "epoch": 0.462882096069869,
      "grad_norm": 1.1367159914706504,
      "learning_rate": 1.78183148246803e-05,
      "loss": 0.8425,
      "step": 424
    },
    {
      "epoch": 0.46397379912663755,
      "grad_norm": 1.0318001555579586,
      "learning_rate": 1.7807372285720945e-05,
      "loss": 0.8334,
      "step": 425
    },
    {
      "epoch": 0.4650655021834061,
      "grad_norm": 1.0034906079850978,
      "learning_rate": 1.779640575133296e-05,
      "loss": 0.7919,
      "step": 426
    },
    {
      "epoch": 0.4661572052401747,
      "grad_norm": 1.0948762926658004,
      "learning_rate": 1.7785415255221237e-05,
      "loss": 0.8112,
      "step": 427
    },
    {
      "epoch": 0.4672489082969432,
      "grad_norm": 1.0595832358250177,
      "learning_rate": 1.777440083116432e-05,
      "loss": 0.856,
      "step": 428
    },
    {
      "epoch": 0.4683406113537118,
      "grad_norm": 1.0120238139833355,
      "learning_rate": 1.7763362513014303e-05,
      "loss": 0.8358,
      "step": 429
    },
    {
      "epoch": 0.46943231441048033,
      "grad_norm": 1.0603420733510691,
      "learning_rate": 1.7752300334696696e-05,
      "loss": 0.8273,
      "step": 430
    },
    {
      "epoch": 0.4705240174672489,
      "grad_norm": 1.0149418311756344,
      "learning_rate": 1.774121433021036e-05,
      "loss": 0.776,
      "step": 431
    },
    {
      "epoch": 0.47161572052401746,
      "grad_norm": 1.0427962535184434,
      "learning_rate": 1.773010453362737e-05,
      "loss": 0.8414,
      "step": 432
    },
    {
      "epoch": 0.47270742358078605,
      "grad_norm": 1.0541515356824127,
      "learning_rate": 1.771897097909294e-05,
      "loss": 0.863,
      "step": 433
    },
    {
      "epoch": 0.4737991266375546,
      "grad_norm": 1.175558645343248,
      "learning_rate": 1.7707813700825288e-05,
      "loss": 0.8717,
      "step": 434
    },
    {
      "epoch": 0.47489082969432317,
      "grad_norm": 1.0054868964481134,
      "learning_rate": 1.7696632733115554e-05,
      "loss": 0.8423,
      "step": 435
    },
    {
      "epoch": 0.4759825327510917,
      "grad_norm": 0.9992172603418047,
      "learning_rate": 1.7685428110327683e-05,
      "loss": 0.8136,
      "step": 436
    },
    {
      "epoch": 0.47707423580786024,
      "grad_norm": 1.000512843742466,
      "learning_rate": 1.767419986689832e-05,
      "loss": 0.8196,
      "step": 437
    },
    {
      "epoch": 0.4781659388646288,
      "grad_norm": 1.0785231977862761,
      "learning_rate": 1.7662948037336712e-05,
      "loss": 0.8726,
      "step": 438
    },
    {
      "epoch": 0.47925764192139736,
      "grad_norm": 1.0954902478774415,
      "learning_rate": 1.7651672656224592e-05,
      "loss": 0.8797,
      "step": 439
    },
    {
      "epoch": 0.48034934497816595,
      "grad_norm": 1.0327664989255525,
      "learning_rate": 1.7640373758216075e-05,
      "loss": 0.8152,
      "step": 440
    },
    {
      "epoch": 0.4814410480349345,
      "grad_norm": 1.0354412037183665,
      "learning_rate": 1.7629051378037563e-05,
      "loss": 0.8877,
      "step": 441
    },
    {
      "epoch": 0.48253275109170307,
      "grad_norm": 1.1015989497623595,
      "learning_rate": 1.761770555048762e-05,
      "loss": 0.8427,
      "step": 442
    },
    {
      "epoch": 0.4836244541484716,
      "grad_norm": 1.0320497473447086,
      "learning_rate": 1.7606336310436873e-05,
      "loss": 0.8563,
      "step": 443
    },
    {
      "epoch": 0.4847161572052402,
      "grad_norm": 0.9997658446696477,
      "learning_rate": 1.7594943692827913e-05,
      "loss": 0.8133,
      "step": 444
    },
    {
      "epoch": 0.48580786026200873,
      "grad_norm": 1.0250193435299315,
      "learning_rate": 1.758352773267518e-05,
      "loss": 0.8018,
      "step": 445
    },
    {
      "epoch": 0.4868995633187773,
      "grad_norm": 1.039285984913906,
      "learning_rate": 1.7572088465064847e-05,
      "loss": 0.8292,
      "step": 446
    },
    {
      "epoch": 0.48799126637554585,
      "grad_norm": 1.036818189180488,
      "learning_rate": 1.756062592515473e-05,
      "loss": 0.8647,
      "step": 447
    },
    {
      "epoch": 0.4890829694323144,
      "grad_norm": 1.0615514046606271,
      "learning_rate": 1.754914014817416e-05,
      "loss": 0.8532,
      "step": 448
    },
    {
      "epoch": 0.490174672489083,
      "grad_norm": 1.072361184371725,
      "learning_rate": 1.7537631169423904e-05,
      "loss": 0.8209,
      "step": 449
    },
    {
      "epoch": 0.4912663755458515,
      "grad_norm": 1.006916101154413,
      "learning_rate": 1.7526099024276017e-05,
      "loss": 0.8522,
      "step": 450
    },
    {
      "epoch": 0.4923580786026201,
      "grad_norm": 1.0491709821312805,
      "learning_rate": 1.7514543748173768e-05,
      "loss": 0.815,
      "step": 451
    },
    {
      "epoch": 0.49344978165938863,
      "grad_norm": 1.112345421697922,
      "learning_rate": 1.7502965376631515e-05,
      "loss": 0.8733,
      "step": 452
    },
    {
      "epoch": 0.4945414847161572,
      "grad_norm": 1.0196934926549626,
      "learning_rate": 1.7491363945234595e-05,
      "loss": 0.9038,
      "step": 453
    },
    {
      "epoch": 0.49563318777292575,
      "grad_norm": 1.000891252703294,
      "learning_rate": 1.7479739489639218e-05,
      "loss": 0.8018,
      "step": 454
    },
    {
      "epoch": 0.49672489082969434,
      "grad_norm": 1.0356650853844807,
      "learning_rate": 1.7468092045572366e-05,
      "loss": 0.8717,
      "step": 455
    },
    {
      "epoch": 0.4978165938864629,
      "grad_norm": 1.06647966328419,
      "learning_rate": 1.7456421648831658e-05,
      "loss": 0.8846,
      "step": 456
    },
    {
      "epoch": 0.49890829694323147,
      "grad_norm": 0.9718178063575992,
      "learning_rate": 1.7444728335285272e-05,
      "loss": 0.8282,
      "step": 457
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0013431873045686,
      "learning_rate": 1.743301214087181e-05,
      "loss": 0.8001,
      "step": 458
    },
    {
      "epoch": 0.5010917030567685,
      "grad_norm": 1.0740535843812218,
      "learning_rate": 1.7421273101600204e-05,
      "loss": 0.8754,
      "step": 459
    },
    {
      "epoch": 0.5021834061135371,
      "grad_norm": 0.9995691628942387,
      "learning_rate": 1.7409511253549592e-05,
      "loss": 0.8498,
      "step": 460
    },
    {
      "epoch": 0.5032751091703057,
      "grad_norm": 1.0484096682850725,
      "learning_rate": 1.7397726632869217e-05,
      "loss": 0.8627,
      "step": 461
    },
    {
      "epoch": 0.5043668122270742,
      "grad_norm": 0.9787309299681939,
      "learning_rate": 1.7385919275778306e-05,
      "loss": 0.8515,
      "step": 462
    },
    {
      "epoch": 0.5054585152838428,
      "grad_norm": 1.0553331678079094,
      "learning_rate": 1.7374089218565973e-05,
      "loss": 0.854,
      "step": 463
    },
    {
      "epoch": 0.5065502183406113,
      "grad_norm": 1.0237550943918565,
      "learning_rate": 1.7362236497591097e-05,
      "loss": 0.8543,
      "step": 464
    },
    {
      "epoch": 0.50764192139738,
      "grad_norm": 1.0479711130387015,
      "learning_rate": 1.7350361149282204e-05,
      "loss": 0.8683,
      "step": 465
    },
    {
      "epoch": 0.5087336244541485,
      "grad_norm": 1.0479876677888864,
      "learning_rate": 1.733846321013738e-05,
      "loss": 0.8384,
      "step": 466
    },
    {
      "epoch": 0.509825327510917,
      "grad_norm": 1.0123245970073138,
      "learning_rate": 1.7326542716724127e-05,
      "loss": 0.9322,
      "step": 467
    },
    {
      "epoch": 0.5109170305676856,
      "grad_norm": 1.0074008131779049,
      "learning_rate": 1.731459970567928e-05,
      "loss": 0.84,
      "step": 468
    },
    {
      "epoch": 0.5120087336244541,
      "grad_norm": 1.101200499888394,
      "learning_rate": 1.730263421370886e-05,
      "loss": 0.9147,
      "step": 469
    },
    {
      "epoch": 0.5131004366812227,
      "grad_norm": 1.0144901458139852,
      "learning_rate": 1.7290646277588004e-05,
      "loss": 0.8137,
      "step": 470
    },
    {
      "epoch": 0.5141921397379913,
      "grad_norm": 0.9662577411188962,
      "learning_rate": 1.7278635934160816e-05,
      "loss": 0.8216,
      "step": 471
    },
    {
      "epoch": 0.5152838427947598,
      "grad_norm": 0.9953785434574902,
      "learning_rate": 1.7266603220340273e-05,
      "loss": 0.8596,
      "step": 472
    },
    {
      "epoch": 0.5163755458515283,
      "grad_norm": 1.0264482281643867,
      "learning_rate": 1.72545481731081e-05,
      "loss": 0.8305,
      "step": 473
    },
    {
      "epoch": 0.517467248908297,
      "grad_norm": 1.030203549642048,
      "learning_rate": 1.7242470829514674e-05,
      "loss": 0.8345,
      "step": 474
    },
    {
      "epoch": 0.5185589519650655,
      "grad_norm": 0.9710461808326063,
      "learning_rate": 1.7230371226678876e-05,
      "loss": 0.8521,
      "step": 475
    },
    {
      "epoch": 0.519650655021834,
      "grad_norm": 1.023370348893279,
      "learning_rate": 1.7218249401788033e-05,
      "loss": 0.7798,
      "step": 476
    },
    {
      "epoch": 0.5207423580786026,
      "grad_norm": 1.025914668121047,
      "learning_rate": 1.7206105392097736e-05,
      "loss": 0.863,
      "step": 477
    },
    {
      "epoch": 0.5218340611353712,
      "grad_norm": 0.9690377932600598,
      "learning_rate": 1.719393923493178e-05,
      "loss": 0.8914,
      "step": 478
    },
    {
      "epoch": 0.5229257641921398,
      "grad_norm": 0.9594444536591099,
      "learning_rate": 1.7181750967682022e-05,
      "loss": 0.7758,
      "step": 479
    },
    {
      "epoch": 0.5240174672489083,
      "grad_norm": 1.0614467541564174,
      "learning_rate": 1.7169540627808276e-05,
      "loss": 0.823,
      "step": 480
    },
    {
      "epoch": 0.5251091703056768,
      "grad_norm": 1.4460773779786078,
      "learning_rate": 1.7157308252838187e-05,
      "loss": 0.9603,
      "step": 481
    },
    {
      "epoch": 0.5262008733624454,
      "grad_norm": 1.0653191364149415,
      "learning_rate": 1.7145053880367134e-05,
      "loss": 0.8087,
      "step": 482
    },
    {
      "epoch": 0.527292576419214,
      "grad_norm": 1.0169339093704666,
      "learning_rate": 1.7132777548058103e-05,
      "loss": 0.8118,
      "step": 483
    },
    {
      "epoch": 0.5283842794759825,
      "grad_norm": 1.051698062978159,
      "learning_rate": 1.7120479293641558e-05,
      "loss": 0.8567,
      "step": 484
    },
    {
      "epoch": 0.5294759825327511,
      "grad_norm": 1.0817966296346004,
      "learning_rate": 1.7108159154915348e-05,
      "loss": 0.8886,
      "step": 485
    },
    {
      "epoch": 0.5305676855895196,
      "grad_norm": 1.0599420820404035,
      "learning_rate": 1.7095817169744596e-05,
      "loss": 0.8339,
      "step": 486
    },
    {
      "epoch": 0.5316593886462883,
      "grad_norm": 1.0409067153327243,
      "learning_rate": 1.7083453376061542e-05,
      "loss": 0.8516,
      "step": 487
    },
    {
      "epoch": 0.5327510917030568,
      "grad_norm": 1.044566376402019,
      "learning_rate": 1.7071067811865477e-05,
      "loss": 0.8281,
      "step": 488
    },
    {
      "epoch": 0.5338427947598253,
      "grad_norm": 1.0687064993710373,
      "learning_rate": 1.7058660515222583e-05,
      "loss": 0.8406,
      "step": 489
    },
    {
      "epoch": 0.5349344978165939,
      "grad_norm": 0.999108192583162,
      "learning_rate": 1.704623152426585e-05,
      "loss": 0.8491,
      "step": 490
    },
    {
      "epoch": 0.5360262008733624,
      "grad_norm": 1.0292912957335598,
      "learning_rate": 1.7033780877194935e-05,
      "loss": 0.8269,
      "step": 491
    },
    {
      "epoch": 0.537117903930131,
      "grad_norm": 1.06830661497397,
      "learning_rate": 1.7021308612276056e-05,
      "loss": 0.8931,
      "step": 492
    },
    {
      "epoch": 0.5382096069868996,
      "grad_norm": 1.084492682469156,
      "learning_rate": 1.7008814767841872e-05,
      "loss": 0.8693,
      "step": 493
    },
    {
      "epoch": 0.5393013100436681,
      "grad_norm": 1.0454485195891257,
      "learning_rate": 1.699629938229137e-05,
      "loss": 0.8503,
      "step": 494
    },
    {
      "epoch": 0.5403930131004366,
      "grad_norm": 1.0191867273452386,
      "learning_rate": 1.6983762494089732e-05,
      "loss": 0.7995,
      "step": 495
    },
    {
      "epoch": 0.5414847161572053,
      "grad_norm": 1.0630877415036102,
      "learning_rate": 1.6971204141768235e-05,
      "loss": 0.9406,
      "step": 496
    },
    {
      "epoch": 0.5425764192139738,
      "grad_norm": 0.9888822595216342,
      "learning_rate": 1.695862436392412e-05,
      "loss": 0.875,
      "step": 497
    },
    {
      "epoch": 0.5436681222707423,
      "grad_norm": 1.057270695106973,
      "learning_rate": 1.694602319922049e-05,
      "loss": 0.8417,
      "step": 498
    },
    {
      "epoch": 0.5447598253275109,
      "grad_norm": 1.0195541806819288,
      "learning_rate": 1.6933400686386155e-05,
      "loss": 0.836,
      "step": 499
    },
    {
      "epoch": 0.5458515283842795,
      "grad_norm": 1.0265128911776806,
      "learning_rate": 1.6920756864215558e-05,
      "loss": 0.773,
      "step": 500
    },
    {
      "epoch": 0.5469432314410481,
      "grad_norm": 1.0380370718284653,
      "learning_rate": 1.6908091771568627e-05,
      "loss": 0.8698,
      "step": 501
    },
    {
      "epoch": 0.5480349344978166,
      "grad_norm": 1.039423505383226,
      "learning_rate": 1.689540544737067e-05,
      "loss": 0.8544,
      "step": 502
    },
    {
      "epoch": 0.5491266375545851,
      "grad_norm": 1.0217176219487862,
      "learning_rate": 1.6882697930612238e-05,
      "loss": 0.7874,
      "step": 503
    },
    {
      "epoch": 0.5502183406113537,
      "grad_norm": 1.045988466122317,
      "learning_rate": 1.686996926034902e-05,
      "loss": 0.8567,
      "step": 504
    },
    {
      "epoch": 0.5513100436681223,
      "grad_norm": 1.0447659724616767,
      "learning_rate": 1.6857219475701717e-05,
      "loss": 0.8109,
      "step": 505
    },
    {
      "epoch": 0.5524017467248908,
      "grad_norm": 1.0664195249433643,
      "learning_rate": 1.6844448615855933e-05,
      "loss": 0.8202,
      "step": 506
    },
    {
      "epoch": 0.5534934497816594,
      "grad_norm": 1.0089648633669173,
      "learning_rate": 1.683165672006204e-05,
      "loss": 0.9121,
      "step": 507
    },
    {
      "epoch": 0.5545851528384279,
      "grad_norm": 1.0452529273651734,
      "learning_rate": 1.6818843827635052e-05,
      "loss": 0.8013,
      "step": 508
    },
    {
      "epoch": 0.5556768558951966,
      "grad_norm": 1.0633409457304046,
      "learning_rate": 1.6806009977954533e-05,
      "loss": 0.7944,
      "step": 509
    },
    {
      "epoch": 0.5567685589519651,
      "grad_norm": 1.0482706463529357,
      "learning_rate": 1.6793155210464442e-05,
      "loss": 0.8671,
      "step": 510
    },
    {
      "epoch": 0.5578602620087336,
      "grad_norm": 1.029790394822473,
      "learning_rate": 1.678027956467304e-05,
      "loss": 0.8645,
      "step": 511
    },
    {
      "epoch": 0.5589519650655022,
      "grad_norm": 1.030909653935639,
      "learning_rate": 1.6767383080152744e-05,
      "loss": 0.8318,
      "step": 512
    },
    {
      "epoch": 0.5600436681222707,
      "grad_norm": 1.9383979856595541,
      "learning_rate": 1.675446579654003e-05,
      "loss": 0.888,
      "step": 513
    },
    {
      "epoch": 0.5611353711790393,
      "grad_norm": 1.0983725411335354,
      "learning_rate": 1.6741527753535285e-05,
      "loss": 0.8451,
      "step": 514
    },
    {
      "epoch": 0.5622270742358079,
      "grad_norm": 1.0640374450842205,
      "learning_rate": 1.6728568990902713e-05,
      "loss": 0.8531,
      "step": 515
    },
    {
      "epoch": 0.5633187772925764,
      "grad_norm": 1.0519286549875264,
      "learning_rate": 1.6715589548470187e-05,
      "loss": 0.8703,
      "step": 516
    },
    {
      "epoch": 0.5644104803493449,
      "grad_norm": 1.0494252089696754,
      "learning_rate": 1.670258946612914e-05,
      "loss": 0.8492,
      "step": 517
    },
    {
      "epoch": 0.5655021834061136,
      "grad_norm": 0.9904660339342319,
      "learning_rate": 1.668956878383445e-05,
      "loss": 0.7819,
      "step": 518
    },
    {
      "epoch": 0.5665938864628821,
      "grad_norm": 1.0101879469337889,
      "learning_rate": 1.667652754160429e-05,
      "loss": 0.8154,
      "step": 519
    },
    {
      "epoch": 0.5676855895196506,
      "grad_norm": 1.0204945679192219,
      "learning_rate": 1.6663465779520042e-05,
      "loss": 0.8306,
      "step": 520
    },
    {
      "epoch": 0.5687772925764192,
      "grad_norm": 1.0213823349571565,
      "learning_rate": 1.665038353772614e-05,
      "loss": 0.8345,
      "step": 521
    },
    {
      "epoch": 0.5698689956331878,
      "grad_norm": 1.036141206555699,
      "learning_rate": 1.6637280856429964e-05,
      "loss": 0.8133,
      "step": 522
    },
    {
      "epoch": 0.5709606986899564,
      "grad_norm": 0.9890345567375529,
      "learning_rate": 1.662415777590172e-05,
      "loss": 0.8548,
      "step": 523
    },
    {
      "epoch": 0.5720524017467249,
      "grad_norm": 0.9798722379098405,
      "learning_rate": 1.6611014336474303e-05,
      "loss": 0.8496,
      "step": 524
    },
    {
      "epoch": 0.5731441048034934,
      "grad_norm": 0.9979661876547649,
      "learning_rate": 1.6597850578543177e-05,
      "loss": 0.783,
      "step": 525
    },
    {
      "epoch": 0.574235807860262,
      "grad_norm": 1.0077066818548024,
      "learning_rate": 1.658466654256627e-05,
      "loss": 0.8443,
      "step": 526
    },
    {
      "epoch": 0.5753275109170306,
      "grad_norm": 0.9644667511413415,
      "learning_rate": 1.6571462269063812e-05,
      "loss": 0.8507,
      "step": 527
    },
    {
      "epoch": 0.5764192139737991,
      "grad_norm": 1.0021206328145529,
      "learning_rate": 1.6558237798618243e-05,
      "loss": 0.8371,
      "step": 528
    },
    {
      "epoch": 0.5775109170305677,
      "grad_norm": 0.9854485893320216,
      "learning_rate": 1.6544993171874077e-05,
      "loss": 0.8189,
      "step": 529
    },
    {
      "epoch": 0.5786026200873362,
      "grad_norm": 1.0229073338371153,
      "learning_rate": 1.6531728429537766e-05,
      "loss": 0.8071,
      "step": 530
    },
    {
      "epoch": 0.5796943231441049,
      "grad_norm": 1.0114149790482636,
      "learning_rate": 1.6518443612377613e-05,
      "loss": 0.8185,
      "step": 531
    },
    {
      "epoch": 0.5807860262008734,
      "grad_norm": 1.0586948600839432,
      "learning_rate": 1.6505138761223586e-05,
      "loss": 0.8605,
      "step": 532
    },
    {
      "epoch": 0.5818777292576419,
      "grad_norm": 0.972195996633417,
      "learning_rate": 1.6491813916967246e-05,
      "loss": 0.8359,
      "step": 533
    },
    {
      "epoch": 0.5829694323144105,
      "grad_norm": 0.9930463512342607,
      "learning_rate": 1.64784691205616e-05,
      "loss": 0.8135,
      "step": 534
    },
    {
      "epoch": 0.584061135371179,
      "grad_norm": 1.0417164111837445,
      "learning_rate": 1.646510441302097e-05,
      "loss": 0.8224,
      "step": 535
    },
    {
      "epoch": 0.5851528384279476,
      "grad_norm": 1.6731855789988992,
      "learning_rate": 1.645171983542088e-05,
      "loss": 0.8745,
      "step": 536
    },
    {
      "epoch": 0.5862445414847162,
      "grad_norm": 1.0085925032008127,
      "learning_rate": 1.6438315428897914e-05,
      "loss": 0.8359,
      "step": 537
    },
    {
      "epoch": 0.5873362445414847,
      "grad_norm": 1.1694220636353037,
      "learning_rate": 1.642489123464962e-05,
      "loss": 0.8165,
      "step": 538
    },
    {
      "epoch": 0.5884279475982532,
      "grad_norm": 1.0570727108856277,
      "learning_rate": 1.641144729393433e-05,
      "loss": 0.8999,
      "step": 539
    },
    {
      "epoch": 0.5895196506550219,
      "grad_norm": 0.9871206084931676,
      "learning_rate": 1.6397983648071093e-05,
      "loss": 0.8631,
      "step": 540
    },
    {
      "epoch": 0.5906113537117904,
      "grad_norm": 1.0832488292215814,
      "learning_rate": 1.638450033843951e-05,
      "loss": 0.8706,
      "step": 541
    },
    {
      "epoch": 0.5917030567685589,
      "grad_norm": 1.0499913565218573,
      "learning_rate": 1.6370997406479617e-05,
      "loss": 0.8278,
      "step": 542
    },
    {
      "epoch": 0.5927947598253275,
      "grad_norm": 0.988445718936173,
      "learning_rate": 1.635747489369176e-05,
      "loss": 0.778,
      "step": 543
    },
    {
      "epoch": 0.5938864628820961,
      "grad_norm": 1.1145601219811156,
      "learning_rate": 1.6343932841636455e-05,
      "loss": 0.8756,
      "step": 544
    },
    {
      "epoch": 0.5949781659388647,
      "grad_norm": 1.0274662465223996,
      "learning_rate": 1.6330371291934292e-05,
      "loss": 0.8715,
      "step": 545
    },
    {
      "epoch": 0.5960698689956332,
      "grad_norm": 0.9888929908537507,
      "learning_rate": 1.6316790286265764e-05,
      "loss": 0.8016,
      "step": 546
    },
    {
      "epoch": 0.5971615720524017,
      "grad_norm": 0.9800632578267566,
      "learning_rate": 1.6303189866371177e-05,
      "loss": 0.8186,
      "step": 547
    },
    {
      "epoch": 0.5982532751091703,
      "grad_norm": 1.0181022884649904,
      "learning_rate": 1.6289570074050492e-05,
      "loss": 0.7717,
      "step": 548
    },
    {
      "epoch": 0.5993449781659389,
      "grad_norm": 0.9931383725603153,
      "learning_rate": 1.627593095116322e-05,
      "loss": 0.8062,
      "step": 549
    },
    {
      "epoch": 0.6004366812227074,
      "grad_norm": 1.0565432388214935,
      "learning_rate": 1.6262272539628277e-05,
      "loss": 0.9332,
      "step": 550
    },
    {
      "epoch": 0.601528384279476,
      "grad_norm": 1.017358655586954,
      "learning_rate": 1.6248594881423866e-05,
      "loss": 0.8293,
      "step": 551
    },
    {
      "epoch": 0.6026200873362445,
      "grad_norm": 1.0564541094752922,
      "learning_rate": 1.6234898018587336e-05,
      "loss": 0.8108,
      "step": 552
    },
    {
      "epoch": 0.6037117903930131,
      "grad_norm": 1.0962662069798912,
      "learning_rate": 1.622118199321507e-05,
      "loss": 0.8118,
      "step": 553
    },
    {
      "epoch": 0.6048034934497817,
      "grad_norm": 1.0002035698397997,
      "learning_rate": 1.6207446847462338e-05,
      "loss": 0.8251,
      "step": 554
    },
    {
      "epoch": 0.6058951965065502,
      "grad_norm": 1.0362803709803372,
      "learning_rate": 1.619369262354318e-05,
      "loss": 0.831,
      "step": 555
    },
    {
      "epoch": 0.6069868995633187,
      "grad_norm": 1.0350272517706043,
      "learning_rate": 1.617991936373027e-05,
      "loss": 0.8296,
      "step": 556
    },
    {
      "epoch": 0.6080786026200873,
      "grad_norm": 1.022295830165343,
      "learning_rate": 1.6166127110354778e-05,
      "loss": 0.8439,
      "step": 557
    },
    {
      "epoch": 0.6091703056768559,
      "grad_norm": 1.0036104581770837,
      "learning_rate": 1.615231590580627e-05,
      "loss": 0.8274,
      "step": 558
    },
    {
      "epoch": 0.6102620087336245,
      "grad_norm": 1.0625230714531217,
      "learning_rate": 1.613848579253254e-05,
      "loss": 0.8444,
      "step": 559
    },
    {
      "epoch": 0.611353711790393,
      "grad_norm": 0.9795637534852265,
      "learning_rate": 1.6124636813039502e-05,
      "loss": 0.8321,
      "step": 560
    },
    {
      "epoch": 0.6124454148471615,
      "grad_norm": 1.032960466441184,
      "learning_rate": 1.6110769009891055e-05,
      "loss": 0.8488,
      "step": 561
    },
    {
      "epoch": 0.6135371179039302,
      "grad_norm": 1.0248084792381282,
      "learning_rate": 1.6096882425708953e-05,
      "loss": 0.8687,
      "step": 562
    },
    {
      "epoch": 0.6146288209606987,
      "grad_norm": 1.1858913840076635,
      "learning_rate": 1.6082977103172664e-05,
      "loss": 0.883,
      "step": 563
    },
    {
      "epoch": 0.6157205240174672,
      "grad_norm": 0.969580319658712,
      "learning_rate": 1.6069053085019258e-05,
      "loss": 0.7961,
      "step": 564
    },
    {
      "epoch": 0.6168122270742358,
      "grad_norm": 1.0003293992792357,
      "learning_rate": 1.605511041404326e-05,
      "loss": 0.8077,
      "step": 565
    },
    {
      "epoch": 0.6179039301310044,
      "grad_norm": 1.1047881958890635,
      "learning_rate": 1.6041149133096515e-05,
      "loss": 0.9151,
      "step": 566
    },
    {
      "epoch": 0.618995633187773,
      "grad_norm": 1.0577490044445212,
      "learning_rate": 1.6027169285088074e-05,
      "loss": 0.8326,
      "step": 567
    },
    {
      "epoch": 0.6200873362445415,
      "grad_norm": 0.9662357738547696,
      "learning_rate": 1.601317091298406e-05,
      "loss": 0.8242,
      "step": 568
    },
    {
      "epoch": 0.62117903930131,
      "grad_norm": 1.0086707551521494,
      "learning_rate": 1.599915405980751e-05,
      "loss": 0.8419,
      "step": 569
    },
    {
      "epoch": 0.6222707423580786,
      "grad_norm": 1.0265853989002143,
      "learning_rate": 1.5985118768638276e-05,
      "loss": 0.8381,
      "step": 570
    },
    {
      "epoch": 0.6233624454148472,
      "grad_norm": 1.0364995286049488,
      "learning_rate": 1.5971065082612866e-05,
      "loss": 0.8099,
      "step": 571
    },
    {
      "epoch": 0.6244541484716157,
      "grad_norm": 1.0536821607548954,
      "learning_rate": 1.5956993044924334e-05,
      "loss": 0.8965,
      "step": 572
    },
    {
      "epoch": 0.6255458515283843,
      "grad_norm": 1.0587477022760539,
      "learning_rate": 1.5942902698822136e-05,
      "loss": 0.8344,
      "step": 573
    },
    {
      "epoch": 0.6266375545851528,
      "grad_norm": 1.045882932961161,
      "learning_rate": 1.5928794087611988e-05,
      "loss": 0.7895,
      "step": 574
    },
    {
      "epoch": 0.6277292576419214,
      "grad_norm": 1.0497652337308017,
      "learning_rate": 1.5914667254655748e-05,
      "loss": 0.8299,
      "step": 575
    },
    {
      "epoch": 0.62882096069869,
      "grad_norm": 1.0354764635928753,
      "learning_rate": 1.5900522243371283e-05,
      "loss": 0.8605,
      "step": 576
    },
    {
      "epoch": 0.6299126637554585,
      "grad_norm": 0.9667502333640907,
      "learning_rate": 1.5886359097232324e-05,
      "loss": 0.8035,
      "step": 577
    },
    {
      "epoch": 0.631004366812227,
      "grad_norm": 1.153930271061058,
      "learning_rate": 1.5872177859768336e-05,
      "loss": 0.7997,
      "step": 578
    },
    {
      "epoch": 0.6320960698689956,
      "grad_norm": 1.0450063972970456,
      "learning_rate": 1.585797857456439e-05,
      "loss": 0.829,
      "step": 579
    },
    {
      "epoch": 0.6331877729257642,
      "grad_norm": 0.9617190100950247,
      "learning_rate": 1.5843761285261027e-05,
      "loss": 0.8408,
      "step": 580
    },
    {
      "epoch": 0.6342794759825328,
      "grad_norm": 0.9913810116496855,
      "learning_rate": 1.582952603555412e-05,
      "loss": 0.7985,
      "step": 581
    },
    {
      "epoch": 0.6353711790393013,
      "grad_norm": 1.0861455006638756,
      "learning_rate": 1.581527286919474e-05,
      "loss": 0.8731,
      "step": 582
    },
    {
      "epoch": 0.6364628820960698,
      "grad_norm": 1.0258830351125474,
      "learning_rate": 1.580100182998903e-05,
      "loss": 0.82,
      "step": 583
    },
    {
      "epoch": 0.6375545851528385,
      "grad_norm": 1.0262414051479618,
      "learning_rate": 1.578671296179806e-05,
      "loss": 0.8687,
      "step": 584
    },
    {
      "epoch": 0.638646288209607,
      "grad_norm": 1.017254662022287,
      "learning_rate": 1.5772406308537692e-05,
      "loss": 0.8775,
      "step": 585
    },
    {
      "epoch": 0.6397379912663755,
      "grad_norm": 0.9719658760673426,
      "learning_rate": 1.5758081914178457e-05,
      "loss": 0.763,
      "step": 586
    },
    {
      "epoch": 0.6408296943231441,
      "grad_norm": 1.0125128698206225,
      "learning_rate": 1.5743739822745405e-05,
      "loss": 0.8296,
      "step": 587
    },
    {
      "epoch": 0.6419213973799127,
      "grad_norm": 0.9521846071912784,
      "learning_rate": 1.5729380078317982e-05,
      "loss": 0.7994,
      "step": 588
    },
    {
      "epoch": 0.6430131004366813,
      "grad_norm": 0.9605098428504907,
      "learning_rate": 1.5715002725029893e-05,
      "loss": 0.8023,
      "step": 589
    },
    {
      "epoch": 0.6441048034934498,
      "grad_norm": 1.0140159283483732,
      "learning_rate": 1.5700607807068946e-05,
      "loss": 0.7785,
      "step": 590
    },
    {
      "epoch": 0.6451965065502183,
      "grad_norm": 0.9692730437519576,
      "learning_rate": 1.5686195368676954e-05,
      "loss": 0.8041,
      "step": 591
    },
    {
      "epoch": 0.6462882096069869,
      "grad_norm": 0.9749041091602636,
      "learning_rate": 1.5671765454149558e-05,
      "loss": 0.8173,
      "step": 592
    },
    {
      "epoch": 0.6473799126637555,
      "grad_norm": 1.0355433585794054,
      "learning_rate": 1.5657318107836133e-05,
      "loss": 0.8306,
      "step": 593
    },
    {
      "epoch": 0.648471615720524,
      "grad_norm": 1.0032727193309083,
      "learning_rate": 1.564285337413961e-05,
      "loss": 0.8293,
      "step": 594
    },
    {
      "epoch": 0.6495633187772926,
      "grad_norm": 0.989829163598842,
      "learning_rate": 1.5628371297516364e-05,
      "loss": 0.8961,
      "step": 595
    },
    {
      "epoch": 0.6506550218340611,
      "grad_norm": 1.0382291038720708,
      "learning_rate": 1.5613871922476082e-05,
      "loss": 0.841,
      "step": 596
    },
    {
      "epoch": 0.6517467248908297,
      "grad_norm": 0.9462720396951789,
      "learning_rate": 1.5599355293581598e-05,
      "loss": 0.8017,
      "step": 597
    },
    {
      "epoch": 0.6528384279475983,
      "grad_norm": 1.0098732664768768,
      "learning_rate": 1.558482145544879e-05,
      "loss": 0.8493,
      "step": 598
    },
    {
      "epoch": 0.6539301310043668,
      "grad_norm": 1.0161614656932214,
      "learning_rate": 1.5570270452746426e-05,
      "loss": 0.8675,
      "step": 599
    },
    {
      "epoch": 0.6550218340611353,
      "grad_norm": 1.0205394808315873,
      "learning_rate": 1.5555702330196024e-05,
      "loss": 0.8065,
      "step": 600
    },
    {
      "epoch": 0.6561135371179039,
      "grad_norm": 1.0215903373863715,
      "learning_rate": 1.5541117132571718e-05,
      "loss": 0.8406,
      "step": 601
    },
    {
      "epoch": 0.6572052401746725,
      "grad_norm": 0.9730755603144055,
      "learning_rate": 1.552651490470012e-05,
      "loss": 0.8315,
      "step": 602
    },
    {
      "epoch": 0.6582969432314411,
      "grad_norm": 0.9720694505211114,
      "learning_rate": 1.5511895691460187e-05,
      "loss": 0.82,
      "step": 603
    },
    {
      "epoch": 0.6593886462882096,
      "grad_norm": 0.9647496450135179,
      "learning_rate": 1.5497259537783084e-05,
      "loss": 0.8889,
      "step": 604
    },
    {
      "epoch": 0.6604803493449781,
      "grad_norm": 1.0148430437286953,
      "learning_rate": 1.548260648865203e-05,
      "loss": 0.8047,
      "step": 605
    },
    {
      "epoch": 0.6615720524017468,
      "grad_norm": 0.9817255120479763,
      "learning_rate": 1.546793658910218e-05,
      "loss": 0.8596,
      "step": 606
    },
    {
      "epoch": 0.6626637554585153,
      "grad_norm": 1.026775560362339,
      "learning_rate": 1.5453249884220466e-05,
      "loss": 0.8419,
      "step": 607
    },
    {
      "epoch": 0.6637554585152838,
      "grad_norm": 1.1049484132912009,
      "learning_rate": 1.543854641914549e-05,
      "loss": 0.8032,
      "step": 608
    },
    {
      "epoch": 0.6648471615720524,
      "grad_norm": 0.9987731135942097,
      "learning_rate": 1.5423826239067342e-05,
      "loss": 0.8059,
      "step": 609
    },
    {
      "epoch": 0.665938864628821,
      "grad_norm": 1.00693504079384,
      "learning_rate": 1.540908938922751e-05,
      "loss": 0.807,
      "step": 610
    },
    {
      "epoch": 0.6670305676855895,
      "grad_norm": 0.9953626555716258,
      "learning_rate": 1.539433591491869e-05,
      "loss": 0.7989,
      "step": 611
    },
    {
      "epoch": 0.6681222707423581,
      "grad_norm": 1.0935727179499282,
      "learning_rate": 1.537956586148469e-05,
      "loss": 0.8398,
      "step": 612
    },
    {
      "epoch": 0.6692139737991266,
      "grad_norm": 0.9861802448122945,
      "learning_rate": 1.5364779274320255e-05,
      "loss": 0.8345,
      "step": 613
    },
    {
      "epoch": 0.6703056768558951,
      "grad_norm": 0.9973751361236348,
      "learning_rate": 1.5349976198870974e-05,
      "loss": 0.8042,
      "step": 614
    },
    {
      "epoch": 0.6713973799126638,
      "grad_norm": 0.9648172303786421,
      "learning_rate": 1.5335156680633082e-05,
      "loss": 0.838,
      "step": 615
    },
    {
      "epoch": 0.6724890829694323,
      "grad_norm": 0.9845493228154923,
      "learning_rate": 1.5320320765153367e-05,
      "loss": 0.7666,
      "step": 616
    },
    {
      "epoch": 0.6735807860262009,
      "grad_norm": 1.0080145421206512,
      "learning_rate": 1.5305468498029007e-05,
      "loss": 0.8443,
      "step": 617
    },
    {
      "epoch": 0.6746724890829694,
      "grad_norm": 0.9849749457287591,
      "learning_rate": 1.5290599924907435e-05,
      "loss": 0.7828,
      "step": 618
    },
    {
      "epoch": 0.675764192139738,
      "grad_norm": 1.0107001619234208,
      "learning_rate": 1.5275715091486204e-05,
      "loss": 0.8223,
      "step": 619
    },
    {
      "epoch": 0.6768558951965066,
      "grad_norm": 0.9984295630646346,
      "learning_rate": 1.5260814043512838e-05,
      "loss": 0.837,
      "step": 620
    },
    {
      "epoch": 0.6779475982532751,
      "grad_norm": 1.0516480526589032,
      "learning_rate": 1.5245896826784689e-05,
      "loss": 0.8818,
      "step": 621
    },
    {
      "epoch": 0.6790393013100436,
      "grad_norm": 0.9985462599845958,
      "learning_rate": 1.5230963487148822e-05,
      "loss": 0.8257,
      "step": 622
    },
    {
      "epoch": 0.6801310043668122,
      "grad_norm": 0.9880543567496975,
      "learning_rate": 1.5216014070501835e-05,
      "loss": 0.8242,
      "step": 623
    },
    {
      "epoch": 0.6812227074235808,
      "grad_norm": 0.9800412772988228,
      "learning_rate": 1.5201048622789747e-05,
      "loss": 0.7912,
      "step": 624
    },
    {
      "epoch": 0.6823144104803494,
      "grad_norm": 1.0599364829335567,
      "learning_rate": 1.5186067190007845e-05,
      "loss": 0.8358,
      "step": 625
    },
    {
      "epoch": 0.6834061135371179,
      "grad_norm": 1.0253996895351853,
      "learning_rate": 1.5171069818200548e-05,
      "loss": 0.8223,
      "step": 626
    },
    {
      "epoch": 0.6844978165938864,
      "grad_norm": 1.0282350221027587,
      "learning_rate": 1.5156056553461253e-05,
      "loss": 0.8907,
      "step": 627
    },
    {
      "epoch": 0.6855895196506551,
      "grad_norm": 1.0008290193674836,
      "learning_rate": 1.5141027441932217e-05,
      "loss": 0.8469,
      "step": 628
    },
    {
      "epoch": 0.6866812227074236,
      "grad_norm": 1.0547981484639382,
      "learning_rate": 1.5125982529804395e-05,
      "loss": 0.8504,
      "step": 629
    },
    {
      "epoch": 0.6877729257641921,
      "grad_norm": 1.0040270469408357,
      "learning_rate": 1.5110921863317293e-05,
      "loss": 0.8332,
      "step": 630
    },
    {
      "epoch": 0.6888646288209607,
      "grad_norm": 1.00200157878387,
      "learning_rate": 1.5095845488758856e-05,
      "loss": 0.8376,
      "step": 631
    },
    {
      "epoch": 0.6899563318777293,
      "grad_norm": 1.0293568144498755,
      "learning_rate": 1.5080753452465296e-05,
      "loss": 0.8075,
      "step": 632
    },
    {
      "epoch": 0.6910480349344978,
      "grad_norm": 0.9591396587673909,
      "learning_rate": 1.506564580082096e-05,
      "loss": 0.7595,
      "step": 633
    },
    {
      "epoch": 0.6921397379912664,
      "grad_norm": 0.9958045992810253,
      "learning_rate": 1.5050522580258189e-05,
      "loss": 0.8148,
      "step": 634
    },
    {
      "epoch": 0.6932314410480349,
      "grad_norm": 0.9936759756949013,
      "learning_rate": 1.5035383837257178e-05,
      "loss": 0.8383,
      "step": 635
    },
    {
      "epoch": 0.6943231441048034,
      "grad_norm": 1.0056214166764363,
      "learning_rate": 1.502022961834582e-05,
      "loss": 0.8701,
      "step": 636
    },
    {
      "epoch": 0.6954148471615721,
      "grad_norm": 0.9796346831092025,
      "learning_rate": 1.5005059970099585e-05,
      "loss": 0.7997,
      "step": 637
    },
    {
      "epoch": 0.6965065502183406,
      "grad_norm": 1.0131184460971026,
      "learning_rate": 1.498987493914135e-05,
      "loss": 0.8516,
      "step": 638
    },
    {
      "epoch": 0.6975982532751092,
      "grad_norm": 1.0026902211337145,
      "learning_rate": 1.4974674572141286e-05,
      "loss": 0.8475,
      "step": 639
    },
    {
      "epoch": 0.6986899563318777,
      "grad_norm": 0.9965791230499381,
      "learning_rate": 1.4959458915816681e-05,
      "loss": 0.8906,
      "step": 640
    },
    {
      "epoch": 0.6997816593886463,
      "grad_norm": 0.9896333605024169,
      "learning_rate": 1.494422801693182e-05,
      "loss": 0.8038,
      "step": 641
    },
    {
      "epoch": 0.7008733624454149,
      "grad_norm": 0.9841965630548845,
      "learning_rate": 1.4928981922297842e-05,
      "loss": 0.8416,
      "step": 642
    },
    {
      "epoch": 0.7019650655021834,
      "grad_norm": 0.9632646796327432,
      "learning_rate": 1.4913720678772584e-05,
      "loss": 0.848,
      "step": 643
    },
    {
      "epoch": 0.7030567685589519,
      "grad_norm": 0.9903855092333864,
      "learning_rate": 1.4898444333260436e-05,
      "loss": 0.8272,
      "step": 644
    },
    {
      "epoch": 0.7041484716157205,
      "grad_norm": 3.8909126325326695,
      "learning_rate": 1.4883152932712218e-05,
      "loss": 0.8821,
      "step": 645
    },
    {
      "epoch": 0.7052401746724891,
      "grad_norm": 1.0038664828829962,
      "learning_rate": 1.4867846524125e-05,
      "loss": 0.8273,
      "step": 646
    },
    {
      "epoch": 0.7063318777292577,
      "grad_norm": 1.024727549894026,
      "learning_rate": 1.4852525154541999e-05,
      "loss": 0.8376,
      "step": 647
    },
    {
      "epoch": 0.7074235807860262,
      "grad_norm": 0.9943881502376688,
      "learning_rate": 1.4837188871052399e-05,
      "loss": 0.8115,
      "step": 648
    },
    {
      "epoch": 0.7085152838427947,
      "grad_norm": 1.0008529422042372,
      "learning_rate": 1.482183772079123e-05,
      "loss": 0.7906,
      "step": 649
    },
    {
      "epoch": 0.7096069868995634,
      "grad_norm": 1.0074406981986863,
      "learning_rate": 1.4806471750939206e-05,
      "loss": 0.8472,
      "step": 650
    },
    {
      "epoch": 0.7106986899563319,
      "grad_norm": 1.10207681776356,
      "learning_rate": 1.4791091008722593e-05,
      "loss": 0.8346,
      "step": 651
    },
    {
      "epoch": 0.7117903930131004,
      "grad_norm": 0.9495604250061768,
      "learning_rate": 1.4775695541413063e-05,
      "loss": 0.7643,
      "step": 652
    },
    {
      "epoch": 0.712882096069869,
      "grad_norm": 0.9705689287173537,
      "learning_rate": 1.4760285396327531e-05,
      "loss": 0.8515,
      "step": 653
    },
    {
      "epoch": 0.7139737991266376,
      "grad_norm": 0.9943072279076429,
      "learning_rate": 1.4744860620828034e-05,
      "loss": 0.8581,
      "step": 654
    },
    {
      "epoch": 0.7150655021834061,
      "grad_norm": 0.9500837414179008,
      "learning_rate": 1.472942126232158e-05,
      "loss": 0.8083,
      "step": 655
    },
    {
      "epoch": 0.7161572052401747,
      "grad_norm": 1.4508128085431165,
      "learning_rate": 1.4713967368259981e-05,
      "loss": 0.8757,
      "step": 656
    },
    {
      "epoch": 0.7172489082969432,
      "grad_norm": 1.041912264343576,
      "learning_rate": 1.469849898613973e-05,
      "loss": 0.818,
      "step": 657
    },
    {
      "epoch": 0.7183406113537117,
      "grad_norm": 1.0169681097871424,
      "learning_rate": 1.4683016163501855e-05,
      "loss": 0.8569,
      "step": 658
    },
    {
      "epoch": 0.7194323144104804,
      "grad_norm": 0.9732885384099658,
      "learning_rate": 1.4667518947931757e-05,
      "loss": 0.8028,
      "step": 659
    },
    {
      "epoch": 0.7205240174672489,
      "grad_norm": 1.2877849023116021,
      "learning_rate": 1.4652007387059077e-05,
      "loss": 0.8654,
      "step": 660
    },
    {
      "epoch": 0.7216157205240175,
      "grad_norm": 1.0208222523058725,
      "learning_rate": 1.4636481528557545e-05,
      "loss": 0.8167,
      "step": 661
    },
    {
      "epoch": 0.722707423580786,
      "grad_norm": 1.0154911130890327,
      "learning_rate": 1.4620941420144828e-05,
      "loss": 0.836,
      "step": 662
    },
    {
      "epoch": 0.7237991266375546,
      "grad_norm": 0.9613442159161312,
      "learning_rate": 1.4605387109582401e-05,
      "loss": 0.8037,
      "step": 663
    },
    {
      "epoch": 0.7248908296943232,
      "grad_norm": 0.9931794657816619,
      "learning_rate": 1.4589818644675378e-05,
      "loss": 0.8241,
      "step": 664
    },
    {
      "epoch": 0.7259825327510917,
      "grad_norm": 0.9625916354044245,
      "learning_rate": 1.4574236073272379e-05,
      "loss": 0.8558,
      "step": 665
    },
    {
      "epoch": 0.7270742358078602,
      "grad_norm": 1.0561559338430706,
      "learning_rate": 1.4558639443265379e-05,
      "loss": 0.8742,
      "step": 666
    },
    {
      "epoch": 0.7281659388646288,
      "grad_norm": 0.9754063417758851,
      "learning_rate": 1.4543028802589563e-05,
      "loss": 0.7826,
      "step": 667
    },
    {
      "epoch": 0.7292576419213974,
      "grad_norm": 1.009620594905663,
      "learning_rate": 1.4527404199223173e-05,
      "loss": 0.8012,
      "step": 668
    },
    {
      "epoch": 0.730349344978166,
      "grad_norm": 1.038359143146164,
      "learning_rate": 1.4511765681187364e-05,
      "loss": 0.8892,
      "step": 669
    },
    {
      "epoch": 0.7314410480349345,
      "grad_norm": 0.9782108925488974,
      "learning_rate": 1.4496113296546068e-05,
      "loss": 0.8092,
      "step": 670
    },
    {
      "epoch": 0.732532751091703,
      "grad_norm": 0.9715884651492042,
      "learning_rate": 1.4480447093405818e-05,
      "loss": 0.8014,
      "step": 671
    },
    {
      "epoch": 0.7336244541484717,
      "grad_norm": 1.007135724554551,
      "learning_rate": 1.446476711991563e-05,
      "loss": 0.841,
      "step": 672
    },
    {
      "epoch": 0.7347161572052402,
      "grad_norm": 1.023383297219398,
      "learning_rate": 1.4449073424266838e-05,
      "loss": 0.8613,
      "step": 673
    },
    {
      "epoch": 0.7358078602620087,
      "grad_norm": 0.9493751859457114,
      "learning_rate": 1.443336605469295e-05,
      "loss": 0.7889,
      "step": 674
    },
    {
      "epoch": 0.7368995633187773,
      "grad_norm": 0.9955853874545515,
      "learning_rate": 1.4417645059469498e-05,
      "loss": 0.7985,
      "step": 675
    },
    {
      "epoch": 0.7379912663755459,
      "grad_norm": 1.0282733377323727,
      "learning_rate": 1.4401910486913892e-05,
      "loss": 0.9445,
      "step": 676
    },
    {
      "epoch": 0.7390829694323144,
      "grad_norm": 0.980370554149024,
      "learning_rate": 1.4386162385385279e-05,
      "loss": 0.8207,
      "step": 677
    },
    {
      "epoch": 0.740174672489083,
      "grad_norm": 0.9763214279020056,
      "learning_rate": 1.4370400803284374e-05,
      "loss": 0.8163,
      "step": 678
    },
    {
      "epoch": 0.7412663755458515,
      "grad_norm": 0.9963883849643623,
      "learning_rate": 1.4354625789053328e-05,
      "loss": 0.8186,
      "step": 679
    },
    {
      "epoch": 0.74235807860262,
      "grad_norm": 1.019333715035063,
      "learning_rate": 1.4338837391175582e-05,
      "loss": 0.8846,
      "step": 680
    },
    {
      "epoch": 0.7434497816593887,
      "grad_norm": 1.077615669208836,
      "learning_rate": 1.4323035658175704e-05,
      "loss": 0.8719,
      "step": 681
    },
    {
      "epoch": 0.7445414847161572,
      "grad_norm": 0.9937937975792568,
      "learning_rate": 1.4307220638619244e-05,
      "loss": 0.8384,
      "step": 682
    },
    {
      "epoch": 0.7456331877729258,
      "grad_norm": 0.9956760675459271,
      "learning_rate": 1.429139238111259e-05,
      "loss": 0.8223,
      "step": 683
    },
    {
      "epoch": 0.7467248908296943,
      "grad_norm": 1.0534388480179164,
      "learning_rate": 1.4275550934302822e-05,
      "loss": 0.8904,
      "step": 684
    },
    {
      "epoch": 0.7478165938864629,
      "grad_norm": 0.9891840917951243,
      "learning_rate": 1.425969634687755e-05,
      "loss": 0.8517,
      "step": 685
    },
    {
      "epoch": 0.7489082969432315,
      "grad_norm": 0.9724996527026983,
      "learning_rate": 1.4243828667564767e-05,
      "loss": 0.8238,
      "step": 686
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0032474069614845,
      "learning_rate": 1.4227947945132713e-05,
      "loss": 0.7726,
      "step": 687
    },
    {
      "epoch": 0.7510917030567685,
      "grad_norm": 0.9752454481407052,
      "learning_rate": 1.4212054228389712e-05,
      "loss": 0.8083,
      "step": 688
    },
    {
      "epoch": 0.7521834061135371,
      "grad_norm": 0.9852688832956603,
      "learning_rate": 1.4196147566184015e-05,
      "loss": 0.7867,
      "step": 689
    },
    {
      "epoch": 0.7532751091703057,
      "grad_norm": 0.9922343292070561,
      "learning_rate": 1.4180228007403676e-05,
      "loss": 0.7682,
      "step": 690
    },
    {
      "epoch": 0.7543668122270742,
      "grad_norm": 1.0006760093721123,
      "learning_rate": 1.4164295600976375e-05,
      "loss": 0.8416,
      "step": 691
    },
    {
      "epoch": 0.7554585152838428,
      "grad_norm": 1.0692995514756525,
      "learning_rate": 1.4148350395869279e-05,
      "loss": 0.8199,
      "step": 692
    },
    {
      "epoch": 0.7565502183406113,
      "grad_norm": 1.0115666503549918,
      "learning_rate": 1.41323924410889e-05,
      "loss": 0.8207,
      "step": 693
    },
    {
      "epoch": 0.75764192139738,
      "grad_norm": 0.9985469312353209,
      "learning_rate": 1.4116421785680923e-05,
      "loss": 0.8245,
      "step": 694
    },
    {
      "epoch": 0.7587336244541485,
      "grad_norm": 1.0816992231207874,
      "learning_rate": 1.4100438478730074e-05,
      "loss": 0.8371,
      "step": 695
    },
    {
      "epoch": 0.759825327510917,
      "grad_norm": 1.0649304459633577,
      "learning_rate": 1.4084442569359964e-05,
      "loss": 0.8275,
      "step": 696
    },
    {
      "epoch": 0.7609170305676856,
      "grad_norm": 1.003656248934757,
      "learning_rate": 1.406843410673293e-05,
      "loss": 0.8172,
      "step": 697
    },
    {
      "epoch": 0.7620087336244541,
      "grad_norm": 1.0822301460173938,
      "learning_rate": 1.4052413140049898e-05,
      "loss": 0.8934,
      "step": 698
    },
    {
      "epoch": 0.7631004366812227,
      "grad_norm": 1.055975845987622,
      "learning_rate": 1.4036379718550225e-05,
      "loss": 0.845,
      "step": 699
    },
    {
      "epoch": 0.7641921397379913,
      "grad_norm": 1.0606490574993288,
      "learning_rate": 1.4020333891511536e-05,
      "loss": 0.7901,
      "step": 700
    },
    {
      "epoch": 0.7652838427947598,
      "grad_norm": 1.0385150349981462,
      "learning_rate": 1.4004275708249595e-05,
      "loss": 0.8014,
      "step": 701
    },
    {
      "epoch": 0.7663755458515283,
      "grad_norm": 0.9881125405362946,
      "learning_rate": 1.3988205218118141e-05,
      "loss": 0.789,
      "step": 702
    },
    {
      "epoch": 0.767467248908297,
      "grad_norm": 1.0535630478031675,
      "learning_rate": 1.3972122470508726e-05,
      "loss": 0.7994,
      "step": 703
    },
    {
      "epoch": 0.7685589519650655,
      "grad_norm": 1.0448192241712306,
      "learning_rate": 1.395602751485059e-05,
      "loss": 0.756,
      "step": 704
    },
    {
      "epoch": 0.769650655021834,
      "grad_norm": 1.0813049250435902,
      "learning_rate": 1.3939920400610483e-05,
      "loss": 0.8495,
      "step": 705
    },
    {
      "epoch": 0.7707423580786026,
      "grad_norm": 1.0177428362399865,
      "learning_rate": 1.3923801177292529e-05,
      "loss": 0.7897,
      "step": 706
    },
    {
      "epoch": 0.7718340611353712,
      "grad_norm": 1.0840063917332026,
      "learning_rate": 1.3907669894438064e-05,
      "loss": 0.8305,
      "step": 707
    },
    {
      "epoch": 0.7729257641921398,
      "grad_norm": 0.9788916341571317,
      "learning_rate": 1.3891526601625492e-05,
      "loss": 0.8272,
      "step": 708
    },
    {
      "epoch": 0.7740174672489083,
      "grad_norm": 0.9777606860616397,
      "learning_rate": 1.3875371348470129e-05,
      "loss": 0.8552,
      "step": 709
    },
    {
      "epoch": 0.7751091703056768,
      "grad_norm": 1.0397782609951218,
      "learning_rate": 1.3859204184624047e-05,
      "loss": 0.8109,
      "step": 710
    },
    {
      "epoch": 0.7762008733624454,
      "grad_norm": 1.0649447413206765,
      "learning_rate": 1.3843025159775924e-05,
      "loss": 0.7934,
      "step": 711
    },
    {
      "epoch": 0.777292576419214,
      "grad_norm": 1.7969971151980717,
      "learning_rate": 1.3826834323650899e-05,
      "loss": 0.8874,
      "step": 712
    },
    {
      "epoch": 0.7783842794759825,
      "grad_norm": 1.033106462716774,
      "learning_rate": 1.3810631726010405e-05,
      "loss": 0.8803,
      "step": 713
    },
    {
      "epoch": 0.7794759825327511,
      "grad_norm": 0.9897248814519977,
      "learning_rate": 1.3794417416652027e-05,
      "loss": 0.7928,
      "step": 714
    },
    {
      "epoch": 0.7805676855895196,
      "grad_norm": 0.9478712783580292,
      "learning_rate": 1.3778191445409341e-05,
      "loss": 0.7599,
      "step": 715
    },
    {
      "epoch": 0.7816593886462883,
      "grad_norm": 0.9953969385209082,
      "learning_rate": 1.3761953862151773e-05,
      "loss": 0.7623,
      "step": 716
    },
    {
      "epoch": 0.7827510917030568,
      "grad_norm": 1.0020597019618507,
      "learning_rate": 1.3745704716784429e-05,
      "loss": 0.8438,
      "step": 717
    },
    {
      "epoch": 0.7838427947598253,
      "grad_norm": 0.9726051950466007,
      "learning_rate": 1.3729444059247954e-05,
      "loss": 0.8263,
      "step": 718
    },
    {
      "epoch": 0.7849344978165939,
      "grad_norm": 0.9722458304302996,
      "learning_rate": 1.3713171939518378e-05,
      "loss": 0.834,
      "step": 719
    },
    {
      "epoch": 0.7860262008733624,
      "grad_norm": 0.9944927083101299,
      "learning_rate": 1.3696888407606952e-05,
      "loss": 0.8046,
      "step": 720
    },
    {
      "epoch": 0.787117903930131,
      "grad_norm": 0.9894755603020594,
      "learning_rate": 1.3680593513560006e-05,
      "loss": 0.8194,
      "step": 721
    },
    {
      "epoch": 0.7882096069868996,
      "grad_norm": 0.9922031547192685,
      "learning_rate": 1.3664287307458794e-05,
      "loss": 0.7997,
      "step": 722
    },
    {
      "epoch": 0.7893013100436681,
      "grad_norm": 0.9985883461042631,
      "learning_rate": 1.3647969839419335e-05,
      "loss": 0.7659,
      "step": 723
    },
    {
      "epoch": 0.7903930131004366,
      "grad_norm": 0.986557355767747,
      "learning_rate": 1.3631641159592253e-05,
      "loss": 0.8137,
      "step": 724
    },
    {
      "epoch": 0.7914847161572053,
      "grad_norm": 0.9830438907910151,
      "learning_rate": 1.3615301318162635e-05,
      "loss": 0.7841,
      "step": 725
    },
    {
      "epoch": 0.7925764192139738,
      "grad_norm": 1.001586575147818,
      "learning_rate": 1.3598950365349884e-05,
      "loss": 0.8088,
      "step": 726
    },
    {
      "epoch": 0.7936681222707423,
      "grad_norm": 1.0781375127128376,
      "learning_rate": 1.3582588351407537e-05,
      "loss": 0.8293,
      "step": 727
    },
    {
      "epoch": 0.7947598253275109,
      "grad_norm": 1.1457870849091742,
      "learning_rate": 1.3566215326623131e-05,
      "loss": 0.8932,
      "step": 728
    },
    {
      "epoch": 0.7958515283842795,
      "grad_norm": 1.0582361940933662,
      "learning_rate": 1.3549831341318052e-05,
      "loss": 0.8197,
      "step": 729
    },
    {
      "epoch": 0.7969432314410481,
      "grad_norm": 1.0009241462708363,
      "learning_rate": 1.353343644584736e-05,
      "loss": 0.818,
      "step": 730
    },
    {
      "epoch": 0.7980349344978166,
      "grad_norm": 1.0258247342217293,
      "learning_rate": 1.3517030690599662e-05,
      "loss": 0.8336,
      "step": 731
    },
    {
      "epoch": 0.7991266375545851,
      "grad_norm": 1.0483528617887998,
      "learning_rate": 1.3500614125996924e-05,
      "loss": 0.8518,
      "step": 732
    },
    {
      "epoch": 0.8002183406113537,
      "grad_norm": 1.9936218017729914,
      "learning_rate": 1.3484186802494346e-05,
      "loss": 1.0314,
      "step": 733
    },
    {
      "epoch": 0.8013100436681223,
      "grad_norm": 1.0760885690226825,
      "learning_rate": 1.3467748770580193e-05,
      "loss": 0.8428,
      "step": 734
    },
    {
      "epoch": 0.8024017467248908,
      "grad_norm": 1.0295274834541253,
      "learning_rate": 1.3451300080775636e-05,
      "loss": 0.8959,
      "step": 735
    },
    {
      "epoch": 0.8034934497816594,
      "grad_norm": 1.0268868689300337,
      "learning_rate": 1.3434840783634611e-05,
      "loss": 0.8605,
      "step": 736
    },
    {
      "epoch": 0.8045851528384279,
      "grad_norm": 0.9868758942660906,
      "learning_rate": 1.341837092974365e-05,
      "loss": 0.7949,
      "step": 737
    },
    {
      "epoch": 0.8056768558951966,
      "grad_norm": 1.0273404591070299,
      "learning_rate": 1.3401890569721725e-05,
      "loss": 0.8387,
      "step": 738
    },
    {
      "epoch": 0.8067685589519651,
      "grad_norm": 0.9852739340152835,
      "learning_rate": 1.3385399754220108e-05,
      "loss": 0.822,
      "step": 739
    },
    {
      "epoch": 0.8078602620087336,
      "grad_norm": 1.0097657303789613,
      "learning_rate": 1.3368898533922202e-05,
      "loss": 0.8445,
      "step": 740
    },
    {
      "epoch": 0.8089519650655022,
      "grad_norm": 1.0349678711665362,
      "learning_rate": 1.3352386959543384e-05,
      "loss": 0.7618,
      "step": 741
    },
    {
      "epoch": 0.8100436681222707,
      "grad_norm": 0.9858077303095648,
      "learning_rate": 1.3335865081830858e-05,
      "loss": 0.8012,
      "step": 742
    },
    {
      "epoch": 0.8111353711790393,
      "grad_norm": 1.027171394985511,
      "learning_rate": 1.3319332951563495e-05,
      "loss": 0.8858,
      "step": 743
    },
    {
      "epoch": 0.8122270742358079,
      "grad_norm": 1.0435280920584542,
      "learning_rate": 1.3302790619551673e-05,
      "loss": 0.819,
      "step": 744
    },
    {
      "epoch": 0.8133187772925764,
      "grad_norm": 1.0102996172054506,
      "learning_rate": 1.3286238136637127e-05,
      "loss": 0.8205,
      "step": 745
    },
    {
      "epoch": 0.8144104803493449,
      "grad_norm": 0.9971006094968926,
      "learning_rate": 1.3269675553692787e-05,
      "loss": 0.8174,
      "step": 746
    },
    {
      "epoch": 0.8155021834061136,
      "grad_norm": 0.9767390708268943,
      "learning_rate": 1.3253102921622632e-05,
      "loss": 0.7789,
      "step": 747
    },
    {
      "epoch": 0.8165938864628821,
      "grad_norm": 1.0426302680146287,
      "learning_rate": 1.3236520291361516e-05,
      "loss": 0.8146,
      "step": 748
    },
    {
      "epoch": 0.8176855895196506,
      "grad_norm": 1.0470627534691905,
      "learning_rate": 1.3219927713875032e-05,
      "loss": 0.8336,
      "step": 749
    },
    {
      "epoch": 0.8187772925764192,
      "grad_norm": 0.9878917969348322,
      "learning_rate": 1.3203325240159337e-05,
      "loss": 0.7707,
      "step": 750
    },
    {
      "epoch": 0.8198689956331878,
      "grad_norm": 1.0293950449242155,
      "learning_rate": 1.3186712921241009e-05,
      "loss": 0.8195,
      "step": 751
    },
    {
      "epoch": 0.8209606986899564,
      "grad_norm": 0.9880792790798334,
      "learning_rate": 1.3170090808176883e-05,
      "loss": 0.8138,
      "step": 752
    },
    {
      "epoch": 0.8220524017467249,
      "grad_norm": 0.9819090021005722,
      "learning_rate": 1.315345895205389e-05,
      "loss": 0.8292,
      "step": 753
    },
    {
      "epoch": 0.8231441048034934,
      "grad_norm": 0.952640449487676,
      "learning_rate": 1.3136817403988918e-05,
      "loss": 0.7759,
      "step": 754
    },
    {
      "epoch": 0.824235807860262,
      "grad_norm": 1.015292142708617,
      "learning_rate": 1.3120166215128627e-05,
      "loss": 0.8593,
      "step": 755
    },
    {
      "epoch": 0.8253275109170306,
      "grad_norm": 1.0326420470098143,
      "learning_rate": 1.310350543664932e-05,
      "loss": 0.8247,
      "step": 756
    },
    {
      "epoch": 0.8264192139737991,
      "grad_norm": 0.9627929915911005,
      "learning_rate": 1.308683511975677e-05,
      "loss": 0.7897,
      "step": 757
    },
    {
      "epoch": 0.8275109170305677,
      "grad_norm": 0.9807703137353102,
      "learning_rate": 1.307015531568606e-05,
      "loss": 0.7854,
      "step": 758
    },
    {
      "epoch": 0.8286026200873362,
      "grad_norm": 0.977008775189795,
      "learning_rate": 1.305346607570144e-05,
      "loss": 0.8258,
      "step": 759
    },
    {
      "epoch": 0.8296943231441049,
      "grad_norm": 1.0039573606359118,
      "learning_rate": 1.3036767451096148e-05,
      "loss": 0.8637,
      "step": 760
    },
    {
      "epoch": 0.8307860262008734,
      "grad_norm": 0.956921364153981,
      "learning_rate": 1.3020059493192283e-05,
      "loss": 0.7328,
      "step": 761
    },
    {
      "epoch": 0.8318777292576419,
      "grad_norm": 0.9832469102700667,
      "learning_rate": 1.3003342253340613e-05,
      "loss": 0.8046,
      "step": 762
    },
    {
      "epoch": 0.8329694323144105,
      "grad_norm": 0.9511120035637255,
      "learning_rate": 1.298661578292044e-05,
      "loss": 0.7811,
      "step": 763
    },
    {
      "epoch": 0.834061135371179,
      "grad_norm": 1.0150460656045295,
      "learning_rate": 1.2969880133339437e-05,
      "loss": 0.8347,
      "step": 764
    },
    {
      "epoch": 0.8351528384279476,
      "grad_norm": 4.232566704644336,
      "learning_rate": 1.2953135356033486e-05,
      "loss": 1.0034,
      "step": 765
    },
    {
      "epoch": 0.8362445414847162,
      "grad_norm": 1.0186459299872372,
      "learning_rate": 1.2936381502466524e-05,
      "loss": 0.8563,
      "step": 766
    },
    {
      "epoch": 0.8373362445414847,
      "grad_norm": 1.0010625201169578,
      "learning_rate": 1.2919618624130381e-05,
      "loss": 0.8281,
      "step": 767
    },
    {
      "epoch": 0.8384279475982532,
      "grad_norm": 1.171817471878155,
      "learning_rate": 1.2902846772544625e-05,
      "loss": 0.8543,
      "step": 768
    },
    {
      "epoch": 0.8395196506550219,
      "grad_norm": 1.0444982899549722,
      "learning_rate": 1.2886065999256406e-05,
      "loss": 0.8222,
      "step": 769
    },
    {
      "epoch": 0.8406113537117904,
      "grad_norm": 1.0437254568671326,
      "learning_rate": 1.2869276355840288e-05,
      "loss": 0.8324,
      "step": 770
    },
    {
      "epoch": 0.8417030567685589,
      "grad_norm": 0.996507947428093,
      "learning_rate": 1.2852477893898101e-05,
      "loss": 0.8251,
      "step": 771
    },
    {
      "epoch": 0.8427947598253275,
      "grad_norm": 1.0479342824701492,
      "learning_rate": 1.2835670665058779e-05,
      "loss": 0.8522,
      "step": 772
    },
    {
      "epoch": 0.8438864628820961,
      "grad_norm": 1.0318373901517308,
      "learning_rate": 1.2818854720978198e-05,
      "loss": 0.7771,
      "step": 773
    },
    {
      "epoch": 0.8449781659388647,
      "grad_norm": 1.0112620173281517,
      "learning_rate": 1.2802030113339016e-05,
      "loss": 0.8526,
      "step": 774
    },
    {
      "epoch": 0.8460698689956332,
      "grad_norm": 1.079577680085193,
      "learning_rate": 1.2785196893850532e-05,
      "loss": 0.8896,
      "step": 775
    },
    {
      "epoch": 0.8471615720524017,
      "grad_norm": 0.9904092400676572,
      "learning_rate": 1.2768355114248493e-05,
      "loss": 0.7849,
      "step": 776
    },
    {
      "epoch": 0.8482532751091703,
      "grad_norm": 0.991007035893447,
      "learning_rate": 1.2751504826294971e-05,
      "loss": 0.7736,
      "step": 777
    },
    {
      "epoch": 0.8493449781659389,
      "grad_norm": 0.9944342662129599,
      "learning_rate": 1.273464608177818e-05,
      "loss": 0.7979,
      "step": 778
    },
    {
      "epoch": 0.8504366812227074,
      "grad_norm": 1.018751149033696,
      "learning_rate": 1.2717778932512333e-05,
      "loss": 0.8291,
      "step": 779
    },
    {
      "epoch": 0.851528384279476,
      "grad_norm": 0.992005577424338,
      "learning_rate": 1.2700903430337456e-05,
      "loss": 0.8151,
      "step": 780
    },
    {
      "epoch": 0.8526200873362445,
      "grad_norm": 1.1485359617550743,
      "learning_rate": 1.2684019627119267e-05,
      "loss": 0.8273,
      "step": 781
    },
    {
      "epoch": 0.8537117903930131,
      "grad_norm": 1.025382194009243,
      "learning_rate": 1.2667127574748985e-05,
      "loss": 0.773,
      "step": 782
    },
    {
      "epoch": 0.8548034934497817,
      "grad_norm": 0.9822864486049122,
      "learning_rate": 1.2650227325143192e-05,
      "loss": 0.7843,
      "step": 783
    },
    {
      "epoch": 0.8558951965065502,
      "grad_norm": 1.011756898798447,
      "learning_rate": 1.2633318930243647e-05,
      "loss": 0.8574,
      "step": 784
    },
    {
      "epoch": 0.8569868995633187,
      "grad_norm": 0.9820886451357439,
      "learning_rate": 1.2616402442017168e-05,
      "loss": 0.7239,
      "step": 785
    },
    {
      "epoch": 0.8580786026200873,
      "grad_norm": 0.9654465190740715,
      "learning_rate": 1.2599477912455425e-05,
      "loss": 0.8002,
      "step": 786
    },
    {
      "epoch": 0.8591703056768559,
      "grad_norm": 0.9474348684874027,
      "learning_rate": 1.258254539357481e-05,
      "loss": 0.7862,
      "step": 787
    },
    {
      "epoch": 0.8602620087336245,
      "grad_norm": 1.0597038987083574,
      "learning_rate": 1.2565604937416267e-05,
      "loss": 0.794,
      "step": 788
    },
    {
      "epoch": 0.861353711790393,
      "grad_norm": 1.0134468504898015,
      "learning_rate": 1.2548656596045147e-05,
      "loss": 0.7747,
      "step": 789
    },
    {
      "epoch": 0.8624454148471615,
      "grad_norm": 1.0170037116131896,
      "learning_rate": 1.253170042155102e-05,
      "loss": 0.8248,
      "step": 790
    },
    {
      "epoch": 0.8635371179039302,
      "grad_norm": 1.0182553228876519,
      "learning_rate": 1.2514736466047539e-05,
      "loss": 0.8153,
      "step": 791
    },
    {
      "epoch": 0.8646288209606987,
      "grad_norm": 0.9682427596515195,
      "learning_rate": 1.249776478167227e-05,
      "loss": 0.7605,
      "step": 792
    },
    {
      "epoch": 0.8657205240174672,
      "grad_norm": 0.9766360517928412,
      "learning_rate": 1.2480785420586532e-05,
      "loss": 0.8433,
      "step": 793
    },
    {
      "epoch": 0.8668122270742358,
      "grad_norm": 0.9668797075638123,
      "learning_rate": 1.2463798434975239e-05,
      "loss": 0.8318,
      "step": 794
    },
    {
      "epoch": 0.8679039301310044,
      "grad_norm": 0.9860295829191986,
      "learning_rate": 1.2446803877046734e-05,
      "loss": 0.8268,
      "step": 795
    },
    {
      "epoch": 0.868995633187773,
      "grad_norm": 1.0477866682225716,
      "learning_rate": 1.242980179903264e-05,
      "loss": 0.8658,
      "step": 796
    },
    {
      "epoch": 0.8700873362445415,
      "grad_norm": 0.9789001248534538,
      "learning_rate": 1.2412792253187693e-05,
      "loss": 0.8116,
      "step": 797
    },
    {
      "epoch": 0.87117903930131,
      "grad_norm": 1.030161845340474,
      "learning_rate": 1.239577529178957e-05,
      "loss": 0.7731,
      "step": 798
    },
    {
      "epoch": 0.8722707423580786,
      "grad_norm": 1.026800420596272,
      "learning_rate": 1.2378750967138752e-05,
      "loss": 0.8211,
      "step": 799
    },
    {
      "epoch": 0.8733624454148472,
      "grad_norm": 1.0021297856771973,
      "learning_rate": 1.2361719331558346e-05,
      "loss": 0.7555,
      "step": 800
    },
    {
      "epoch": 0.8744541484716157,
      "grad_norm": 1.0105829808434217,
      "learning_rate": 1.2344680437393923e-05,
      "loss": 0.7984,
      "step": 801
    },
    {
      "epoch": 0.8755458515283843,
      "grad_norm": 1.022887611025188,
      "learning_rate": 1.2327634337013366e-05,
      "loss": 0.8456,
      "step": 802
    },
    {
      "epoch": 0.8766375545851528,
      "grad_norm": 1.0160214074392968,
      "learning_rate": 1.2310581082806713e-05,
      "loss": 0.8015,
      "step": 803
    },
    {
      "epoch": 0.8777292576419214,
      "grad_norm": 1.0275765697851287,
      "learning_rate": 1.229352072718598e-05,
      "loss": 0.8558,
      "step": 804
    },
    {
      "epoch": 0.87882096069869,
      "grad_norm": 0.9940591580282742,
      "learning_rate": 1.2276453322585012e-05,
      "loss": 0.791,
      "step": 805
    },
    {
      "epoch": 0.8799126637554585,
      "grad_norm": 0.9889975349482799,
      "learning_rate": 1.225937892145932e-05,
      "loss": 0.7756,
      "step": 806
    },
    {
      "epoch": 0.881004366812227,
      "grad_norm": 0.9807345351008925,
      "learning_rate": 1.2242297576285911e-05,
      "loss": 0.7979,
      "step": 807
    },
    {
      "epoch": 0.8820960698689956,
      "grad_norm": 1.0503768144195273,
      "learning_rate": 1.2225209339563144e-05,
      "loss": 0.8143,
      "step": 808
    },
    {
      "epoch": 0.8831877729257642,
      "grad_norm": 1.046964193058164,
      "learning_rate": 1.2208114263810555e-05,
      "loss": 0.8826,
      "step": 809
    },
    {
      "epoch": 0.8842794759825328,
      "grad_norm": 1.0150491417761265,
      "learning_rate": 1.2191012401568698e-05,
      "loss": 0.8423,
      "step": 810
    },
    {
      "epoch": 0.8853711790393013,
      "grad_norm": 1.049591548870281,
      "learning_rate": 1.2173903805398986e-05,
      "loss": 0.8366,
      "step": 811
    },
    {
      "epoch": 0.8864628820960698,
      "grad_norm": 1.0543208147085164,
      "learning_rate": 1.2156788527883524e-05,
      "loss": 0.8588,
      "step": 812
    },
    {
      "epoch": 0.8875545851528385,
      "grad_norm": 0.9909638513378916,
      "learning_rate": 1.213966662162496e-05,
      "loss": 0.7952,
      "step": 813
    },
    {
      "epoch": 0.888646288209607,
      "grad_norm": 0.9678733069500823,
      "learning_rate": 1.2122538139246308e-05,
      "loss": 0.8128,
      "step": 814
    },
    {
      "epoch": 0.8897379912663755,
      "grad_norm": 1.0706679449248189,
      "learning_rate": 1.2105403133390797e-05,
      "loss": 0.8274,
      "step": 815
    },
    {
      "epoch": 0.8908296943231441,
      "grad_norm": 1.053814874477726,
      "learning_rate": 1.20882616567217e-05,
      "loss": 0.802,
      "step": 816
    },
    {
      "epoch": 0.8919213973799127,
      "grad_norm": 1.0364797166098356,
      "learning_rate": 1.2071113761922187e-05,
      "loss": 0.8035,
      "step": 817
    },
    {
      "epoch": 0.8930131004366813,
      "grad_norm": 1.0240440492193246,
      "learning_rate": 1.2053959501695144e-05,
      "loss": 0.7751,
      "step": 818
    },
    {
      "epoch": 0.8941048034934498,
      "grad_norm": 1.0194760561807408,
      "learning_rate": 1.203679892876303e-05,
      "loss": 0.8562,
      "step": 819
    },
    {
      "epoch": 0.8951965065502183,
      "grad_norm": 1.0078471362915395,
      "learning_rate": 1.2019632095867697e-05,
      "loss": 0.8255,
      "step": 820
    },
    {
      "epoch": 0.8962882096069869,
      "grad_norm": 0.9803764017984781,
      "learning_rate": 1.2002459055770244e-05,
      "loss": 0.8506,
      "step": 821
    },
    {
      "epoch": 0.8973799126637555,
      "grad_norm": 1.01785410579334,
      "learning_rate": 1.1985279861250839e-05,
      "loss": 0.7918,
      "step": 822
    },
    {
      "epoch": 0.898471615720524,
      "grad_norm": 0.9660083715427997,
      "learning_rate": 1.1968094565108573e-05,
      "loss": 0.7601,
      "step": 823
    },
    {
      "epoch": 0.8995633187772926,
      "grad_norm": 0.9794396166041377,
      "learning_rate": 1.1950903220161286e-05,
      "loss": 0.8389,
      "step": 824
    },
    {
      "epoch": 0.9006550218340611,
      "grad_norm": 0.9817519396770674,
      "learning_rate": 1.1933705879245408e-05,
      "loss": 0.8082,
      "step": 825
    },
    {
      "epoch": 0.9017467248908297,
      "grad_norm": 0.984940309641793,
      "learning_rate": 1.1916502595215799e-05,
      "loss": 0.7597,
      "step": 826
    },
    {
      "epoch": 0.9028384279475983,
      "grad_norm": 0.9481098363542785,
      "learning_rate": 1.189929342094559e-05,
      "loss": 0.7861,
      "step": 827
    },
    {
      "epoch": 0.9039301310043668,
      "grad_norm": 0.9198743597023081,
      "learning_rate": 1.1882078409326003e-05,
      "loss": 0.7555,
      "step": 828
    },
    {
      "epoch": 0.9050218340611353,
      "grad_norm": 0.9797553102750473,
      "learning_rate": 1.1864857613266212e-05,
      "loss": 0.7742,
      "step": 829
    },
    {
      "epoch": 0.9061135371179039,
      "grad_norm": 0.9773485584878683,
      "learning_rate": 1.1847631085693159e-05,
      "loss": 0.8229,
      "step": 830
    },
    {
      "epoch": 0.9072052401746725,
      "grad_norm": 0.9578374194364608,
      "learning_rate": 1.1830398879551412e-05,
      "loss": 0.8386,
      "step": 831
    },
    {
      "epoch": 0.9082969432314411,
      "grad_norm": 0.9958895257948418,
      "learning_rate": 1.1813161047802986e-05,
      "loss": 0.8422,
      "step": 832
    },
    {
      "epoch": 0.9093886462882096,
      "grad_norm": 0.9826362002668748,
      "learning_rate": 1.1795917643427179e-05,
      "loss": 0.8115,
      "step": 833
    },
    {
      "epoch": 0.9104803493449781,
      "grad_norm": 0.9887746894138071,
      "learning_rate": 1.1778668719420436e-05,
      "loss": 0.8156,
      "step": 834
    },
    {
      "epoch": 0.9115720524017468,
      "grad_norm": 1.0301054410493677,
      "learning_rate": 1.1761414328796147e-05,
      "loss": 0.8829,
      "step": 835
    },
    {
      "epoch": 0.9126637554585153,
      "grad_norm": 0.9789625559772259,
      "learning_rate": 1.174415452458451e-05,
      "loss": 0.8057,
      "step": 836
    },
    {
      "epoch": 0.9137554585152838,
      "grad_norm": 0.977980282560095,
      "learning_rate": 1.172688935983236e-05,
      "loss": 0.8235,
      "step": 837
    },
    {
      "epoch": 0.9148471615720524,
      "grad_norm": 0.98941084345582,
      "learning_rate": 1.1709618887603013e-05,
      "loss": 0.8218,
      "step": 838
    },
    {
      "epoch": 0.915938864628821,
      "grad_norm": 0.987254501811818,
      "learning_rate": 1.1692343160976092e-05,
      "loss": 0.8036,
      "step": 839
    },
    {
      "epoch": 0.9170305676855895,
      "grad_norm": 1.13642252086255,
      "learning_rate": 1.1675062233047365e-05,
      "loss": 0.871,
      "step": 840
    },
    {
      "epoch": 0.9181222707423581,
      "grad_norm": 0.9883352389103331,
      "learning_rate": 1.1657776156928598e-05,
      "loss": 0.8463,
      "step": 841
    },
    {
      "epoch": 0.9192139737991266,
      "grad_norm": 1.0245691753057746,
      "learning_rate": 1.1640484985747365e-05,
      "loss": 0.826,
      "step": 842
    },
    {
      "epoch": 0.9203056768558951,
      "grad_norm": 1.071710141972311,
      "learning_rate": 1.162318877264691e-05,
      "loss": 0.8027,
      "step": 843
    },
    {
      "epoch": 0.9213973799126638,
      "grad_norm": 2.622690089986299,
      "learning_rate": 1.1605887570785972e-05,
      "loss": 0.8753,
      "step": 844
    },
    {
      "epoch": 0.9224890829694323,
      "grad_norm": 1.03397508878459,
      "learning_rate": 1.1588581433338614e-05,
      "loss": 0.8267,
      "step": 845
    },
    {
      "epoch": 0.9235807860262009,
      "grad_norm": 1.004890691522863,
      "learning_rate": 1.1571270413494082e-05,
      "loss": 0.8158,
      "step": 846
    },
    {
      "epoch": 0.9246724890829694,
      "grad_norm": 2.3399569808932226,
      "learning_rate": 1.1553954564456616e-05,
      "loss": 0.8807,
      "step": 847
    },
    {
      "epoch": 0.925764192139738,
      "grad_norm": 2.523967070686754,
      "learning_rate": 1.1536633939445302e-05,
      "loss": 0.8555,
      "step": 848
    },
    {
      "epoch": 0.9268558951965066,
      "grad_norm": 1.1062411624065849,
      "learning_rate": 1.1519308591693905e-05,
      "loss": 0.8523,
      "step": 849
    },
    {
      "epoch": 0.9279475982532751,
      "grad_norm": 0.9804487779384249,
      "learning_rate": 1.150197857445071e-05,
      "loss": 0.8005,
      "step": 850
    },
    {
      "epoch": 0.9290393013100436,
      "grad_norm": 0.9696684979015404,
      "learning_rate": 1.148464394097834e-05,
      "loss": 0.7745,
      "step": 851
    },
    {
      "epoch": 0.9301310043668122,
      "grad_norm": 0.9925354155786811,
      "learning_rate": 1.1467304744553618e-05,
      "loss": 0.7371,
      "step": 852
    },
    {
      "epoch": 0.9312227074235808,
      "grad_norm": 1.0833318800332936,
      "learning_rate": 1.144996103846739e-05,
      "loss": 0.8728,
      "step": 853
    },
    {
      "epoch": 0.9323144104803494,
      "grad_norm": 0.9732649990140317,
      "learning_rate": 1.1432612876024351e-05,
      "loss": 0.8192,
      "step": 854
    },
    {
      "epoch": 0.9334061135371179,
      "grad_norm": 1.0096302801535977,
      "learning_rate": 1.141526031054291e-05,
      "loss": 0.7698,
      "step": 855
    },
    {
      "epoch": 0.9344978165938864,
      "grad_norm": 1.0421365871395685,
      "learning_rate": 1.1397903395354996e-05,
      "loss": 0.7518,
      "step": 856
    },
    {
      "epoch": 0.9355895196506551,
      "grad_norm": 0.9723305573161944,
      "learning_rate": 1.1380542183805908e-05,
      "loss": 0.8159,
      "step": 857
    },
    {
      "epoch": 0.9366812227074236,
      "grad_norm": 0.9622830874165507,
      "learning_rate": 1.1363176729254147e-05,
      "loss": 0.8135,
      "step": 858
    },
    {
      "epoch": 0.9377729257641921,
      "grad_norm": 1.0340895983705864,
      "learning_rate": 1.1345807085071263e-05,
      "loss": 0.8202,
      "step": 859
    },
    {
      "epoch": 0.9388646288209607,
      "grad_norm": 0.9628961444901861,
      "learning_rate": 1.132843330464168e-05,
      "loss": 0.8002,
      "step": 860
    },
    {
      "epoch": 0.9399563318777293,
      "grad_norm": 0.9569676804323826,
      "learning_rate": 1.1311055441362525e-05,
      "loss": 0.7781,
      "step": 861
    },
    {
      "epoch": 0.9410480349344978,
      "grad_norm": 0.9796557229038654,
      "learning_rate": 1.1293673548643492e-05,
      "loss": 0.8113,
      "step": 862
    },
    {
      "epoch": 0.9421397379912664,
      "grad_norm": 1.070015316978831,
      "learning_rate": 1.1276287679906638e-05,
      "loss": 0.8349,
      "step": 863
    },
    {
      "epoch": 0.9432314410480349,
      "grad_norm": 0.9965597942630992,
      "learning_rate": 1.1258897888586256e-05,
      "loss": 0.7928,
      "step": 864
    },
    {
      "epoch": 0.9443231441048034,
      "grad_norm": 0.982620165765039,
      "learning_rate": 1.1241504228128685e-05,
      "loss": 0.8491,
      "step": 865
    },
    {
      "epoch": 0.9454148471615721,
      "grad_norm": 1.024082714252077,
      "learning_rate": 1.1224106751992164e-05,
      "loss": 0.8295,
      "step": 866
    },
    {
      "epoch": 0.9465065502183406,
      "grad_norm": 1.0165057189321018,
      "learning_rate": 1.1206705513646652e-05,
      "loss": 0.8505,
      "step": 867
    },
    {
      "epoch": 0.9475982532751092,
      "grad_norm": 0.9931196700818016,
      "learning_rate": 1.118930056657367e-05,
      "loss": 0.821,
      "step": 868
    },
    {
      "epoch": 0.9486899563318777,
      "grad_norm": 1.0761172910671928,
      "learning_rate": 1.1171891964266149e-05,
      "loss": 0.8206,
      "step": 869
    },
    {
      "epoch": 0.9497816593886463,
      "grad_norm": 1.0222944988488392,
      "learning_rate": 1.1154479760228242e-05,
      "loss": 0.8145,
      "step": 870
    },
    {
      "epoch": 0.9508733624454149,
      "grad_norm": 0.9996391931238009,
      "learning_rate": 1.1137064007975176e-05,
      "loss": 0.8087,
      "step": 871
    },
    {
      "epoch": 0.9519650655021834,
      "grad_norm": 1.0759040754869575,
      "learning_rate": 1.1119644761033079e-05,
      "loss": 0.8263,
      "step": 872
    },
    {
      "epoch": 0.9530567685589519,
      "grad_norm": 1.0149901896888367,
      "learning_rate": 1.1102222072938832e-05,
      "loss": 0.84,
      "step": 873
    },
    {
      "epoch": 0.9541484716157205,
      "grad_norm": 0.9758678103754201,
      "learning_rate": 1.108479599723988e-05,
      "loss": 0.7788,
      "step": 874
    },
    {
      "epoch": 0.9552401746724891,
      "grad_norm": 0.9779263401794293,
      "learning_rate": 1.1067366587494082e-05,
      "loss": 0.8187,
      "step": 875
    },
    {
      "epoch": 0.9563318777292577,
      "grad_norm": 0.9496722534810037,
      "learning_rate": 1.1049933897269547e-05,
      "loss": 0.7601,
      "step": 876
    },
    {
      "epoch": 0.9574235807860262,
      "grad_norm": 1.057087300105753,
      "learning_rate": 1.1032497980144465e-05,
      "loss": 0.8634,
      "step": 877
    },
    {
      "epoch": 0.9585152838427947,
      "grad_norm": 0.9601016652262959,
      "learning_rate": 1.1015058889706942e-05,
      "loss": 0.7608,
      "step": 878
    },
    {
      "epoch": 0.9596069868995634,
      "grad_norm": 1.0298126653534947,
      "learning_rate": 1.0997616679554842e-05,
      "loss": 0.8092,
      "step": 879
    },
    {
      "epoch": 0.9606986899563319,
      "grad_norm": 0.9596604740539253,
      "learning_rate": 1.098017140329561e-05,
      "loss": 0.7979,
      "step": 880
    },
    {
      "epoch": 0.9617903930131004,
      "grad_norm": 1.079089092837934,
      "learning_rate": 1.0962723114546116e-05,
      "loss": 0.8252,
      "step": 881
    },
    {
      "epoch": 0.962882096069869,
      "grad_norm": 1.0239999052193924,
      "learning_rate": 1.0945271866932496e-05,
      "loss": 0.7865,
      "step": 882
    },
    {
      "epoch": 0.9639737991266376,
      "grad_norm": 1.0125502527542158,
      "learning_rate": 1.0927817714089975e-05,
      "loss": 0.8376,
      "step": 883
    },
    {
      "epoch": 0.9650655021834061,
      "grad_norm": 0.951675880376376,
      "learning_rate": 1.0910360709662701e-05,
      "loss": 0.8116,
      "step": 884
    },
    {
      "epoch": 0.9661572052401747,
      "grad_norm": 0.9463982277911809,
      "learning_rate": 1.08929009073036e-05,
      "loss": 0.7657,
      "step": 885
    },
    {
      "epoch": 0.9672489082969432,
      "grad_norm": 0.9581965887711609,
      "learning_rate": 1.087543836067418e-05,
      "loss": 0.7924,
      "step": 886
    },
    {
      "epoch": 0.9683406113537117,
      "grad_norm": 0.9689688481698168,
      "learning_rate": 1.0857973123444401e-05,
      "loss": 0.8093,
      "step": 887
    },
    {
      "epoch": 0.9694323144104804,
      "grad_norm": 0.973362093900798,
      "learning_rate": 1.0840505249292477e-05,
      "loss": 0.8037,
      "step": 888
    },
    {
      "epoch": 0.9705240174672489,
      "grad_norm": 1.0400643723504706,
      "learning_rate": 1.0823034791904734e-05,
      "loss": 0.7994,
      "step": 889
    },
    {
      "epoch": 0.9716157205240175,
      "grad_norm": 1.0109394051155618,
      "learning_rate": 1.0805561804975443e-05,
      "loss": 0.841,
      "step": 890
    },
    {
      "epoch": 0.972707423580786,
      "grad_norm": 1.0049314560152705,
      "learning_rate": 1.0788086342206636e-05,
      "loss": 0.8279,
      "step": 891
    },
    {
      "epoch": 0.9737991266375546,
      "grad_norm": 1.0140994197877482,
      "learning_rate": 1.0770608457307965e-05,
      "loss": 0.7933,
      "step": 892
    },
    {
      "epoch": 0.9748908296943232,
      "grad_norm": 1.024185021737908,
      "learning_rate": 1.0753128203996519e-05,
      "loss": 0.826,
      "step": 893
    },
    {
      "epoch": 0.9759825327510917,
      "grad_norm": 1.0075028915925779,
      "learning_rate": 1.0735645635996676e-05,
      "loss": 0.7969,
      "step": 894
    },
    {
      "epoch": 0.9770742358078602,
      "grad_norm": 0.9685780901544102,
      "learning_rate": 1.0718160807039916e-05,
      "loss": 0.7937,
      "step": 895
    },
    {
      "epoch": 0.9781659388646288,
      "grad_norm": 0.9491355156142823,
      "learning_rate": 1.0700673770864673e-05,
      "loss": 0.805,
      "step": 896
    },
    {
      "epoch": 0.9792576419213974,
      "grad_norm": 0.9616449107261509,
      "learning_rate": 1.068318458121617e-05,
      "loss": 0.7931,
      "step": 897
    },
    {
      "epoch": 0.980349344978166,
      "grad_norm": 0.9705835266119947,
      "learning_rate": 1.0665693291846245e-05,
      "loss": 0.8081,
      "step": 898
    },
    {
      "epoch": 0.9814410480349345,
      "grad_norm": 0.9739991330817586,
      "learning_rate": 1.064819995651318e-05,
      "loss": 0.8269,
      "step": 899
    },
    {
      "epoch": 0.982532751091703,
      "grad_norm": 0.9772132359047561,
      "learning_rate": 1.0630704628981561e-05,
      "loss": 0.84,
      "step": 900
    },
    {
      "epoch": 0.9836244541484717,
      "grad_norm": 1.013102781346369,
      "learning_rate": 1.0613207363022086e-05,
      "loss": 0.8002,
      "step": 901
    },
    {
      "epoch": 0.9847161572052402,
      "grad_norm": 0.964046204980614,
      "learning_rate": 1.0595708212411417e-05,
      "loss": 0.7956,
      "step": 902
    },
    {
      "epoch": 0.9858078602620087,
      "grad_norm": 1.022239204691434,
      "learning_rate": 1.0578207230932e-05,
      "loss": 0.9032,
      "step": 903
    },
    {
      "epoch": 0.9868995633187773,
      "grad_norm": 1.0302684010352272,
      "learning_rate": 1.0560704472371919e-05,
      "loss": 0.784,
      "step": 904
    },
    {
      "epoch": 0.9879912663755459,
      "grad_norm": 0.9521512924621471,
      "learning_rate": 1.0543199990524711e-05,
      "loss": 0.8158,
      "step": 905
    },
    {
      "epoch": 0.9890829694323144,
      "grad_norm": 0.9862783654579674,
      "learning_rate": 1.0525693839189215e-05,
      "loss": 0.814,
      "step": 906
    },
    {
      "epoch": 0.990174672489083,
      "grad_norm": 0.9441851015215522,
      "learning_rate": 1.0508186072169391e-05,
      "loss": 0.7525,
      "step": 907
    },
    {
      "epoch": 0.9912663755458515,
      "grad_norm": 0.9629624125081184,
      "learning_rate": 1.0490676743274181e-05,
      "loss": 0.7342,
      "step": 908
    },
    {
      "epoch": 0.99235807860262,
      "grad_norm": 0.9778492824734855,
      "learning_rate": 1.0473165906317318e-05,
      "loss": 0.8002,
      "step": 909
    },
    {
      "epoch": 0.9934497816593887,
      "grad_norm": 0.9418112859440163,
      "learning_rate": 1.0455653615117163e-05,
      "loss": 0.7826,
      "step": 910
    },
    {
      "epoch": 0.9945414847161572,
      "grad_norm": 1.0353237258763315,
      "learning_rate": 1.0438139923496562e-05,
      "loss": 0.8274,
      "step": 911
    },
    {
      "epoch": 0.9956331877729258,
      "grad_norm": 1.0143499500261535,
      "learning_rate": 1.0420624885282653e-05,
      "loss": 0.8211,
      "step": 912
    },
    {
      "epoch": 0.9967248908296943,
      "grad_norm": 0.9414306983920787,
      "learning_rate": 1.0403108554306718e-05,
      "loss": 0.7435,
      "step": 913
    },
    {
      "epoch": 0.9978165938864629,
      "grad_norm": 0.9834124075925206,
      "learning_rate": 1.0385590984404009e-05,
      "loss": 0.76,
      "step": 914
    },
    {
      "epoch": 0.9989082969432315,
      "grad_norm": 0.9224083288811961,
      "learning_rate": 1.036807222941359e-05,
      "loss": 0.7612,
      "step": 915
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.9438757968505777,
      "learning_rate": 1.0350552343178164e-05,
      "loss": 0.7441,
      "step": 916
    }
  ],
  "logging_steps": 1,
  "max_steps": 1832,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 458,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.4205786854208307e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}