{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 500,
  "global_step": 240,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 4.380008697509766,
      "learning_rate": 8.333333333333334e-06,
      "loss": 3.8472,
      "step": 2
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 5.4320220947265625,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 4.4355,
      "step": 4
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.495668411254883,
      "learning_rate": 2.5e-05,
      "loss": 4.0183,
      "step": 6
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 5.333839416503906,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 4.4543,
      "step": 8
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 4.8141961097717285,
      "learning_rate": 4.166666666666667e-05,
      "loss": 4.0576,
      "step": 10
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.4542341232299805,
      "learning_rate": 5e-05,
      "loss": 3.3098,
      "step": 12
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 4.608759880065918,
      "learning_rate": 5.833333333333334e-05,
      "loss": 3.3983,
      "step": 14
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 3.7876033782958984,
      "learning_rate": 6.666666666666667e-05,
      "loss": 2.7265,
      "step": 16
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.206045627593994,
      "learning_rate": 7.500000000000001e-05,
      "loss": 2.4786,
      "step": 18
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 4.687928676605225,
      "learning_rate": 8.333333333333334e-05,
      "loss": 2.2298,
      "step": 20
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 4.639834880828857,
      "learning_rate": 9.166666666666667e-05,
      "loss": 2.5465,
      "step": 22
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.179326057434082,
      "learning_rate": 0.0001,
      "loss": 2.0804,
      "step": 24
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 4.4850287437438965,
      "learning_rate": 0.00010833333333333333,
      "loss": 2.0512,
      "step": 26
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 5.006600379943848,
      "learning_rate": 0.00011666666666666668,
      "loss": 2.1484,
      "step": 28
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.475966453552246,
      "learning_rate": 0.000125,
      "loss": 1.9871,
      "step": 30
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 4.605421543121338,
      "learning_rate": 0.00013333333333333334,
      "loss": 2.1455,
      "step": 32
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 4.921014785766602,
      "learning_rate": 0.00014166666666666668,
      "loss": 1.9162,
      "step": 34
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.6443634033203125,
      "learning_rate": 0.00015000000000000001,
      "loss": 2.0503,
      "step": 36
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 4.234635353088379,
      "learning_rate": 0.00015833333333333332,
      "loss": 2.0901,
      "step": 38
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 4.628840446472168,
      "learning_rate": 0.0001666666666666667,
      "loss": 1.8014,
      "step": 40
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.8235278129577637,
      "learning_rate": 0.000175,
      "loss": 1.8156,
      "step": 42
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 5.939589500427246,
      "learning_rate": 0.00018333333333333334,
      "loss": 1.7782,
      "step": 44
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 4.921348571777344,
      "learning_rate": 0.00019166666666666667,
      "loss": 1.7167,
      "step": 46
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.549618244171143,
      "learning_rate": 0.0002,
      "loss": 2.2041,
      "step": 48
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 4.085502624511719,
      "learning_rate": 0.00019998942319271077,
      "loss": 1.8483,
      "step": 50
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 3.6243653297424316,
      "learning_rate": 0.0001999576950082201,
      "loss": 2.0321,
      "step": 52
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.530813455581665,
      "learning_rate": 0.0001999048221581858,
      "loss": 1.819,
      "step": 54
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 3.175443649291992,
      "learning_rate": 0.00019983081582712685,
      "loss": 1.7011,
      "step": 56
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 3.0620853900909424,
      "learning_rate": 0.00019973569167005723,
      "loss": 1.6158,
      "step": 58
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.984229564666748,
      "learning_rate": 0.00019961946980917456,
      "loss": 1.8606,
      "step": 60
    },
    {
      "epoch": 0.5166666666666667,
      "grad_norm": 3.717822313308716,
      "learning_rate": 0.0001994821748296033,
      "loss": 1.7937,
      "step": 62
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 4.549349308013916,
      "learning_rate": 0.00019932383577419432,
      "loss": 1.9389,
      "step": 64
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.229006767272949,
      "learning_rate": 0.00019914448613738106,
      "loss": 1.5434,
      "step": 66
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 3.5755157470703125,
      "learning_rate": 0.00019894416385809444,
      "loss": 1.6555,
      "step": 68
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 3.2299246788024902,
      "learning_rate": 0.00019872291131173742,
      "loss": 1.7088,
      "step": 70
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.777369260787964,
      "learning_rate": 0.00019848077530122083,
      "loss": 1.7569,
      "step": 72
    },
    {
      "epoch": 0.6166666666666667,
      "grad_norm": 3.143406629562378,
      "learning_rate": 0.00019821780704706307,
      "loss": 1.7495,
      "step": 74
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 3.655970811843872,
      "learning_rate": 0.00019793406217655517,
      "loss": 1.6553,
      "step": 76
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.4324283599853516,
      "learning_rate": 0.00019762960071199333,
      "loss": 1.5155,
      "step": 78
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 3.7328310012817383,
      "learning_rate": 0.00019730448705798239,
      "loss": 1.8168,
      "step": 80
    },
    {
      "epoch": 0.6833333333333333,
      "grad_norm": 3.8750150203704834,
      "learning_rate": 0.0001969587899878116,
      "loss": 1.705,
      "step": 82
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.362231254577637,
      "learning_rate": 0.00019659258262890683,
      "loss": 1.3282,
      "step": 84
    },
    {
      "epoch": 0.7166666666666667,
      "grad_norm": 3.3029322624206543,
      "learning_rate": 0.00019620594244736133,
      "loss": 1.4785,
      "step": 86
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 3.272670269012451,
      "learning_rate": 0.0001957989512315489,
      "loss": 1.7328,
      "step": 88
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.447598457336426,
      "learning_rate": 0.0001953716950748227,
      "loss": 1.8185,
      "step": 90
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 2.942129373550415,
      "learning_rate": 0.0001949242643573034,
      "loss": 1.6651,
      "step": 92
    },
    {
      "epoch": 0.7833333333333333,
      "grad_norm": 3.0011799335479736,
      "learning_rate": 0.0001944567537267605,
      "loss": 1.8555,
      "step": 94
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.2934067249298096,
      "learning_rate": 0.00019396926207859084,
      "loss": 1.5531,
      "step": 96
    },
    {
      "epoch": 0.8166666666666667,
      "grad_norm": 3.1889824867248535,
      "learning_rate": 0.00019346189253489885,
      "loss": 1.8412,
      "step": 98
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 2.921942949295044,
      "learning_rate": 0.00019293475242268223,
      "loss": 1.4985,
      "step": 100
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.1884875297546387,
      "learning_rate": 0.0001923879532511287,
      "loss": 1.5736,
      "step": 102
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 3.4869801998138428,
      "learning_rate": 0.00019182161068802741,
      "loss": 1.4873,
      "step": 104
    },
    {
      "epoch": 0.8833333333333333,
      "grad_norm": 2.8857343196868896,
      "learning_rate": 0.00019123584453530144,
      "loss": 1.4827,
      "step": 106
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.214871406555176,
      "learning_rate": 0.000190630778703665,
      "loss": 1.6214,
      "step": 108
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 3.495774984359741,
      "learning_rate": 0.00019000654118641211,
      "loss": 1.6193,
      "step": 110
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 3.5762667655944824,
      "learning_rate": 0.00018936326403234125,
      "loss": 1.5264,
      "step": 112
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.465022563934326,
      "learning_rate": 0.00018870108331782217,
      "loss": 1.6963,
      "step": 114
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 3.743870973587036,
      "learning_rate": 0.00018802013911801112,
      "loss": 1.6291,
      "step": 116
    },
    {
      "epoch": 0.9833333333333333,
      "grad_norm": 4.362145900726318,
      "learning_rate": 0.0001873205754772196,
      "loss": 1.3957,
      "step": 118
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.093210220336914,
      "learning_rate": 0.00018660254037844388,
      "loss": 1.5895,
      "step": 120
    },
    {
      "epoch": 1.0166666666666666,
      "grad_norm": 3.2383241653442383,
      "learning_rate": 0.00018586618571206134,
      "loss": 1.1764,
      "step": 122
    },
    {
      "epoch": 1.0333333333333334,
      "grad_norm": 3.522508144378662,
      "learning_rate": 0.00018511166724369997,
      "loss": 1.225,
      "step": 124
    },
    {
      "epoch": 1.05,
      "grad_norm": 2.7789227962493896,
      "learning_rate": 0.0001843391445812886,
      "loss": 1.0999,
      "step": 126
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 3.2942252159118652,
      "learning_rate": 0.00018354878114129367,
      "loss": 1.1459,
      "step": 128
    },
    {
      "epoch": 1.0833333333333333,
      "grad_norm": 3.0693302154541016,
      "learning_rate": 0.00018274074411415105,
      "loss": 1.0881,
      "step": 130
    },
    {
      "epoch": 1.1,
      "grad_norm": NaN,
      "learning_rate": 0.00018233015127566807,
      "loss": 1.2143,
      "step": 132
    },
    {
      "epoch": 1.1166666666666667,
      "grad_norm": 3.5694239139556885,
      "learning_rate": 0.0001814959255181988,
      "loss": 0.9691,
      "step": 134
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 3.9906177520751953,
      "learning_rate": 0.00018064446042674828,
      "loss": 1.1584,
      "step": 136
    },
    {
      "epoch": 1.15,
      "grad_norm": 3.965775966644287,
      "learning_rate": 0.00017977593611696015,
      "loss": 0.985,
      "step": 138
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 5.350390911102295,
      "learning_rate": 0.00017889053631311947,
      "loss": 1.3574,
      "step": 140
    },
    {
      "epoch": 1.1833333333333333,
      "grad_norm": 3.8706905841827393,
      "learning_rate": 0.00017798844830928817,
      "loss": 1.159,
      "step": 142
    },
    {
      "epoch": 1.2,
      "grad_norm": 3.463747024536133,
      "learning_rate": 0.00017706986292968582,
      "loss": 1.046,
      "step": 144
    },
    {
      "epoch": 1.2166666666666668,
      "grad_norm": 3.620864152908325,
      "learning_rate": 0.00017613497448832312,
      "loss": 0.9971,
      "step": 146
    },
    {
      "epoch": 1.2333333333333334,
      "grad_norm": 3.640916347503662,
      "learning_rate": 0.00017518398074789775,
      "loss": 0.8718,
      "step": 148
    },
    {
      "epoch": 1.25,
      "grad_norm": 3.4872817993164062,
      "learning_rate": 0.00017421708287796017,
      "loss": 1.1691,
      "step": 150
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 4.584655284881592,
      "learning_rate": 0.00017323448541235924,
      "loss": 1.1967,
      "step": 152
    },
    {
      "epoch": 1.2833333333333332,
      "grad_norm": 3.5487728118896484,
      "learning_rate": 0.00017223639620597556,
      "loss": 1.0054,
      "step": 154
    },
    {
      "epoch": 1.3,
      "grad_norm": 5.228781223297119,
      "learning_rate": 0.0001712230263907531,
      "loss": 1.4971,
      "step": 156
    },
    {
      "epoch": 1.3166666666666667,
      "grad_norm": 3.641235828399658,
      "learning_rate": 0.00017019459033103682,
      "loss": 0.8541,
      "step": 158
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 3.952843427658081,
      "learning_rate": 0.00016915130557822695,
      "loss": 0.9685,
      "step": 160
    },
    {
      "epoch": 1.35,
      "grad_norm": 3.3446860313415527,
      "learning_rate": 0.00016809339282475904,
      "loss": 0.7522,
      "step": 162
    },
    {
      "epoch": 1.3666666666666667,
      "grad_norm": 2.8159420490264893,
      "learning_rate": 0.0001670210758574196,
      "loss": 0.7398,
      "step": 164
    },
    {
      "epoch": 1.3833333333333333,
      "grad_norm": 4.205153942108154,
      "learning_rate": 0.00016593458151000688,
      "loss": 1.1048,
      "step": 166
    },
    {
      "epoch": 1.4,
      "grad_norm": 3.777249336242676,
      "learning_rate": 0.00016483413961534762,
      "loss": 1.0596,
      "step": 168
    },
    {
      "epoch": 1.4166666666666667,
      "grad_norm": 4.2157440185546875,
      "learning_rate": 0.00016371998295667886,
      "loss": 0.8744,
      "step": 170
    },
    {
      "epoch": 1.4333333333333333,
      "grad_norm": 5.198025703430176,
      "learning_rate": 0.00016259234721840591,
      "loss": 1.1068,
      "step": 172
    },
    {
      "epoch": 1.45,
      "grad_norm": 4.17173957824707,
      "learning_rate": 0.00016145147093624677,
      "loss": 0.7444,
      "step": 174
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 5.4046311378479,
      "learning_rate": 0.00016029759544677297,
      "loss": 1.0724,
      "step": 176
    },
    {
      "epoch": 1.4833333333333334,
      "grad_norm": 3.2475147247314453,
      "learning_rate": 0.00015913096483635824,
      "loss": 0.9882,
      "step": 178
    },
    {
      "epoch": 1.5,
      "grad_norm": 3.927030324935913,
      "learning_rate": 0.0001579518258895455,
      "loss": 0.7172,
      "step": 180
    },
    {
      "epoch": 1.5166666666666666,
      "grad_norm": 3.783529758453369,
      "learning_rate": 0.00015676042803684288,
      "loss": 1.117,
      "step": 182
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 4.151139736175537,
      "learning_rate": 0.00015555702330196023,
      "loss": 0.8876,
      "step": 184
    },
    {
      "epoch": 1.55,
      "grad_norm": 4.858468055725098,
      "learning_rate": 0.000154341866248497,
      "loss": 0.818,
      "step": 186
    },
    {
      "epoch": 1.5666666666666667,
      "grad_norm": 5.292931079864502,
      "learning_rate": 0.00015311521392609282,
      "loss": 1.1459,
      "step": 188
    },
    {
      "epoch": 1.5833333333333335,
      "grad_norm": 5.330478668212891,
      "learning_rate": 0.00015187732581605217,
      "loss": 1.1276,
      "step": 190
    },
    {
      "epoch": 1.6,
      "grad_norm": 4.155002117156982,
      "learning_rate": 0.00015062846377645475,
      "loss": 1.0617,
      "step": 192
    },
    {
      "epoch": 1.6166666666666667,
      "grad_norm": 4.212536334991455,
      "learning_rate": 0.00014936889198676303,
      "loss": 0.7472,
      "step": 194
    },
    {
      "epoch": 1.6333333333333333,
      "grad_norm": 3.7566754817962646,
      "learning_rate": 0.00014809887689193877,
      "loss": 1.1331,
      "step": 196
    },
    {
      "epoch": 1.65,
      "grad_norm": 3.677277088165283,
      "learning_rate": 0.0001468186871460802,
      "loss": 0.7747,
      "step": 198
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 4.946069717407227,
      "learning_rate": 0.00014552859355559204,
      "loss": 1.333,
      "step": 200
    },
    {
      "epoch": 1.6833333333333333,
      "grad_norm": 4.023520469665527,
      "learning_rate": 0.00014422886902190014,
      "loss": 0.8673,
      "step": 202
    },
    {
      "epoch": 1.7,
      "grad_norm": 3.5782713890075684,
      "learning_rate": 0.00014291978848372293,
      "loss": 0.8761,
      "step": 204
    },
    {
      "epoch": 1.7166666666666668,
      "grad_norm": 2.9059038162231445,
      "learning_rate": 0.00014160162885891193,
      "loss": 0.7392,
      "step": 206
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 4.512781143188477,
      "learning_rate": 0.00014027466898587374,
      "loss": 1.0393,
      "step": 208
    },
    {
      "epoch": 1.75,
      "grad_norm": 4.064301013946533,
      "learning_rate": 0.00013893918956458552,
      "loss": 1.1425,
      "step": 210
    },
    {
      "epoch": 1.7666666666666666,
      "grad_norm": 3.854093313217163,
      "learning_rate": 0.0001375954730972168,
      "loss": 0.8584,
      "step": 212
    },
    {
      "epoch": 1.7833333333333332,
      "grad_norm": 4.655716896057129,
      "learning_rate": 0.00013624380382837016,
      "loss": 1.0068,
      "step": 214
    },
    {
      "epoch": 1.8,
      "grad_norm": 4.099919319152832,
      "learning_rate": 0.0001348844676849531,
      "loss": 1.0037,
      "step": 216
    },
    {
      "epoch": 1.8166666666666667,
      "grad_norm": 4.197730541229248,
      "learning_rate": 0.00013351775221569415,
      "loss": 0.9886,
      "step": 218
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 4.721825122833252,
      "learning_rate": 0.00013214394653031616,
      "loss": 0.7593,
      "step": 220
    },
    {
      "epoch": 1.85,
      "grad_norm": 3.716853618621826,
      "learning_rate": 0.00013076334123837883,
      "loss": 1.0082,
      "step": 222
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 3.670105218887329,
      "learning_rate": 0.00012937622838780444,
      "loss": 1.0315,
      "step": 224
    },
    {
      "epoch": 1.8833333333333333,
      "grad_norm": 4.269951343536377,
      "learning_rate": 0.00012798290140309923,
      "loss": 0.8955,
      "step": 226
    },
    {
      "epoch": 1.9,
      "grad_norm": 3.60205078125,
      "learning_rate": 0.0001265836550232833,
      "loss": 1.1489,
      "step": 228
    },
    {
      "epoch": 1.9166666666666665,
      "grad_norm": 3.538810968399048,
      "learning_rate": 0.00012517878523954286,
      "loss": 0.799,
      "step": 230
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 4.749423980712891,
      "learning_rate": 0.00012376858923261733,
      "loss": 1.1039,
      "step": 232
    },
    {
      "epoch": 1.95,
      "grad_norm": 4.193479537963867,
      "learning_rate": 0.00012235336530993474,
      "loss": 0.8296,
      "step": 234
    },
    {
      "epoch": 1.9666666666666668,
      "grad_norm": 4.116739273071289,
      "learning_rate": 0.0001209334128425092,
      "loss": 1.0921,
      "step": 236
    },
    {
      "epoch": 1.9833333333333334,
      "grad_norm": 4.641618728637695,
      "learning_rate": 0.00011950903220161285,
      "loss": 1.0626,
      "step": 238
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.8030502796173096,
      "learning_rate": 0.00011808052469523654,
      "loss": 0.8727,
      "step": 240
    }
  ],
  "logging_steps": 2,
  "max_steps": 480,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 120,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6031789743144960.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}