{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9990726429675425,
  "eval_steps": 500,
  "global_step": 202,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004945904173106646,
      "grad_norm": 54.500160217285156,
      "learning_rate": 0.0,
      "loss": 9.5291,
      "step": 1
    },
    {
      "epoch": 0.009891808346213293,
      "grad_norm": 53.72835922241211,
      "learning_rate": 4e-05,
      "loss": 9.4814,
      "step": 2
    },
    {
      "epoch": 0.014837712519319939,
      "grad_norm": 17.406553268432617,
      "learning_rate": 8e-05,
      "loss": 9.1288,
      "step": 3
    },
    {
      "epoch": 0.019783616692426585,
      "grad_norm": 3.4949991703033447,
      "learning_rate": 0.00012,
      "loss": 8.8408,
      "step": 4
    },
    {
      "epoch": 0.02472952086553323,
      "grad_norm": 2.9090073108673096,
      "learning_rate": 0.00016,
      "loss": 8.7705,
      "step": 5
    },
    {
      "epoch": 0.029675425038639878,
      "grad_norm": 3.398167371749878,
      "learning_rate": 0.0002,
      "loss": 8.6466,
      "step": 6
    },
    {
      "epoch": 0.03462132921174652,
      "grad_norm": 1.6190311908721924,
      "learning_rate": 0.00019898477157360406,
      "loss": 8.5125,
      "step": 7
    },
    {
      "epoch": 0.03956723338485317,
      "grad_norm": 1.8773953914642334,
      "learning_rate": 0.00019796954314720813,
      "loss": 8.5322,
      "step": 8
    },
    {
      "epoch": 0.04451313755795981,
      "grad_norm": 1.283807396888733,
      "learning_rate": 0.00019695431472081218,
      "loss": 8.4917,
      "step": 9
    },
    {
      "epoch": 0.04945904173106646,
      "grad_norm": 1.9215106964111328,
      "learning_rate": 0.00019593908629441626,
      "loss": 8.3638,
      "step": 10
    },
    {
      "epoch": 0.05440494590417311,
      "grad_norm": 1.5560728311538696,
      "learning_rate": 0.00019492385786802033,
      "loss": 8.3021,
      "step": 11
    },
    {
      "epoch": 0.059350850077279756,
      "grad_norm": 1.4610416889190674,
      "learning_rate": 0.00019390862944162438,
      "loss": 8.3058,
      "step": 12
    },
    {
      "epoch": 0.0642967542503864,
      "grad_norm": 1.4304499626159668,
      "learning_rate": 0.00019289340101522843,
      "loss": 8.2576,
      "step": 13
    },
    {
      "epoch": 0.06924265842349304,
      "grad_norm": 1.2287720441818237,
      "learning_rate": 0.0001918781725888325,
      "loss": 8.0443,
      "step": 14
    },
    {
      "epoch": 0.07418856259659969,
      "grad_norm": 1.3729023933410645,
      "learning_rate": 0.00019086294416243655,
      "loss": 8.1255,
      "step": 15
    },
    {
      "epoch": 0.07913446676970634,
      "grad_norm": 1.2619420289993286,
      "learning_rate": 0.0001898477157360406,
      "loss": 8.032,
      "step": 16
    },
    {
      "epoch": 0.08408037094281298,
      "grad_norm": 1.4744280576705933,
      "learning_rate": 0.0001888324873096447,
      "loss": 7.8637,
      "step": 17
    },
    {
      "epoch": 0.08902627511591962,
      "grad_norm": 1.6214470863342285,
      "learning_rate": 0.00018781725888324875,
      "loss": 7.9172,
      "step": 18
    },
    {
      "epoch": 0.09397217928902628,
      "grad_norm": 1.283504605293274,
      "learning_rate": 0.0001868020304568528,
      "loss": 7.8251,
      "step": 19
    },
    {
      "epoch": 0.09891808346213292,
      "grad_norm": 1.0794684886932373,
      "learning_rate": 0.00018578680203045687,
      "loss": 7.7431,
      "step": 20
    },
    {
      "epoch": 0.10386398763523957,
      "grad_norm": 1.1826306581497192,
      "learning_rate": 0.00018477157360406092,
      "loss": 7.6118,
      "step": 21
    },
    {
      "epoch": 0.10880989180834622,
      "grad_norm": 1.5493848323822021,
      "learning_rate": 0.00018375634517766497,
      "loss": 7.5928,
      "step": 22
    },
    {
      "epoch": 0.11375579598145286,
      "grad_norm": 2.191657304763794,
      "learning_rate": 0.00018274111675126904,
      "loss": 7.596,
      "step": 23
    },
    {
      "epoch": 0.11870170015455951,
      "grad_norm": 1.2168949842453003,
      "learning_rate": 0.0001817258883248731,
      "loss": 7.5224,
      "step": 24
    },
    {
      "epoch": 0.12364760432766615,
      "grad_norm": 1.1562331914901733,
      "learning_rate": 0.00018071065989847717,
      "loss": 7.4952,
      "step": 25
    },
    {
      "epoch": 0.1285935085007728,
      "grad_norm": 1.9624497890472412,
      "learning_rate": 0.00017969543147208124,
      "loss": 7.459,
      "step": 26
    },
    {
      "epoch": 0.13353941267387945,
      "grad_norm": 2.2458877563476562,
      "learning_rate": 0.0001786802030456853,
      "loss": 7.3465,
      "step": 27
    },
    {
      "epoch": 0.1384853168469861,
      "grad_norm": 1.3750243186950684,
      "learning_rate": 0.00017766497461928934,
      "loss": 7.3891,
      "step": 28
    },
    {
      "epoch": 0.14343122102009273,
      "grad_norm": 1.2398021221160889,
      "learning_rate": 0.0001766497461928934,
      "loss": 7.3127,
      "step": 29
    },
    {
      "epoch": 0.14837712519319937,
      "grad_norm": 2.071115732192993,
      "learning_rate": 0.00017563451776649746,
      "loss": 7.2548,
      "step": 30
    },
    {
      "epoch": 0.15332302936630604,
      "grad_norm": 2.288498640060425,
      "learning_rate": 0.0001746192893401015,
      "loss": 7.1908,
      "step": 31
    },
    {
      "epoch": 0.15826893353941268,
      "grad_norm": 1.2050567865371704,
      "learning_rate": 0.0001736040609137056,
      "loss": 7.1467,
      "step": 32
    },
    {
      "epoch": 0.16321483771251932,
      "grad_norm": 1.4064340591430664,
      "learning_rate": 0.00017258883248730966,
      "loss": 7.035,
      "step": 33
    },
    {
      "epoch": 0.16816074188562596,
      "grad_norm": 1.2630614042282104,
      "learning_rate": 0.0001715736040609137,
      "loss": 7.0536,
      "step": 34
    },
    {
      "epoch": 0.1731066460587326,
      "grad_norm": 1.8433802127838135,
      "learning_rate": 0.00017055837563451778,
      "loss": 7.0115,
      "step": 35
    },
    {
      "epoch": 0.17805255023183925,
      "grad_norm": 1.744345784187317,
      "learning_rate": 0.00016954314720812183,
      "loss": 7.038,
      "step": 36
    },
    {
      "epoch": 0.18299845440494591,
      "grad_norm": 1.679824709892273,
      "learning_rate": 0.00016852791878172588,
      "loss": 6.8946,
      "step": 37
    },
    {
      "epoch": 0.18794435857805256,
      "grad_norm": 1.4559205770492554,
      "learning_rate": 0.00016751269035532995,
      "loss": 6.9053,
      "step": 38
    },
    {
      "epoch": 0.1928902627511592,
      "grad_norm": 1.7544541358947754,
      "learning_rate": 0.00016649746192893403,
      "loss": 6.9277,
      "step": 39
    },
    {
      "epoch": 0.19783616692426584,
      "grad_norm": 1.594734787940979,
      "learning_rate": 0.00016548223350253808,
      "loss": 6.912,
      "step": 40
    },
    {
      "epoch": 0.20278207109737248,
      "grad_norm": 1.3439960479736328,
      "learning_rate": 0.00016446700507614215,
      "loss": 6.8592,
      "step": 41
    },
    {
      "epoch": 0.20772797527047915,
      "grad_norm": 1.4330651760101318,
      "learning_rate": 0.0001634517766497462,
      "loss": 6.8965,
      "step": 42
    },
    {
      "epoch": 0.2126738794435858,
      "grad_norm": 2.439265489578247,
      "learning_rate": 0.00016243654822335025,
      "loss": 6.8126,
      "step": 43
    },
    {
      "epoch": 0.21761978361669243,
      "grad_norm": 1.2343510389328003,
      "learning_rate": 0.00016142131979695432,
      "loss": 6.8057,
      "step": 44
    },
    {
      "epoch": 0.22256568778979907,
      "grad_norm": 1.15224027633667,
      "learning_rate": 0.00016040609137055837,
      "loss": 6.6727,
      "step": 45
    },
    {
      "epoch": 0.2275115919629057,
      "grad_norm": 1.6769089698791504,
      "learning_rate": 0.00015939086294416242,
      "loss": 6.7457,
      "step": 46
    },
    {
      "epoch": 0.23245749613601235,
      "grad_norm": 2.4642043113708496,
      "learning_rate": 0.00015837563451776652,
      "loss": 6.742,
      "step": 47
    },
    {
      "epoch": 0.23740340030911902,
      "grad_norm": 1.1713383197784424,
      "learning_rate": 0.00015736040609137057,
      "loss": 6.7022,
      "step": 48
    },
    {
      "epoch": 0.24234930448222566,
      "grad_norm": 1.5891178846359253,
      "learning_rate": 0.00015634517766497462,
      "loss": 6.6446,
      "step": 49
    },
    {
      "epoch": 0.2472952086553323,
      "grad_norm": 2.0845682621002197,
      "learning_rate": 0.0001553299492385787,
      "loss": 6.5948,
      "step": 50
    },
    {
      "epoch": 0.252241112828439,
      "grad_norm": 1.4469300508499146,
      "learning_rate": 0.00015431472081218274,
      "loss": 6.5604,
      "step": 51
    },
    {
      "epoch": 0.2571870170015456,
      "grad_norm": 1.0141685009002686,
      "learning_rate": 0.0001532994923857868,
      "loss": 6.5418,
      "step": 52
    },
    {
      "epoch": 0.26213292117465226,
      "grad_norm": 2.21588134765625,
      "learning_rate": 0.00015228426395939087,
      "loss": 6.4273,
      "step": 53
    },
    {
      "epoch": 0.2670788253477589,
      "grad_norm": 1.4307092428207397,
      "learning_rate": 0.00015126903553299494,
      "loss": 6.4938,
      "step": 54
    },
    {
      "epoch": 0.27202472952086554,
      "grad_norm": 1.4310742616653442,
      "learning_rate": 0.000150253807106599,
      "loss": 6.4357,
      "step": 55
    },
    {
      "epoch": 0.2769706336939722,
      "grad_norm": 1.1520801782608032,
      "learning_rate": 0.00014923857868020306,
      "loss": 6.5101,
      "step": 56
    },
    {
      "epoch": 0.2819165378670788,
      "grad_norm": 1.0513254404067993,
      "learning_rate": 0.0001482233502538071,
      "loss": 6.4536,
      "step": 57
    },
    {
      "epoch": 0.28686244204018546,
      "grad_norm": 1.5814175605773926,
      "learning_rate": 0.00014720812182741116,
      "loss": 6.4139,
      "step": 58
    },
    {
      "epoch": 0.2918083462132921,
      "grad_norm": 1.5383965969085693,
      "learning_rate": 0.00014619289340101523,
      "loss": 6.3318,
      "step": 59
    },
    {
      "epoch": 0.29675425038639874,
      "grad_norm": 1.0093541145324707,
      "learning_rate": 0.00014517766497461928,
      "loss": 6.4279,
      "step": 60
    },
    {
      "epoch": 0.3017001545595054,
      "grad_norm": 1.4959982633590698,
      "learning_rate": 0.00014416243654822336,
      "loss": 6.3061,
      "step": 61
    },
    {
      "epoch": 0.3066460587326121,
      "grad_norm": 1.649026870727539,
      "learning_rate": 0.00014314720812182743,
      "loss": 6.274,
      "step": 62
    },
    {
      "epoch": 0.3115919629057187,
      "grad_norm": 0.9700078964233398,
      "learning_rate": 0.00014213197969543148,
      "loss": 6.4123,
      "step": 63
    },
    {
      "epoch": 0.31653786707882536,
      "grad_norm": 1.0136897563934326,
      "learning_rate": 0.00014111675126903553,
      "loss": 6.3055,
      "step": 64
    },
    {
      "epoch": 0.321483771251932,
      "grad_norm": 1.6081498861312866,
      "learning_rate": 0.0001401015228426396,
      "loss": 6.3642,
      "step": 65
    },
    {
      "epoch": 0.32642967542503865,
      "grad_norm": 1.1522279977798462,
      "learning_rate": 0.00013908629441624365,
      "loss": 6.2726,
      "step": 66
    },
    {
      "epoch": 0.3313755795981453,
      "grad_norm": 0.8351190686225891,
      "learning_rate": 0.00013807106598984773,
      "loss": 6.2645,
      "step": 67
    },
    {
      "epoch": 0.33632148377125193,
      "grad_norm": 1.1132313013076782,
      "learning_rate": 0.00013705583756345178,
      "loss": 6.2681,
      "step": 68
    },
    {
      "epoch": 0.34126738794435857,
      "grad_norm": 1.2936571836471558,
      "learning_rate": 0.00013604060913705585,
      "loss": 6.2473,
      "step": 69
    },
    {
      "epoch": 0.3462132921174652,
      "grad_norm": 1.250172734260559,
      "learning_rate": 0.0001350253807106599,
      "loss": 6.2264,
      "step": 70
    },
    {
      "epoch": 0.35115919629057185,
      "grad_norm": 1.0878709554672241,
      "learning_rate": 0.00013401015228426397,
      "loss": 6.1898,
      "step": 71
    },
    {
      "epoch": 0.3561051004636785,
      "grad_norm": 0.9934064149856567,
      "learning_rate": 0.00013299492385786802,
      "loss": 6.2047,
      "step": 72
    },
    {
      "epoch": 0.3610510046367852,
      "grad_norm": 0.8686928749084473,
      "learning_rate": 0.00013197969543147207,
      "loss": 6.1214,
      "step": 73
    },
    {
      "epoch": 0.36599690880989183,
      "grad_norm": 0.858200192451477,
      "learning_rate": 0.00013096446700507615,
      "loss": 6.0784,
      "step": 74
    },
    {
      "epoch": 0.37094281298299847,
      "grad_norm": 0.8108780980110168,
      "learning_rate": 0.0001299492385786802,
      "loss": 6.1899,
      "step": 75
    },
    {
      "epoch": 0.3758887171561051,
      "grad_norm": 0.8366422653198242,
      "learning_rate": 0.00012893401015228427,
      "loss": 6.131,
      "step": 76
    },
    {
      "epoch": 0.38083462132921175,
      "grad_norm": 1.2487200498580933,
      "learning_rate": 0.00012791878172588834,
      "loss": 6.1158,
      "step": 77
    },
    {
      "epoch": 0.3857805255023184,
      "grad_norm": 1.0677459239959717,
      "learning_rate": 0.0001269035532994924,
      "loss": 6.0873,
      "step": 78
    },
    {
      "epoch": 0.39072642967542504,
      "grad_norm": 0.9405259490013123,
      "learning_rate": 0.00012588832487309644,
      "loss": 6.0409,
      "step": 79
    },
    {
      "epoch": 0.3956723338485317,
      "grad_norm": 1.488607406616211,
      "learning_rate": 0.00012487309644670052,
      "loss": 5.9868,
      "step": 80
    },
    {
      "epoch": 0.4006182380216383,
      "grad_norm": 0.9067093729972839,
      "learning_rate": 0.00012385786802030456,
      "loss": 6.0035,
      "step": 81
    },
    {
      "epoch": 0.40556414219474496,
      "grad_norm": 1.1395992040634155,
      "learning_rate": 0.00012284263959390864,
      "loss": 5.9638,
      "step": 82
    },
    {
      "epoch": 0.4105100463678516,
      "grad_norm": 1.4701273441314697,
      "learning_rate": 0.0001218274111675127,
      "loss": 6.0212,
      "step": 83
    },
    {
      "epoch": 0.4154559505409583,
      "grad_norm": 0.8167937397956848,
      "learning_rate": 0.00012081218274111676,
      "loss": 6.0759,
      "step": 84
    },
    {
      "epoch": 0.42040185471406494,
      "grad_norm": 1.398577332496643,
      "learning_rate": 0.00011979695431472082,
      "loss": 5.9284,
      "step": 85
    },
    {
      "epoch": 0.4253477588871716,
      "grad_norm": 1.0022815465927124,
      "learning_rate": 0.00011878172588832489,
      "loss": 5.9638,
      "step": 86
    },
    {
      "epoch": 0.4302936630602782,
      "grad_norm": 1.1316360235214233,
      "learning_rate": 0.00011776649746192893,
      "loss": 5.8901,
      "step": 87
    },
    {
      "epoch": 0.43523956723338486,
      "grad_norm": 1.1034351587295532,
      "learning_rate": 0.000116751269035533,
      "loss": 5.9288,
      "step": 88
    },
    {
      "epoch": 0.4401854714064915,
      "grad_norm": 0.9991883039474487,
      "learning_rate": 0.00011573604060913706,
      "loss": 5.9447,
      "step": 89
    },
    {
      "epoch": 0.44513137557959814,
      "grad_norm": 1.4334654808044434,
      "learning_rate": 0.00011472081218274113,
      "loss": 5.8657,
      "step": 90
    },
    {
      "epoch": 0.4500772797527048,
      "grad_norm": 1.0602012872695923,
      "learning_rate": 0.0001137055837563452,
      "loss": 5.8563,
      "step": 91
    },
    {
      "epoch": 0.4550231839258114,
      "grad_norm": 0.9210672378540039,
      "learning_rate": 0.00011269035532994925,
      "loss": 5.8811,
      "step": 92
    },
    {
      "epoch": 0.45996908809891807,
      "grad_norm": 0.9101308584213257,
      "learning_rate": 0.0001116751269035533,
      "loss": 5.9572,
      "step": 93
    },
    {
      "epoch": 0.4649149922720247,
      "grad_norm": 0.8447904586791992,
      "learning_rate": 0.00011065989847715736,
      "loss": 5.8762,
      "step": 94
    },
    {
      "epoch": 0.46986089644513135,
      "grad_norm": 0.7616278529167175,
      "learning_rate": 0.00010964467005076143,
      "loss": 5.9493,
      "step": 95
    },
    {
      "epoch": 0.47480680061823805,
      "grad_norm": 1.0465595722198486,
      "learning_rate": 0.00010862944162436547,
      "loss": 5.8367,
      "step": 96
    },
    {
      "epoch": 0.4797527047913447,
      "grad_norm": 1.4627708196640015,
      "learning_rate": 0.00010761421319796954,
      "loss": 5.8301,
      "step": 97
    },
    {
      "epoch": 0.4846986089644513,
      "grad_norm": 1.0495349168777466,
      "learning_rate": 0.00010659898477157362,
      "loss": 5.8782,
      "step": 98
    },
    {
      "epoch": 0.48964451313755797,
      "grad_norm": 0.9480841755867004,
      "learning_rate": 0.00010558375634517767,
      "loss": 5.7681,
      "step": 99
    },
    {
      "epoch": 0.4945904173106646,
      "grad_norm": 0.8606300354003906,
      "learning_rate": 0.00010456852791878173,
      "loss": 5.7448,
      "step": 100
    },
    {
      "epoch": 0.49953632148377125,
      "grad_norm": 0.9947773218154907,
      "learning_rate": 0.0001035532994923858,
      "loss": 5.8485,
      "step": 101
    },
    {
      "epoch": 0.504482225656878,
      "grad_norm": 1.0647828578948975,
      "learning_rate": 0.00010253807106598984,
      "loss": 5.7214,
      "step": 102
    },
    {
      "epoch": 0.5094281298299845,
      "grad_norm": 1.1592961549758911,
      "learning_rate": 0.0001015228426395939,
      "loss": 5.7393,
      "step": 103
    },
    {
      "epoch": 0.5143740340030912,
      "grad_norm": 0.8949771523475647,
      "learning_rate": 0.00010050761421319797,
      "loss": 5.7635,
      "step": 104
    },
    {
      "epoch": 0.5193199381761978,
      "grad_norm": 0.8713933229446411,
      "learning_rate": 9.949238578680203e-05,
      "loss": 5.7227,
      "step": 105
    },
    {
      "epoch": 0.5242658423493045,
      "grad_norm": 0.8814818859100342,
      "learning_rate": 9.847715736040609e-05,
      "loss": 5.7516,
      "step": 106
    },
    {
      "epoch": 0.5292117465224111,
      "grad_norm": 0.9553707838058472,
      "learning_rate": 9.746192893401017e-05,
      "loss": 5.7522,
      "step": 107
    },
    {
      "epoch": 0.5341576506955178,
      "grad_norm": 0.8567320704460144,
      "learning_rate": 9.644670050761421e-05,
      "loss": 5.6508,
      "step": 108
    },
    {
      "epoch": 0.5391035548686244,
      "grad_norm": 1.0081580877304077,
      "learning_rate": 9.543147208121828e-05,
      "loss": 5.642,
      "step": 109
    },
    {
      "epoch": 0.5440494590417311,
      "grad_norm": 1.1526085138320923,
      "learning_rate": 9.441624365482235e-05,
      "loss": 5.7423,
      "step": 110
    },
    {
      "epoch": 0.5489953632148377,
      "grad_norm": 1.2273470163345337,
      "learning_rate": 9.34010152284264e-05,
      "loss": 5.7094,
      "step": 111
    },
    {
      "epoch": 0.5539412673879444,
      "grad_norm": 0.830719530582428,
      "learning_rate": 9.238578680203046e-05,
      "loss": 5.7365,
      "step": 112
    },
    {
      "epoch": 0.558887171561051,
      "grad_norm": 1.1520576477050781,
      "learning_rate": 9.137055837563452e-05,
      "loss": 5.7391,
      "step": 113
    },
    {
      "epoch": 0.5638330757341576,
      "grad_norm": 1.1414787769317627,
      "learning_rate": 9.035532994923858e-05,
      "loss": 5.7288,
      "step": 114
    },
    {
      "epoch": 0.5687789799072643,
      "grad_norm": 0.9615758061408997,
      "learning_rate": 8.934010152284265e-05,
      "loss": 5.5568,
      "step": 115
    },
    {
      "epoch": 0.5737248840803709,
      "grad_norm": 0.8781617879867554,
      "learning_rate": 8.83248730964467e-05,
      "loss": 5.6264,
      "step": 116
    },
    {
      "epoch": 0.5786707882534776,
      "grad_norm": 1.1544886827468872,
      "learning_rate": 8.730964467005075e-05,
      "loss": 5.6724,
      "step": 117
    },
    {
      "epoch": 0.5836166924265842,
      "grad_norm": 0.931874692440033,
      "learning_rate": 8.629441624365483e-05,
      "loss": 5.6046,
      "step": 118
    },
    {
      "epoch": 0.5885625965996909,
      "grad_norm": 0.7856680750846863,
      "learning_rate": 8.527918781725889e-05,
      "loss": 5.6521,
      "step": 119
    },
    {
      "epoch": 0.5935085007727975,
      "grad_norm": 1.162001609802246,
      "learning_rate": 8.426395939086294e-05,
      "loss": 5.5843,
      "step": 120
    },
    {
      "epoch": 0.5984544049459042,
      "grad_norm": 0.8572034239768982,
      "learning_rate": 8.324873096446701e-05,
      "loss": 5.6526,
      "step": 121
    },
    {
      "epoch": 0.6034003091190108,
      "grad_norm": 0.9555945992469788,
      "learning_rate": 8.223350253807108e-05,
      "loss": 5.6673,
      "step": 122
    },
    {
      "epoch": 0.6083462132921175,
      "grad_norm": 0.880160927772522,
      "learning_rate": 8.121827411167512e-05,
      "loss": 5.498,
      "step": 123
    },
    {
      "epoch": 0.6132921174652242,
      "grad_norm": 1.1022496223449707,
      "learning_rate": 8.020304568527919e-05,
      "loss": 5.5833,
      "step": 124
    },
    {
      "epoch": 0.6182380216383307,
      "grad_norm": 0.9595851898193359,
      "learning_rate": 7.918781725888326e-05,
      "loss": 5.6384,
      "step": 125
    },
    {
      "epoch": 0.6231839258114374,
      "grad_norm": 1.4313597679138184,
      "learning_rate": 7.817258883248731e-05,
      "loss": 5.5478,
      "step": 126
    },
    {
      "epoch": 0.628129829984544,
      "grad_norm": 0.9351322054862976,
      "learning_rate": 7.715736040609137e-05,
      "loss": 5.5652,
      "step": 127
    },
    {
      "epoch": 0.6330757341576507,
      "grad_norm": 1.251789927482605,
      "learning_rate": 7.614213197969543e-05,
      "loss": 5.5387,
      "step": 128
    },
    {
      "epoch": 0.6380216383307573,
      "grad_norm": 0.98284912109375,
      "learning_rate": 7.51269035532995e-05,
      "loss": 5.5338,
      "step": 129
    },
    {
      "epoch": 0.642967542503864,
      "grad_norm": 1.0421977043151855,
      "learning_rate": 7.411167512690356e-05,
      "loss": 5.5774,
      "step": 130
    },
    {
      "epoch": 0.6479134466769706,
      "grad_norm": 1.0751053094863892,
      "learning_rate": 7.309644670050762e-05,
      "loss": 5.5642,
      "step": 131
    },
    {
      "epoch": 0.6528593508500773,
      "grad_norm": 1.089376449584961,
      "learning_rate": 7.208121827411168e-05,
      "loss": 5.505,
      "step": 132
    },
    {
      "epoch": 0.6578052550231839,
      "grad_norm": 1.0731728076934814,
      "learning_rate": 7.106598984771574e-05,
      "loss": 5.5514,
      "step": 133
    },
    {
      "epoch": 0.6627511591962906,
      "grad_norm": 1.2262444496154785,
      "learning_rate": 7.00507614213198e-05,
      "loss": 5.5723,
      "step": 134
    },
    {
      "epoch": 0.6676970633693973,
      "grad_norm": 1.0487595796585083,
      "learning_rate": 6.903553299492386e-05,
      "loss": 5.5587,
      "step": 135
    },
    {
      "epoch": 0.6726429675425039,
      "grad_norm": 1.084671139717102,
      "learning_rate": 6.802030456852793e-05,
      "loss": 5.4868,
      "step": 136
    },
    {
      "epoch": 0.6775888717156106,
      "grad_norm": 1.1871248483657837,
      "learning_rate": 6.700507614213199e-05,
      "loss": 5.5475,
      "step": 137
    },
    {
      "epoch": 0.6825347758887171,
      "grad_norm": 0.960493803024292,
      "learning_rate": 6.598984771573604e-05,
      "loss": 5.5006,
      "step": 138
    },
    {
      "epoch": 0.6874806800618238,
      "grad_norm": 1.053593397140503,
      "learning_rate": 6.49746192893401e-05,
      "loss": 5.5389,
      "step": 139
    },
    {
      "epoch": 0.6924265842349304,
      "grad_norm": 0.8886996507644653,
      "learning_rate": 6.395939086294417e-05,
      "loss": 5.4616,
      "step": 140
    },
    {
      "epoch": 0.6973724884080371,
      "grad_norm": 1.1852856874465942,
      "learning_rate": 6.294416243654822e-05,
      "loss": 5.498,
      "step": 141
    },
    {
      "epoch": 0.7023183925811437,
      "grad_norm": 0.8381466865539551,
      "learning_rate": 6.192893401015228e-05,
      "loss": 5.4977,
      "step": 142
    },
    {
      "epoch": 0.7072642967542504,
      "grad_norm": 1.01845121383667,
      "learning_rate": 6.091370558375635e-05,
      "loss": 5.4162,
      "step": 143
    },
    {
      "epoch": 0.712210200927357,
      "grad_norm": 0.9204426407814026,
      "learning_rate": 5.989847715736041e-05,
      "loss": 5.4654,
      "step": 144
    },
    {
      "epoch": 0.7171561051004637,
      "grad_norm": 1.0901105403900146,
      "learning_rate": 5.8883248730964467e-05,
      "loss": 5.4262,
      "step": 145
    },
    {
      "epoch": 0.7221020092735704,
      "grad_norm": 0.9842381477355957,
      "learning_rate": 5.786802030456853e-05,
      "loss": 5.4622,
      "step": 146
    },
    {
      "epoch": 0.727047913446677,
      "grad_norm": 1.1234885454177856,
      "learning_rate": 5.68527918781726e-05,
      "loss": 5.4668,
      "step": 147
    },
    {
      "epoch": 0.7319938176197837,
      "grad_norm": 1.0685431957244873,
      "learning_rate": 5.583756345177665e-05,
      "loss": 5.4649,
      "step": 148
    },
    {
      "epoch": 0.7369397217928902,
      "grad_norm": 1.086138367652893,
      "learning_rate": 5.482233502538071e-05,
      "loss": 5.336,
      "step": 149
    },
    {
      "epoch": 0.7418856259659969,
      "grad_norm": 1.0806076526641846,
      "learning_rate": 5.380710659898477e-05,
      "loss": 5.3463,
      "step": 150
    },
    {
      "epoch": 0.7468315301391035,
      "grad_norm": 1.1613116264343262,
      "learning_rate": 5.2791878172588836e-05,
      "loss": 5.4095,
      "step": 151
    },
    {
      "epoch": 0.7517774343122102,
      "grad_norm": 1.1117639541625977,
      "learning_rate": 5.17766497461929e-05,
      "loss": 5.4248,
      "step": 152
    },
    {
      "epoch": 0.7567233384853168,
      "grad_norm": 0.9730443954467773,
      "learning_rate": 5.076142131979695e-05,
      "loss": 5.5573,
      "step": 153
    },
    {
      "epoch": 0.7616692426584235,
      "grad_norm": 1.0216584205627441,
      "learning_rate": 4.9746192893401014e-05,
      "loss": 5.3337,
      "step": 154
    },
    {
      "epoch": 0.7666151468315301,
      "grad_norm": 0.9828229546546936,
      "learning_rate": 4.873096446700508e-05,
      "loss": 5.3757,
      "step": 155
    },
    {
      "epoch": 0.7715610510046368,
      "grad_norm": 1.0315641164779663,
      "learning_rate": 4.771573604060914e-05,
      "loss": 5.4465,
      "step": 156
    },
    {
      "epoch": 0.7765069551777435,
      "grad_norm": 1.1969993114471436,
      "learning_rate": 4.67005076142132e-05,
      "loss": 5.4018,
      "step": 157
    },
    {
      "epoch": 0.7814528593508501,
      "grad_norm": 0.7633097171783447,
      "learning_rate": 4.568527918781726e-05,
      "loss": 5.5137,
      "step": 158
    },
    {
      "epoch": 0.7863987635239568,
      "grad_norm": 0.8312305212020874,
      "learning_rate": 4.467005076142132e-05,
      "loss": 5.4078,
      "step": 159
    },
    {
      "epoch": 0.7913446676970634,
      "grad_norm": 0.9463878870010376,
      "learning_rate": 4.365482233502538e-05,
      "loss": 5.3738,
      "step": 160
    },
    {
      "epoch": 0.79629057187017,
      "grad_norm": 0.8046661615371704,
      "learning_rate": 4.2639593908629446e-05,
      "loss": 5.455,
      "step": 161
    },
    {
      "epoch": 0.8012364760432766,
      "grad_norm": 1.0929735898971558,
      "learning_rate": 4.162436548223351e-05,
      "loss": 5.4263,
      "step": 162
    },
    {
      "epoch": 0.8061823802163833,
      "grad_norm": 1.0323022603988647,
      "learning_rate": 4.060913705583756e-05,
      "loss": 5.4503,
      "step": 163
    },
    {
      "epoch": 0.8111282843894899,
      "grad_norm": 0.7212726473808289,
      "learning_rate": 3.959390862944163e-05,
      "loss": 5.3904,
      "step": 164
    },
    {
      "epoch": 0.8160741885625966,
      "grad_norm": 0.8705483078956604,
      "learning_rate": 3.8578680203045685e-05,
      "loss": 5.2958,
      "step": 165
    },
    {
      "epoch": 0.8210200927357032,
      "grad_norm": 0.9705776572227478,
      "learning_rate": 3.756345177664975e-05,
      "loss": 5.3806,
      "step": 166
    },
    {
      "epoch": 0.8259659969088099,
      "grad_norm": 0.7694171667098999,
      "learning_rate": 3.654822335025381e-05,
      "loss": 5.3446,
      "step": 167
    },
    {
      "epoch": 0.8309119010819166,
      "grad_norm": 1.0148179531097412,
      "learning_rate": 3.553299492385787e-05,
      "loss": 5.4316,
      "step": 168
    },
    {
      "epoch": 0.8358578052550232,
      "grad_norm": 1.0124086141586304,
      "learning_rate": 3.451776649746193e-05,
      "loss": 5.2903,
      "step": 169
    },
    {
      "epoch": 0.8408037094281299,
      "grad_norm": 0.8755667209625244,
      "learning_rate": 3.3502538071065994e-05,
      "loss": 5.2636,
      "step": 170
    },
    {
      "epoch": 0.8457496136012365,
      "grad_norm": 0.992751955986023,
      "learning_rate": 3.248730964467005e-05,
      "loss": 5.3662,
      "step": 171
    },
    {
      "epoch": 0.8506955177743432,
      "grad_norm": 0.676480770111084,
      "learning_rate": 3.147208121827411e-05,
      "loss": 5.3912,
      "step": 172
    },
    {
      "epoch": 0.8556414219474497,
      "grad_norm": 0.8479735851287842,
      "learning_rate": 3.0456852791878175e-05,
      "loss": 5.5655,
      "step": 173
    },
    {
      "epoch": 0.8605873261205564,
      "grad_norm": 0.8780114054679871,
      "learning_rate": 2.9441624365482233e-05,
      "loss": 5.4011,
      "step": 174
    },
    {
      "epoch": 0.865533230293663,
      "grad_norm": 0.7192287445068359,
      "learning_rate": 2.84263959390863e-05,
      "loss": 5.46,
      "step": 175
    },
    {
      "epoch": 0.8704791344667697,
      "grad_norm": 0.9556674957275391,
      "learning_rate": 2.7411167512690357e-05,
      "loss": 5.4278,
      "step": 176
    },
    {
      "epoch": 0.8754250386398763,
      "grad_norm": 0.7303546667098999,
      "learning_rate": 2.6395939086294418e-05,
      "loss": 5.3822,
      "step": 177
    },
    {
      "epoch": 0.880370942812983,
      "grad_norm": 0.7659119963645935,
      "learning_rate": 2.5380710659898476e-05,
      "loss": 5.3925,
      "step": 178
    },
    {
      "epoch": 0.8853168469860896,
      "grad_norm": 0.8511722087860107,
      "learning_rate": 2.436548223350254e-05,
      "loss": 5.3318,
      "step": 179
    },
    {
      "epoch": 0.8902627511591963,
      "grad_norm": 0.8240477442741394,
      "learning_rate": 2.33502538071066e-05,
      "loss": 5.2479,
      "step": 180
    },
    {
      "epoch": 0.895208655332303,
      "grad_norm": 0.8193429112434387,
      "learning_rate": 2.233502538071066e-05,
      "loss": 5.4237,
      "step": 181
    },
    {
      "epoch": 0.9001545595054096,
      "grad_norm": 0.8074966669082642,
      "learning_rate": 2.1319796954314723e-05,
      "loss": 5.5029,
      "step": 182
    },
    {
      "epoch": 0.9051004636785163,
      "grad_norm": 0.6603164076805115,
      "learning_rate": 2.030456852791878e-05,
      "loss": 5.3007,
      "step": 183
    },
    {
      "epoch": 0.9100463678516229,
      "grad_norm": 0.633477509021759,
      "learning_rate": 1.9289340101522843e-05,
      "loss": 5.396,
      "step": 184
    },
    {
      "epoch": 0.9149922720247295,
      "grad_norm": 0.6681249141693115,
      "learning_rate": 1.8274111675126904e-05,
      "loss": 5.3733,
      "step": 185
    },
    {
      "epoch": 0.9199381761978361,
      "grad_norm": 0.756808340549469,
      "learning_rate": 1.7258883248730966e-05,
      "loss": 5.3439,
      "step": 186
    },
    {
      "epoch": 0.9248840803709428,
      "grad_norm": 0.64524906873703,
      "learning_rate": 1.6243654822335024e-05,
      "loss": 5.4027,
      "step": 187
    },
    {
      "epoch": 0.9298299845440494,
      "grad_norm": 0.7147576212882996,
      "learning_rate": 1.5228426395939088e-05,
      "loss": 5.3111,
      "step": 188
    },
    {
      "epoch": 0.9347758887171561,
      "grad_norm": 0.6565448641777039,
      "learning_rate": 1.421319796954315e-05,
      "loss": 5.3649,
      "step": 189
    },
    {
      "epoch": 0.9397217928902627,
      "grad_norm": 0.6476154923439026,
      "learning_rate": 1.3197969543147209e-05,
      "loss": 5.3617,
      "step": 190
    },
    {
      "epoch": 0.9446676970633694,
      "grad_norm": 0.6315869092941284,
      "learning_rate": 1.218274111675127e-05,
      "loss": 5.3247,
      "step": 191
    },
    {
      "epoch": 0.9496136012364761,
      "grad_norm": 0.6404466032981873,
      "learning_rate": 1.116751269035533e-05,
      "loss": 5.3402,
      "step": 192
    },
    {
      "epoch": 0.9545595054095827,
      "grad_norm": 0.6863434314727783,
      "learning_rate": 1.015228426395939e-05,
      "loss": 5.3436,
      "step": 193
    },
    {
      "epoch": 0.9595054095826894,
      "grad_norm": 0.6492709517478943,
      "learning_rate": 9.137055837563452e-06,
      "loss": 5.2449,
      "step": 194
    },
    {
      "epoch": 0.964451313755796,
      "grad_norm": 0.647345781326294,
      "learning_rate": 8.121827411167512e-06,
      "loss": 5.3811,
      "step": 195
    },
    {
      "epoch": 0.9693972179289027,
      "grad_norm": 0.711609423160553,
      "learning_rate": 7.106598984771575e-06,
      "loss": 5.3612,
      "step": 196
    },
    {
      "epoch": 0.9743431221020092,
      "grad_norm": 0.610159158706665,
      "learning_rate": 6.091370558375635e-06,
      "loss": 5.3041,
      "step": 197
    },
    {
      "epoch": 0.9792890262751159,
      "grad_norm": 0.61027592420578,
      "learning_rate": 5.076142131979695e-06,
      "loss": 5.3324,
      "step": 198
    },
    {
      "epoch": 0.9842349304482225,
      "grad_norm": 0.5848086476325989,
      "learning_rate": 4.060913705583756e-06,
      "loss": 5.3446,
      "step": 199
    },
    {
      "epoch": 0.9891808346213292,
      "grad_norm": 0.5617231130599976,
      "learning_rate": 3.0456852791878177e-06,
      "loss": 5.3997,
      "step": 200
    },
    {
      "epoch": 0.9941267387944358,
      "grad_norm": 0.6468728184700012,
      "learning_rate": 2.030456852791878e-06,
      "loss": 5.3444,
      "step": 201
    },
    {
      "epoch": 0.9990726429675425,
      "grad_norm": 0.629033088684082,
      "learning_rate": 1.015228426395939e-06,
      "loss": 5.3283,
      "step": 202
    }
  ],
  "logging_steps": 1,
  "max_steps": 202,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5526784012305408.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}