{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 0,
  "global_step": 222,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0045045045045045045,
      "grad_norm": 1.2566670179367065,
      "learning_rate": 1e-05,
      "loss": 2.1594,
      "step": 1
    },
    {
      "epoch": 0.009009009009009009,
      "grad_norm": 1.3166431188583374,
      "learning_rate": 9.954954954954956e-06,
      "loss": 2.2132,
      "step": 2
    },
    {
      "epoch": 0.013513513513513514,
      "grad_norm": 1.1356697082519531,
      "learning_rate": 9.90990990990991e-06,
      "loss": 2.2119,
      "step": 3
    },
    {
      "epoch": 0.018018018018018018,
      "grad_norm": 1.0702391862869263,
      "learning_rate": 9.864864864864865e-06,
      "loss": 2.1938,
      "step": 4
    },
    {
      "epoch": 0.02252252252252252,
      "grad_norm": 0.8918168544769287,
      "learning_rate": 9.81981981981982e-06,
      "loss": 2.0309,
      "step": 5
    },
    {
      "epoch": 0.02702702702702703,
      "grad_norm": 0.7154862284660339,
      "learning_rate": 9.774774774774776e-06,
      "loss": 2.0616,
      "step": 6
    },
    {
      "epoch": 0.03153153153153153,
      "grad_norm": 0.5682778358459473,
      "learning_rate": 9.729729729729732e-06,
      "loss": 2.0363,
      "step": 7
    },
    {
      "epoch": 0.036036036036036036,
      "grad_norm": 0.5076786279678345,
      "learning_rate": 9.684684684684685e-06,
      "loss": 2.0522,
      "step": 8
    },
    {
      "epoch": 0.04054054054054054,
      "grad_norm": 0.4461546242237091,
      "learning_rate": 9.63963963963964e-06,
      "loss": 1.9089,
      "step": 9
    },
    {
      "epoch": 0.04504504504504504,
      "grad_norm": 0.4346140921115875,
      "learning_rate": 9.594594594594594e-06,
      "loss": 1.9602,
      "step": 10
    },
    {
      "epoch": 0.04954954954954955,
      "grad_norm": 0.4008011221885681,
      "learning_rate": 9.54954954954955e-06,
      "loss": 1.8885,
      "step": 11
    },
    {
      "epoch": 0.05405405405405406,
      "grad_norm": 0.45306283235549927,
      "learning_rate": 9.504504504504505e-06,
      "loss": 1.9709,
      "step": 12
    },
    {
      "epoch": 0.05855855855855856,
      "grad_norm": 0.4317336976528168,
      "learning_rate": 9.45945945945946e-06,
      "loss": 1.9217,
      "step": 13
    },
    {
      "epoch": 0.06306306306306306,
      "grad_norm": 0.46998730301856995,
      "learning_rate": 9.414414414414416e-06,
      "loss": 1.9646,
      "step": 14
    },
    {
      "epoch": 0.06756756756756757,
      "grad_norm": 0.45305079221725464,
      "learning_rate": 9.36936936936937e-06,
      "loss": 1.9187,
      "step": 15
    },
    {
      "epoch": 0.07207207207207207,
      "grad_norm": 0.4199839234352112,
      "learning_rate": 9.324324324324325e-06,
      "loss": 1.8936,
      "step": 16
    },
    {
      "epoch": 0.07657657657657657,
      "grad_norm": 0.4986380338668823,
      "learning_rate": 9.27927927927928e-06,
      "loss": 1.8621,
      "step": 17
    },
    {
      "epoch": 0.08108108108108109,
      "grad_norm": 0.4216298460960388,
      "learning_rate": 9.234234234234236e-06,
      "loss": 1.8635,
      "step": 18
    },
    {
      "epoch": 0.08558558558558559,
      "grad_norm": 0.41982901096343994,
      "learning_rate": 9.189189189189191e-06,
      "loss": 1.8033,
      "step": 19
    },
    {
      "epoch": 0.09009009009009009,
      "grad_norm": 0.4160957932472229,
      "learning_rate": 9.144144144144145e-06,
      "loss": 1.7435,
      "step": 20
    },
    {
      "epoch": 0.0945945945945946,
      "grad_norm": 0.41792482137680054,
      "learning_rate": 9.0990990990991e-06,
      "loss": 1.793,
      "step": 21
    },
    {
      "epoch": 0.0990990990990991,
      "grad_norm": 0.3820149302482605,
      "learning_rate": 9.054054054054054e-06,
      "loss": 1.7521,
      "step": 22
    },
    {
      "epoch": 0.1036036036036036,
      "grad_norm": 0.3975209593772888,
      "learning_rate": 9.00900900900901e-06,
      "loss": 1.7335,
      "step": 23
    },
    {
      "epoch": 0.10810810810810811,
      "grad_norm": 0.38875165581703186,
      "learning_rate": 8.963963963963965e-06,
      "loss": 1.6882,
      "step": 24
    },
    {
      "epoch": 0.11261261261261261,
      "grad_norm": 0.37895408272743225,
      "learning_rate": 8.91891891891892e-06,
      "loss": 1.6705,
      "step": 25
    },
    {
      "epoch": 0.11711711711711711,
      "grad_norm": 0.35655105113983154,
      "learning_rate": 8.873873873873876e-06,
      "loss": 1.6445,
      "step": 26
    },
    {
      "epoch": 0.12162162162162163,
      "grad_norm": 0.3641006350517273,
      "learning_rate": 8.82882882882883e-06,
      "loss": 1.7003,
      "step": 27
    },
    {
      "epoch": 0.12612612612612611,
      "grad_norm": 0.3307623267173767,
      "learning_rate": 8.783783783783785e-06,
      "loss": 1.5874,
      "step": 28
    },
    {
      "epoch": 0.13063063063063063,
      "grad_norm": 0.3557901680469513,
      "learning_rate": 8.738738738738739e-06,
      "loss": 1.6013,
      "step": 29
    },
    {
      "epoch": 0.13513513513513514,
      "grad_norm": 0.41103506088256836,
      "learning_rate": 8.693693693693694e-06,
      "loss": 1.5941,
      "step": 30
    },
    {
      "epoch": 0.13963963963963963,
      "grad_norm": 0.32706138491630554,
      "learning_rate": 8.64864864864865e-06,
      "loss": 1.6074,
      "step": 31
    },
    {
      "epoch": 0.14414414414414414,
      "grad_norm": 0.3554784059524536,
      "learning_rate": 8.603603603603605e-06,
      "loss": 1.5719,
      "step": 32
    },
    {
      "epoch": 0.14864864864864866,
      "grad_norm": 0.3174247741699219,
      "learning_rate": 8.55855855855856e-06,
      "loss": 1.5494,
      "step": 33
    },
    {
      "epoch": 0.15315315315315314,
      "grad_norm": 0.3277525305747986,
      "learning_rate": 8.513513513513514e-06,
      "loss": 1.5444,
      "step": 34
    },
    {
      "epoch": 0.15765765765765766,
      "grad_norm": 0.2990944981575012,
      "learning_rate": 8.46846846846847e-06,
      "loss": 1.5001,
      "step": 35
    },
    {
      "epoch": 0.16216216216216217,
      "grad_norm": 0.30315157771110535,
      "learning_rate": 8.423423423423423e-06,
      "loss": 1.5078,
      "step": 36
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.3113075792789459,
      "learning_rate": 8.378378378378378e-06,
      "loss": 1.524,
      "step": 37
    },
    {
      "epoch": 0.17117117117117117,
      "grad_norm": 0.27833956480026245,
      "learning_rate": 8.333333333333334e-06,
      "loss": 1.4534,
      "step": 38
    },
    {
      "epoch": 0.17567567567567569,
      "grad_norm": 0.29106053709983826,
      "learning_rate": 8.288288288288289e-06,
      "loss": 1.5049,
      "step": 39
    },
    {
      "epoch": 0.18018018018018017,
      "grad_norm": 0.2662827670574188,
      "learning_rate": 8.243243243243245e-06,
      "loss": 1.4539,
      "step": 40
    },
    {
      "epoch": 0.18468468468468469,
      "grad_norm": 0.26082703471183777,
      "learning_rate": 8.198198198198198e-06,
      "loss": 1.4567,
      "step": 41
    },
    {
      "epoch": 0.1891891891891892,
      "grad_norm": 0.24727782607078552,
      "learning_rate": 8.153153153153154e-06,
      "loss": 1.4357,
      "step": 42
    },
    {
      "epoch": 0.19369369369369369,
      "grad_norm": 0.2903371751308441,
      "learning_rate": 8.108108108108109e-06,
      "loss": 1.463,
      "step": 43
    },
    {
      "epoch": 0.1981981981981982,
      "grad_norm": 0.24730998277664185,
      "learning_rate": 8.063063063063063e-06,
      "loss": 1.4203,
      "step": 44
    },
    {
      "epoch": 0.20270270270270271,
      "grad_norm": 0.2690972685813904,
      "learning_rate": 8.018018018018018e-06,
      "loss": 1.3944,
      "step": 45
    },
    {
      "epoch": 0.2072072072072072,
      "grad_norm": 0.2970140278339386,
      "learning_rate": 7.972972972972974e-06,
      "loss": 1.4552,
      "step": 46
    },
    {
      "epoch": 0.21171171171171171,
      "grad_norm": 0.2516852915287018,
      "learning_rate": 7.927927927927929e-06,
      "loss": 1.4459,
      "step": 47
    },
    {
      "epoch": 0.21621621621621623,
      "grad_norm": 0.2682577669620514,
      "learning_rate": 7.882882882882884e-06,
      "loss": 1.4613,
      "step": 48
    },
    {
      "epoch": 0.22072072072072071,
      "grad_norm": 0.2461327463388443,
      "learning_rate": 7.837837837837838e-06,
      "loss": 1.3987,
      "step": 49
    },
    {
      "epoch": 0.22522522522522523,
      "grad_norm": 0.23955729603767395,
      "learning_rate": 7.792792792792793e-06,
      "loss": 1.3749,
      "step": 50
    },
    {
      "epoch": 0.22972972972972974,
      "grad_norm": 0.23357929289340973,
      "learning_rate": 7.747747747747749e-06,
      "loss": 1.3415,
      "step": 51
    },
    {
      "epoch": 0.23423423423423423,
      "grad_norm": 0.22618047893047333,
      "learning_rate": 7.702702702702704e-06,
      "loss": 1.3339,
      "step": 52
    },
    {
      "epoch": 0.23873873873873874,
      "grad_norm": 0.22603119909763336,
      "learning_rate": 7.657657657657658e-06,
      "loss": 1.3442,
      "step": 53
    },
    {
      "epoch": 0.24324324324324326,
      "grad_norm": 0.2352239340543747,
      "learning_rate": 7.612612612612613e-06,
      "loss": 1.3526,
      "step": 54
    },
    {
      "epoch": 0.24774774774774774,
      "grad_norm": 0.23223401606082916,
      "learning_rate": 7.567567567567569e-06,
      "loss": 1.3261,
      "step": 55
    },
    {
      "epoch": 0.25225225225225223,
      "grad_norm": 0.7703620791435242,
      "learning_rate": 7.5225225225225225e-06,
      "loss": 1.3928,
      "step": 56
    },
    {
      "epoch": 0.25675675675675674,
      "grad_norm": 0.29785215854644775,
      "learning_rate": 7.477477477477479e-06,
      "loss": 1.3704,
      "step": 57
    },
    {
      "epoch": 0.26126126126126126,
      "grad_norm": 0.2290281057357788,
      "learning_rate": 7.4324324324324324e-06,
      "loss": 1.338,
      "step": 58
    },
    {
      "epoch": 0.26576576576576577,
      "grad_norm": 0.26275935769081116,
      "learning_rate": 7.387387387387388e-06,
      "loss": 1.3159,
      "step": 59
    },
    {
      "epoch": 0.2702702702702703,
      "grad_norm": 0.23764300346374512,
      "learning_rate": 7.342342342342343e-06,
      "loss": 1.3243,
      "step": 60
    },
    {
      "epoch": 0.2747747747747748,
      "grad_norm": 0.2543347477912903,
      "learning_rate": 7.297297297297298e-06,
      "loss": 1.297,
      "step": 61
    },
    {
      "epoch": 0.27927927927927926,
      "grad_norm": 0.23503302037715912,
      "learning_rate": 7.252252252252253e-06,
      "loss": 1.3282,
      "step": 62
    },
    {
      "epoch": 0.28378378378378377,
      "grad_norm": 0.26864713430404663,
      "learning_rate": 7.207207207207208e-06,
      "loss": 1.426,
      "step": 63
    },
    {
      "epoch": 0.2882882882882883,
      "grad_norm": 0.22483670711517334,
      "learning_rate": 7.162162162162163e-06,
      "loss": 1.2761,
      "step": 64
    },
    {
      "epoch": 0.2927927927927928,
      "grad_norm": 0.21639376878738403,
      "learning_rate": 7.117117117117117e-06,
      "loss": 1.2887,
      "step": 65
    },
    {
      "epoch": 0.2972972972972973,
      "grad_norm": 0.266499787569046,
      "learning_rate": 7.072072072072072e-06,
      "loss": 1.2516,
      "step": 66
    },
    {
      "epoch": 0.30180180180180183,
      "grad_norm": 0.20917026698589325,
      "learning_rate": 7.027027027027028e-06,
      "loss": 1.2435,
      "step": 67
    },
    {
      "epoch": 0.3063063063063063,
      "grad_norm": 0.21121156215667725,
      "learning_rate": 6.981981981981982e-06,
      "loss": 1.2511,
      "step": 68
    },
    {
      "epoch": 0.3108108108108108,
      "grad_norm": 0.20815303921699524,
      "learning_rate": 6.936936936936938e-06,
      "loss": 1.2395,
      "step": 69
    },
    {
      "epoch": 0.3153153153153153,
      "grad_norm": 0.20441721379756927,
      "learning_rate": 6.891891891891892e-06,
      "loss": 1.2207,
      "step": 70
    },
    {
      "epoch": 0.31981981981981983,
      "grad_norm": 0.27038154006004333,
      "learning_rate": 6.846846846846848e-06,
      "loss": 1.2755,
      "step": 71
    },
    {
      "epoch": 0.32432432432432434,
      "grad_norm": 0.1969137042760849,
      "learning_rate": 6.801801801801803e-06,
      "loss": 1.2682,
      "step": 72
    },
    {
      "epoch": 0.32882882882882886,
      "grad_norm": 0.1950535923242569,
      "learning_rate": 6.7567567567567575e-06,
      "loss": 1.2478,
      "step": 73
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.20662617683410645,
      "learning_rate": 6.711711711711713e-06,
      "loss": 1.2556,
      "step": 74
    },
    {
      "epoch": 0.33783783783783783,
      "grad_norm": 0.21787026524543762,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.2726,
      "step": 75
    },
    {
      "epoch": 0.34234234234234234,
      "grad_norm": 0.20209328830242157,
      "learning_rate": 6.621621621621622e-06,
      "loss": 1.2234,
      "step": 76
    },
    {
      "epoch": 0.34684684684684686,
      "grad_norm": 0.27792736887931824,
      "learning_rate": 6.5765765765765775e-06,
      "loss": 1.261,
      "step": 77
    },
    {
      "epoch": 0.35135135135135137,
      "grad_norm": 0.1990031898021698,
      "learning_rate": 6.531531531531532e-06,
      "loss": 1.2535,
      "step": 78
    },
    {
      "epoch": 0.35585585585585583,
      "grad_norm": 0.19727376103401184,
      "learning_rate": 6.486486486486487e-06,
      "loss": 1.2241,
      "step": 79
    },
    {
      "epoch": 0.36036036036036034,
      "grad_norm": 0.2797785699367523,
      "learning_rate": 6.441441441441442e-06,
      "loss": 1.2405,
      "step": 80
    },
    {
      "epoch": 0.36486486486486486,
      "grad_norm": 0.1984889805316925,
      "learning_rate": 6.396396396396397e-06,
      "loss": 1.2432,
      "step": 81
    },
    {
      "epoch": 0.36936936936936937,
      "grad_norm": 0.20458336174488068,
      "learning_rate": 6.351351351351351e-06,
      "loss": 1.2522,
      "step": 82
    },
    {
      "epoch": 0.3738738738738739,
      "grad_norm": 0.19509653747081757,
      "learning_rate": 6.3063063063063065e-06,
      "loss": 1.2205,
      "step": 83
    },
    {
      "epoch": 0.3783783783783784,
      "grad_norm": 0.2028757482767105,
      "learning_rate": 6.261261261261262e-06,
      "loss": 1.2006,
      "step": 84
    },
    {
      "epoch": 0.38288288288288286,
      "grad_norm": 0.19278135895729065,
      "learning_rate": 6.2162162162162164e-06,
      "loss": 1.1845,
      "step": 85
    },
    {
      "epoch": 0.38738738738738737,
      "grad_norm": 0.18517133593559265,
      "learning_rate": 6.171171171171172e-06,
      "loss": 1.2026,
      "step": 86
    },
    {
      "epoch": 0.3918918918918919,
      "grad_norm": 0.19620676338672638,
      "learning_rate": 6.126126126126126e-06,
      "loss": 1.2364,
      "step": 87
    },
    {
      "epoch": 0.3963963963963964,
      "grad_norm": 0.1975715458393097,
      "learning_rate": 6.081081081081082e-06,
      "loss": 1.2024,
      "step": 88
    },
    {
      "epoch": 0.4009009009009009,
      "grad_norm": 0.18808355927467346,
      "learning_rate": 6.036036036036037e-06,
      "loss": 1.177,
      "step": 89
    },
    {
      "epoch": 0.40540540540540543,
      "grad_norm": 0.19612877070903778,
      "learning_rate": 5.990990990990992e-06,
      "loss": 1.227,
      "step": 90
    },
    {
      "epoch": 0.4099099099099099,
      "grad_norm": 0.2943912446498871,
      "learning_rate": 5.945945945945947e-06,
      "loss": 1.1417,
      "step": 91
    },
    {
      "epoch": 0.4144144144144144,
      "grad_norm": 0.21018178761005402,
      "learning_rate": 5.900900900900901e-06,
      "loss": 1.2173,
      "step": 92
    },
    {
      "epoch": 0.4189189189189189,
      "grad_norm": 0.21625830233097076,
      "learning_rate": 5.855855855855856e-06,
      "loss": 1.1303,
      "step": 93
    },
    {
      "epoch": 0.42342342342342343,
      "grad_norm": 0.33413511514663696,
      "learning_rate": 5.810810810810811e-06,
      "loss": 1.2176,
      "step": 94
    },
    {
      "epoch": 0.42792792792792794,
      "grad_norm": 0.1891818791627884,
      "learning_rate": 5.765765765765766e-06,
      "loss": 1.1763,
      "step": 95
    },
    {
      "epoch": 0.43243243243243246,
      "grad_norm": 0.19281961023807526,
      "learning_rate": 5.720720720720722e-06,
      "loss": 1.1603,
      "step": 96
    },
    {
      "epoch": 0.4369369369369369,
      "grad_norm": 0.19003070890903473,
      "learning_rate": 5.675675675675676e-06,
      "loss": 1.1641,
      "step": 97
    },
    {
      "epoch": 0.44144144144144143,
      "grad_norm": 0.20949886739253998,
      "learning_rate": 5.6306306306306316e-06,
      "loss": 1.2002,
      "step": 98
    },
    {
      "epoch": 0.44594594594594594,
      "grad_norm": 0.3262260854244232,
      "learning_rate": 5.585585585585585e-06,
      "loss": 1.1473,
      "step": 99
    },
    {
      "epoch": 0.45045045045045046,
      "grad_norm": 0.1984277367591858,
      "learning_rate": 5.540540540540541e-06,
      "loss": 1.1764,
      "step": 100
    },
    {
      "epoch": 0.45495495495495497,
      "grad_norm": 0.26921844482421875,
      "learning_rate": 5.495495495495496e-06,
      "loss": 1.146,
      "step": 101
    },
    {
      "epoch": 0.4594594594594595,
      "grad_norm": 0.3085362911224365,
      "learning_rate": 5.450450450450451e-06,
      "loss": 1.1628,
      "step": 102
    },
    {
      "epoch": 0.46396396396396394,
      "grad_norm": 0.2017885446548462,
      "learning_rate": 5.405405405405406e-06,
      "loss": 1.167,
      "step": 103
    },
    {
      "epoch": 0.46846846846846846,
      "grad_norm": 0.1947575956583023,
      "learning_rate": 5.360360360360361e-06,
      "loss": 1.156,
      "step": 104
    },
    {
      "epoch": 0.47297297297297297,
      "grad_norm": 0.21785187721252441,
      "learning_rate": 5.315315315315316e-06,
      "loss": 1.1833,
      "step": 105
    },
    {
      "epoch": 0.4774774774774775,
      "grad_norm": 0.3092697858810425,
      "learning_rate": 5.2702702702702705e-06,
      "loss": 1.1656,
      "step": 106
    },
    {
      "epoch": 0.481981981981982,
      "grad_norm": 0.20409376919269562,
      "learning_rate": 5.225225225225226e-06,
      "loss": 1.1542,
      "step": 107
    },
    {
      "epoch": 0.4864864864864865,
      "grad_norm": 0.20760498940944672,
      "learning_rate": 5.180180180180181e-06,
      "loss": 1.1476,
      "step": 108
    },
    {
      "epoch": 0.49099099099099097,
      "grad_norm": 0.20225198566913605,
      "learning_rate": 5.135135135135135e-06,
      "loss": 1.1474,
      "step": 109
    },
    {
      "epoch": 0.4954954954954955,
      "grad_norm": 0.20316138863563538,
      "learning_rate": 5.0900900900900905e-06,
      "loss": 1.1944,
      "step": 110
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.20154717564582825,
      "learning_rate": 5.045045045045045e-06,
      "loss": 1.1774,
      "step": 111
    },
    {
      "epoch": 0.5045045045045045,
      "grad_norm": 0.19953371584415436,
      "learning_rate": 5e-06,
      "loss": 1.1432,
      "step": 112
    },
    {
      "epoch": 0.509009009009009,
      "grad_norm": 0.1997954249382019,
      "learning_rate": 4.954954954954955e-06,
      "loss": 1.1636,
      "step": 113
    },
    {
      "epoch": 0.5135135135135135,
      "grad_norm": 0.34597212076187134,
      "learning_rate": 4.90990990990991e-06,
      "loss": 1.1036,
      "step": 114
    },
    {
      "epoch": 0.5180180180180181,
      "grad_norm": 0.2539154589176178,
      "learning_rate": 4.864864864864866e-06,
      "loss": 1.1474,
      "step": 115
    },
    {
      "epoch": 0.5225225225225225,
      "grad_norm": 0.32874420285224915,
      "learning_rate": 4.81981981981982e-06,
      "loss": 1.1658,
      "step": 116
    },
    {
      "epoch": 0.527027027027027,
      "grad_norm": 0.20395039021968842,
      "learning_rate": 4.774774774774775e-06,
      "loss": 1.1902,
      "step": 117
    },
    {
      "epoch": 0.5315315315315315,
      "grad_norm": 0.20657777786254883,
      "learning_rate": 4.72972972972973e-06,
      "loss": 1.17,
      "step": 118
    },
    {
      "epoch": 0.536036036036036,
      "grad_norm": 0.24907758831977844,
      "learning_rate": 4.684684684684685e-06,
      "loss": 1.1585,
      "step": 119
    },
    {
      "epoch": 0.5405405405405406,
      "grad_norm": 0.20710723102092743,
      "learning_rate": 4.63963963963964e-06,
      "loss": 1.2017,
      "step": 120
    },
    {
      "epoch": 0.545045045045045,
      "grad_norm": 0.2256782352924347,
      "learning_rate": 4.594594594594596e-06,
      "loss": 1.1349,
      "step": 121
    },
    {
      "epoch": 0.5495495495495496,
      "grad_norm": 0.21588510274887085,
      "learning_rate": 4.54954954954955e-06,
      "loss": 1.1733,
      "step": 122
    },
    {
      "epoch": 0.5540540540540541,
      "grad_norm": 0.20950427651405334,
      "learning_rate": 4.504504504504505e-06,
      "loss": 1.1429,
      "step": 123
    },
    {
      "epoch": 0.5585585585585585,
      "grad_norm": 0.22216808795928955,
      "learning_rate": 4.45945945945946e-06,
      "loss": 1.1491,
      "step": 124
    },
    {
      "epoch": 0.5630630630630631,
      "grad_norm": 0.30549684166908264,
      "learning_rate": 4.414414414414415e-06,
      "loss": 1.1455,
      "step": 125
    },
    {
      "epoch": 0.5675675675675675,
      "grad_norm": 0.22195777297019958,
      "learning_rate": 4.369369369369369e-06,
      "loss": 1.1393,
      "step": 126
    },
    {
      "epoch": 0.5720720720720721,
      "grad_norm": 0.21224652230739594,
      "learning_rate": 4.324324324324325e-06,
      "loss": 1.1478,
      "step": 127
    },
    {
      "epoch": 0.5765765765765766,
      "grad_norm": 0.22067047655582428,
      "learning_rate": 4.27927927927928e-06,
      "loss": 1.162,
      "step": 128
    },
    {
      "epoch": 0.581081081081081,
      "grad_norm": 0.19921723008155823,
      "learning_rate": 4.234234234234235e-06,
      "loss": 1.1107,
      "step": 129
    },
    {
      "epoch": 0.5855855855855856,
      "grad_norm": 0.215830996632576,
      "learning_rate": 4.189189189189189e-06,
      "loss": 1.1294,
      "step": 130
    },
    {
      "epoch": 0.5900900900900901,
      "grad_norm": 0.20830397307872772,
      "learning_rate": 4.1441441441441446e-06,
      "loss": 1.1445,
      "step": 131
    },
    {
      "epoch": 0.5945945945945946,
      "grad_norm": 0.2246294915676117,
      "learning_rate": 4.099099099099099e-06,
      "loss": 1.1398,
      "step": 132
    },
    {
      "epoch": 0.5990990990990991,
      "grad_norm": 0.2195473462343216,
      "learning_rate": 4.0540540540540545e-06,
      "loss": 1.1064,
      "step": 133
    },
    {
      "epoch": 0.6036036036036037,
      "grad_norm": 0.36320027709007263,
      "learning_rate": 4.009009009009009e-06,
      "loss": 1.1541,
      "step": 134
    },
    {
      "epoch": 0.6081081081081081,
      "grad_norm": 0.2212103307247162,
      "learning_rate": 3.9639639639639645e-06,
      "loss": 1.1735,
      "step": 135
    },
    {
      "epoch": 0.6126126126126126,
      "grad_norm": 0.21350081264972687,
      "learning_rate": 3.918918918918919e-06,
      "loss": 1.0975,
      "step": 136
    },
    {
      "epoch": 0.6171171171171171,
      "grad_norm": 0.21368682384490967,
      "learning_rate": 3.8738738738738744e-06,
      "loss": 1.1008,
      "step": 137
    },
    {
      "epoch": 0.6216216216216216,
      "grad_norm": 0.21681347489356995,
      "learning_rate": 3.828828828828829e-06,
      "loss": 1.1174,
      "step": 138
    },
    {
      "epoch": 0.6261261261261262,
      "grad_norm": 0.28114575147628784,
      "learning_rate": 3.7837837837837844e-06,
      "loss": 1.0722,
      "step": 139
    },
    {
      "epoch": 0.6306306306306306,
      "grad_norm": 0.20643697679042816,
      "learning_rate": 3.7387387387387394e-06,
      "loss": 1.1044,
      "step": 140
    },
    {
      "epoch": 0.6351351351351351,
      "grad_norm": 0.21522904932498932,
      "learning_rate": 3.693693693693694e-06,
      "loss": 1.0651,
      "step": 141
    },
    {
      "epoch": 0.6396396396396397,
      "grad_norm": 0.22875232994556427,
      "learning_rate": 3.648648648648649e-06,
      "loss": 1.1236,
      "step": 142
    },
    {
      "epoch": 0.6441441441441441,
      "grad_norm": 0.21683155000209808,
      "learning_rate": 3.603603603603604e-06,
      "loss": 1.1283,
      "step": 143
    },
    {
      "epoch": 0.6486486486486487,
      "grad_norm": 0.21761640906333923,
      "learning_rate": 3.5585585585585584e-06,
      "loss": 1.1127,
      "step": 144
    },
    {
      "epoch": 0.6531531531531531,
      "grad_norm": 0.218350350856781,
      "learning_rate": 3.513513513513514e-06,
      "loss": 1.1366,
      "step": 145
    },
    {
      "epoch": 0.6576576576576577,
      "grad_norm": 0.2153811901807785,
      "learning_rate": 3.468468468468469e-06,
      "loss": 1.0907,
      "step": 146
    },
    {
      "epoch": 0.6621621621621622,
      "grad_norm": 0.21834655106067657,
      "learning_rate": 3.423423423423424e-06,
      "loss": 1.1444,
      "step": 147
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.21384570002555847,
      "learning_rate": 3.3783783783783788e-06,
      "loss": 1.1071,
      "step": 148
    },
    {
      "epoch": 0.6711711711711712,
      "grad_norm": 0.22194284200668335,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 1.0919,
      "step": 149
    },
    {
      "epoch": 0.6756756756756757,
      "grad_norm": 0.3285708427429199,
      "learning_rate": 3.2882882882882887e-06,
      "loss": 1.0625,
      "step": 150
    },
    {
      "epoch": 0.6801801801801802,
      "grad_norm": 0.21510125696659088,
      "learning_rate": 3.2432432432432437e-06,
      "loss": 1.0797,
      "step": 151
    },
    {
      "epoch": 0.6846846846846847,
      "grad_norm": 0.31038108468055725,
      "learning_rate": 3.1981981981981987e-06,
      "loss": 1.0644,
      "step": 152
    },
    {
      "epoch": 0.6891891891891891,
      "grad_norm": 0.2247278094291687,
      "learning_rate": 3.1531531531531532e-06,
      "loss": 1.0982,
      "step": 153
    },
    {
      "epoch": 0.6936936936936937,
      "grad_norm": 0.22029882669448853,
      "learning_rate": 3.1081081081081082e-06,
      "loss": 1.1497,
      "step": 154
    },
    {
      "epoch": 0.6981981981981982,
      "grad_norm": 0.2352089136838913,
      "learning_rate": 3.063063063063063e-06,
      "loss": 1.1124,
      "step": 155
    },
    {
      "epoch": 0.7027027027027027,
      "grad_norm": 0.20765094459056854,
      "learning_rate": 3.0180180180180186e-06,
      "loss": 1.0842,
      "step": 156
    },
    {
      "epoch": 0.7072072072072072,
      "grad_norm": 0.20810997486114502,
      "learning_rate": 2.9729729729729736e-06,
      "loss": 1.1364,
      "step": 157
    },
    {
      "epoch": 0.7117117117117117,
      "grad_norm": 0.2204781472682953,
      "learning_rate": 2.927927927927928e-06,
      "loss": 1.1561,
      "step": 158
    },
    {
      "epoch": 0.7162162162162162,
      "grad_norm": 0.35487455129623413,
      "learning_rate": 2.882882882882883e-06,
      "loss": 1.0998,
      "step": 159
    },
    {
      "epoch": 0.7207207207207207,
      "grad_norm": 0.2221256047487259,
      "learning_rate": 2.837837837837838e-06,
      "loss": 1.1001,
      "step": 160
    },
    {
      "epoch": 0.7252252252252253,
      "grad_norm": 0.23690156638622284,
      "learning_rate": 2.7927927927927926e-06,
      "loss": 1.121,
      "step": 161
    },
    {
      "epoch": 0.7297297297297297,
      "grad_norm": 0.22890615463256836,
      "learning_rate": 2.747747747747748e-06,
      "loss": 1.1066,
      "step": 162
    },
    {
      "epoch": 0.7342342342342343,
      "grad_norm": 0.21327795088291168,
      "learning_rate": 2.702702702702703e-06,
      "loss": 1.1274,
      "step": 163
    },
    {
      "epoch": 0.7387387387387387,
      "grad_norm": 0.2152496576309204,
      "learning_rate": 2.657657657657658e-06,
      "loss": 1.1094,
      "step": 164
    },
    {
      "epoch": 0.7432432432432432,
      "grad_norm": 0.36867421865463257,
      "learning_rate": 2.612612612612613e-06,
      "loss": 1.1012,
      "step": 165
    },
    {
      "epoch": 0.7477477477477478,
      "grad_norm": 0.272405743598938,
      "learning_rate": 2.5675675675675675e-06,
      "loss": 1.0683,
      "step": 166
    },
    {
      "epoch": 0.7522522522522522,
      "grad_norm": 0.21413108706474304,
      "learning_rate": 2.5225225225225225e-06,
      "loss": 1.1059,
      "step": 167
    },
    {
      "epoch": 0.7567567567567568,
      "grad_norm": 0.23103076219558716,
      "learning_rate": 2.4774774774774775e-06,
      "loss": 1.1282,
      "step": 168
    },
    {
      "epoch": 0.7612612612612613,
      "grad_norm": 0.21811868250370026,
      "learning_rate": 2.432432432432433e-06,
      "loss": 1.106,
      "step": 169
    },
    {
      "epoch": 0.7657657657657657,
      "grad_norm": 0.22819896042346954,
      "learning_rate": 2.3873873873873874e-06,
      "loss": 1.1195,
      "step": 170
    },
    {
      "epoch": 0.7702702702702703,
      "grad_norm": 0.22366435825824738,
      "learning_rate": 2.3423423423423424e-06,
      "loss": 1.0834,
      "step": 171
    },
    {
      "epoch": 0.7747747747747747,
      "grad_norm": 0.22309567034244537,
      "learning_rate": 2.297297297297298e-06,
      "loss": 1.0886,
      "step": 172
    },
    {
      "epoch": 0.7792792792792793,
      "grad_norm": 0.22586172819137573,
      "learning_rate": 2.2522522522522524e-06,
      "loss": 1.1088,
      "step": 173
    },
    {
      "epoch": 0.7837837837837838,
      "grad_norm": 0.22318992018699646,
      "learning_rate": 2.2072072072072073e-06,
      "loss": 1.0537,
      "step": 174
    },
    {
      "epoch": 0.7882882882882883,
      "grad_norm": 0.24247343838214874,
      "learning_rate": 2.1621621621621623e-06,
      "loss": 1.1353,
      "step": 175
    },
    {
      "epoch": 0.7927927927927928,
      "grad_norm": 0.22271431982517242,
      "learning_rate": 2.1171171171171173e-06,
      "loss": 1.0986,
      "step": 176
    },
    {
      "epoch": 0.7972972972972973,
      "grad_norm": 0.22821761667728424,
      "learning_rate": 2.0720720720720723e-06,
      "loss": 1.1166,
      "step": 177
    },
    {
      "epoch": 0.8018018018018018,
      "grad_norm": 0.22090591490268707,
      "learning_rate": 2.0270270270270273e-06,
      "loss": 1.1155,
      "step": 178
    },
    {
      "epoch": 0.8063063063063063,
      "grad_norm": 0.22879129648208618,
      "learning_rate": 1.9819819819819822e-06,
      "loss": 1.1053,
      "step": 179
    },
    {
      "epoch": 0.8108108108108109,
      "grad_norm": 0.2633263170719147,
      "learning_rate": 1.9369369369369372e-06,
      "loss": 1.0546,
      "step": 180
    },
    {
      "epoch": 0.8153153153153153,
      "grad_norm": 0.22341234982013702,
      "learning_rate": 1.8918918918918922e-06,
      "loss": 1.079,
      "step": 181
    },
    {
      "epoch": 0.8198198198198198,
      "grad_norm": 0.2203136384487152,
      "learning_rate": 1.846846846846847e-06,
      "loss": 1.0796,
      "step": 182
    },
    {
      "epoch": 0.8243243243243243,
      "grad_norm": 0.2808576226234436,
      "learning_rate": 1.801801801801802e-06,
      "loss": 1.0788,
      "step": 183
    },
    {
      "epoch": 0.8288288288288288,
      "grad_norm": 0.23773470520973206,
      "learning_rate": 1.756756756756757e-06,
      "loss": 1.1022,
      "step": 184
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.22197970747947693,
      "learning_rate": 1.711711711711712e-06,
      "loss": 1.1195,
      "step": 185
    },
    {
      "epoch": 0.8378378378378378,
      "grad_norm": 0.2221294343471527,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 1.1163,
      "step": 186
    },
    {
      "epoch": 0.8423423423423423,
      "grad_norm": 0.21815398335456848,
      "learning_rate": 1.6216216216216219e-06,
      "loss": 1.1148,
      "step": 187
    },
    {
      "epoch": 0.8468468468468469,
      "grad_norm": 0.2832950949668884,
      "learning_rate": 1.5765765765765766e-06,
      "loss": 1.0679,
      "step": 188
    },
    {
      "epoch": 0.8513513513513513,
      "grad_norm": 0.22958631813526154,
      "learning_rate": 1.5315315315315316e-06,
      "loss": 1.1245,
      "step": 189
    },
    {
      "epoch": 0.8558558558558559,
      "grad_norm": 0.2199319303035736,
      "learning_rate": 1.4864864864864868e-06,
      "loss": 1.0854,
      "step": 190
    },
    {
      "epoch": 0.8603603603603603,
      "grad_norm": 0.28327271342277527,
      "learning_rate": 1.4414414414414416e-06,
      "loss": 1.0862,
      "step": 191
    },
    {
      "epoch": 0.8648648648648649,
      "grad_norm": 0.22036948800086975,
      "learning_rate": 1.3963963963963963e-06,
      "loss": 1.0912,
      "step": 192
    },
    {
      "epoch": 0.8693693693693694,
      "grad_norm": 0.3840774893760681,
      "learning_rate": 1.3513513513513515e-06,
      "loss": 1.0874,
      "step": 193
    },
    {
      "epoch": 0.8738738738738738,
      "grad_norm": 0.3408300280570984,
      "learning_rate": 1.3063063063063065e-06,
      "loss": 1.0947,
      "step": 194
    },
    {
      "epoch": 0.8783783783783784,
      "grad_norm": 0.2144649177789688,
      "learning_rate": 1.2612612612612613e-06,
      "loss": 1.1096,
      "step": 195
    },
    {
      "epoch": 0.8828828828828829,
      "grad_norm": 0.22210632264614105,
      "learning_rate": 1.2162162162162164e-06,
      "loss": 1.0666,
      "step": 196
    },
    {
      "epoch": 0.8873873873873874,
      "grad_norm": 0.25738227367401123,
      "learning_rate": 1.1711711711711712e-06,
      "loss": 1.0619,
      "step": 197
    },
    {
      "epoch": 0.8918918918918919,
      "grad_norm": 0.2476595938205719,
      "learning_rate": 1.1261261261261262e-06,
      "loss": 1.1399,
      "step": 198
    },
    {
      "epoch": 0.8963963963963963,
      "grad_norm": 0.2333095520734787,
      "learning_rate": 1.0810810810810812e-06,
      "loss": 1.048,
      "step": 199
    },
    {
      "epoch": 0.9009009009009009,
      "grad_norm": 0.22180518507957458,
      "learning_rate": 1.0360360360360361e-06,
      "loss": 1.1323,
      "step": 200
    },
    {
      "epoch": 0.9054054054054054,
      "grad_norm": 0.2289266437292099,
      "learning_rate": 9.909909909909911e-07,
      "loss": 1.0893,
      "step": 201
    },
    {
      "epoch": 0.9099099099099099,
      "grad_norm": 0.21638958156108856,
      "learning_rate": 9.459459459459461e-07,
      "loss": 1.0816,
      "step": 202
    },
    {
      "epoch": 0.9144144144144144,
      "grad_norm": 0.22004657983779907,
      "learning_rate": 9.00900900900901e-07,
      "loss": 1.0632,
      "step": 203
    },
    {
      "epoch": 0.918918918918919,
      "grad_norm": 0.3541969060897827,
      "learning_rate": 8.55855855855856e-07,
      "loss": 1.0663,
      "step": 204
    },
    {
      "epoch": 0.9234234234234234,
      "grad_norm": 0.22266463935375214,
      "learning_rate": 8.108108108108109e-07,
      "loss": 1.0617,
      "step": 205
    },
    {
      "epoch": 0.9279279279279279,
      "grad_norm": 0.23067763447761536,
      "learning_rate": 7.657657657657658e-07,
      "loss": 1.114,
      "step": 206
    },
    {
      "epoch": 0.9324324324324325,
      "grad_norm": 0.21266970038414001,
      "learning_rate": 7.207207207207208e-07,
      "loss": 1.0603,
      "step": 207
    },
    {
      "epoch": 0.9369369369369369,
      "grad_norm": 0.2795141339302063,
      "learning_rate": 6.756756756756758e-07,
      "loss": 1.0355,
      "step": 208
    },
    {
      "epoch": 0.9414414414414415,
      "grad_norm": 0.26867029070854187,
      "learning_rate": 6.306306306306306e-07,
      "loss": 1.1287,
      "step": 209
    },
    {
      "epoch": 0.9459459459459459,
      "grad_norm": 0.349331259727478,
      "learning_rate": 5.855855855855856e-07,
      "loss": 1.0647,
      "step": 210
    },
    {
      "epoch": 0.9504504504504504,
      "grad_norm": 0.22261735796928406,
      "learning_rate": 5.405405405405406e-07,
      "loss": 1.0628,
      "step": 211
    },
    {
      "epoch": 0.954954954954955,
      "grad_norm": 0.22276563942432404,
      "learning_rate": 4.954954954954956e-07,
      "loss": 1.0837,
      "step": 212
    },
    {
      "epoch": 0.9594594594594594,
      "grad_norm": 0.23126626014709473,
      "learning_rate": 4.504504504504505e-07,
      "loss": 1.1118,
      "step": 213
    },
    {
      "epoch": 0.963963963963964,
      "grad_norm": 0.22872163355350494,
      "learning_rate": 4.0540540540540546e-07,
      "loss": 1.1043,
      "step": 214
    },
    {
      "epoch": 0.9684684684684685,
      "grad_norm": 0.2367175668478012,
      "learning_rate": 3.603603603603604e-07,
      "loss": 1.0671,
      "step": 215
    },
    {
      "epoch": 0.972972972972973,
      "grad_norm": 0.22722996771335602,
      "learning_rate": 3.153153153153153e-07,
      "loss": 1.0965,
      "step": 216
    },
    {
      "epoch": 0.9774774774774775,
      "grad_norm": 0.2310456484556198,
      "learning_rate": 2.702702702702703e-07,
      "loss": 1.0841,
      "step": 217
    },
    {
      "epoch": 0.9819819819819819,
      "grad_norm": 0.229848712682724,
      "learning_rate": 2.2522522522522524e-07,
      "loss": 1.1308,
      "step": 218
    },
    {
      "epoch": 0.9864864864864865,
      "grad_norm": 0.22196286916732788,
      "learning_rate": 1.801801801801802e-07,
      "loss": 1.0641,
      "step": 219
    },
    {
      "epoch": 0.990990990990991,
      "grad_norm": 0.23180727660655975,
      "learning_rate": 1.3513513513513515e-07,
      "loss": 1.0961,
      "step": 220
    },
    {
      "epoch": 0.9954954954954955,
      "grad_norm": 0.26836326718330383,
      "learning_rate": 9.00900900900901e-08,
      "loss": 1.0699,
      "step": 221
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.2234891951084137,
      "learning_rate": 4.504504504504505e-08,
      "loss": 1.0753,
      "step": 222
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 222,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.334265925874483e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}