{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 120,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 4.380008697509766,
      "learning_rate": 8.333333333333334e-06,
      "loss": 3.8472,
      "step": 2
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 5.4320220947265625,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 4.4355,
      "step": 4
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.495668411254883,
      "learning_rate": 2.5e-05,
      "loss": 4.0183,
      "step": 6
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 5.333839416503906,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 4.4543,
      "step": 8
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 4.8141961097717285,
      "learning_rate": 4.166666666666667e-05,
      "loss": 4.0576,
      "step": 10
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.4542341232299805,
      "learning_rate": 5e-05,
      "loss": 3.3098,
      "step": 12
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 4.608759880065918,
      "learning_rate": 5.833333333333334e-05,
      "loss": 3.3983,
      "step": 14
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 3.7876033782958984,
      "learning_rate": 6.666666666666667e-05,
      "loss": 2.7265,
      "step": 16
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.206045627593994,
      "learning_rate": 7.500000000000001e-05,
      "loss": 2.4786,
      "step": 18
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 4.687928676605225,
      "learning_rate": 8.333333333333334e-05,
      "loss": 2.2298,
      "step": 20
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 4.639834880828857,
      "learning_rate": 9.166666666666667e-05,
      "loss": 2.5465,
      "step": 22
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.179326057434082,
      "learning_rate": 0.0001,
      "loss": 2.0804,
      "step": 24
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 4.4850287437438965,
      "learning_rate": 0.00010833333333333333,
      "loss": 2.0512,
      "step": 26
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 5.006600379943848,
      "learning_rate": 0.00011666666666666668,
      "loss": 2.1484,
      "step": 28
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.475966453552246,
      "learning_rate": 0.000125,
      "loss": 1.9871,
      "step": 30
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 4.605421543121338,
      "learning_rate": 0.00013333333333333334,
      "loss": 2.1455,
      "step": 32
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 4.921014785766602,
      "learning_rate": 0.00014166666666666668,
      "loss": 1.9162,
      "step": 34
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.6443634033203125,
      "learning_rate": 0.00015000000000000001,
      "loss": 2.0503,
      "step": 36
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 4.234635353088379,
      "learning_rate": 0.00015833333333333332,
      "loss": 2.0901,
      "step": 38
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 4.628840446472168,
      "learning_rate": 0.0001666666666666667,
      "loss": 1.8014,
      "step": 40
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.8235278129577637,
      "learning_rate": 0.000175,
      "loss": 1.8156,
      "step": 42
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 5.939589500427246,
      "learning_rate": 0.00018333333333333334,
      "loss": 1.7782,
      "step": 44
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 4.921348571777344,
      "learning_rate": 0.00019166666666666667,
      "loss": 1.7167,
      "step": 46
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.549618244171143,
      "learning_rate": 0.0002,
      "loss": 2.2041,
      "step": 48
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 4.085502624511719,
      "learning_rate": 0.00019998942319271077,
      "loss": 1.8483,
      "step": 50
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 3.6243653297424316,
      "learning_rate": 0.0001999576950082201,
      "loss": 2.0321,
      "step": 52
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.530813455581665,
      "learning_rate": 0.0001999048221581858,
      "loss": 1.819,
      "step": 54
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 3.175443649291992,
      "learning_rate": 0.00019983081582712685,
      "loss": 1.7011,
      "step": 56
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 3.0620853900909424,
      "learning_rate": 0.00019973569167005723,
      "loss": 1.6158,
      "step": 58
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.984229564666748,
      "learning_rate": 0.00019961946980917456,
      "loss": 1.8606,
      "step": 60
    },
    {
      "epoch": 0.5166666666666667,
      "grad_norm": 3.717822313308716,
      "learning_rate": 0.0001994821748296033,
      "loss": 1.7937,
      "step": 62
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 4.549349308013916,
      "learning_rate": 0.00019932383577419432,
      "loss": 1.9389,
      "step": 64
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.229006767272949,
      "learning_rate": 0.00019914448613738106,
      "loss": 1.5434,
      "step": 66
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 3.5755157470703125,
      "learning_rate": 0.00019894416385809444,
      "loss": 1.6555,
      "step": 68
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 3.2299246788024902,
      "learning_rate": 0.00019872291131173742,
      "loss": 1.7088,
      "step": 70
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.777369260787964,
      "learning_rate": 0.00019848077530122083,
      "loss": 1.7569,
      "step": 72
    },
    {
      "epoch": 0.6166666666666667,
      "grad_norm": 3.143406629562378,
      "learning_rate": 0.00019821780704706307,
      "loss": 1.7495,
      "step": 74
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 3.655970811843872,
      "learning_rate": 0.00019793406217655517,
      "loss": 1.6553,
      "step": 76
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.4324283599853516,
      "learning_rate": 0.00019762960071199333,
      "loss": 1.5155,
      "step": 78
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 3.7328310012817383,
      "learning_rate": 0.00019730448705798239,
      "loss": 1.8168,
      "step": 80
    },
    {
      "epoch": 0.6833333333333333,
      "grad_norm": 3.8750150203704834,
      "learning_rate": 0.0001969587899878116,
      "loss": 1.705,
      "step": 82
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.362231254577637,
      "learning_rate": 0.00019659258262890683,
      "loss": 1.3282,
      "step": 84
    },
    {
      "epoch": 0.7166666666666667,
      "grad_norm": 3.3029322624206543,
      "learning_rate": 0.00019620594244736133,
      "loss": 1.4785,
      "step": 86
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 3.272670269012451,
      "learning_rate": 0.0001957989512315489,
      "loss": 1.7328,
      "step": 88
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.447598457336426,
      "learning_rate": 0.0001953716950748227,
      "loss": 1.8185,
      "step": 90
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 2.942129373550415,
      "learning_rate": 0.0001949242643573034,
      "loss": 1.6651,
      "step": 92
    },
    {
      "epoch": 0.7833333333333333,
      "grad_norm": 3.0011799335479736,
      "learning_rate": 0.0001944567537267605,
      "loss": 1.8555,
      "step": 94
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.2934067249298096,
      "learning_rate": 0.00019396926207859084,
      "loss": 1.5531,
      "step": 96
    },
    {
      "epoch": 0.8166666666666667,
      "grad_norm": 3.1889824867248535,
      "learning_rate": 0.00019346189253489885,
      "loss": 1.8412,
      "step": 98
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 2.921942949295044,
      "learning_rate": 0.00019293475242268223,
      "loss": 1.4985,
      "step": 100
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.1884875297546387,
      "learning_rate": 0.0001923879532511287,
      "loss": 1.5736,
      "step": 102
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 3.4869801998138428,
      "learning_rate": 0.00019182161068802741,
      "loss": 1.4873,
      "step": 104
    },
    {
      "epoch": 0.8833333333333333,
      "grad_norm": 2.8857343196868896,
      "learning_rate": 0.00019123584453530144,
      "loss": 1.4827,
      "step": 106
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.214871406555176,
      "learning_rate": 0.000190630778703665,
      "loss": 1.6214,
      "step": 108
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 3.495774984359741,
      "learning_rate": 0.00019000654118641211,
      "loss": 1.6193,
      "step": 110
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 3.5762667655944824,
      "learning_rate": 0.00018936326403234125,
      "loss": 1.5264,
      "step": 112
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.465022563934326,
      "learning_rate": 0.00018870108331782217,
      "loss": 1.6963,
      "step": 114
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 3.743870973587036,
      "learning_rate": 0.00018802013911801112,
      "loss": 1.6291,
      "step": 116
    },
    {
      "epoch": 0.9833333333333333,
      "grad_norm": 4.362145900726318,
      "learning_rate": 0.0001873205754772196,
      "loss": 1.3957,
      "step": 118
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.093210220336914,
      "learning_rate": 0.00018660254037844388,
      "loss": 1.5895,
      "step": 120
    }
  ],
  "logging_steps": 2,
  "max_steps": 480,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 120,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3015894871572480.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}