{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.00914703864623828,
  "eval_steps": 3,
  "global_step": 10,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.000914703864623828,
      "grad_norm": 3.900874614715576,
      "learning_rate": 2e-05,
      "loss": 3.2092,
      "step": 1
    },
    {
      "epoch": 0.000914703864623828,
      "eval_loss": 2.992326259613037,
      "eval_runtime": 16.5375,
      "eval_samples_per_second": 27.876,
      "eval_steps_per_second": 13.968,
      "step": 1
    },
    {
      "epoch": 0.001829407729247656,
      "grad_norm": 3.652104616165161,
      "learning_rate": 4e-05,
      "loss": 2.9802,
      "step": 2
    },
    {
      "epoch": 0.002744111593871484,
      "grad_norm": 3.8684983253479004,
      "learning_rate": 6e-05,
      "loss": 3.1291,
      "step": 3
    },
    {
      "epoch": 0.002744111593871484,
      "eval_loss": 2.951554298400879,
      "eval_runtime": 16.4945,
      "eval_samples_per_second": 27.949,
      "eval_steps_per_second": 14.005,
      "step": 3
    },
    {
      "epoch": 0.003658815458495312,
      "grad_norm": 3.71295166015625,
      "learning_rate": 8e-05,
      "loss": 2.9264,
      "step": 4
    },
    {
      "epoch": 0.00457351932311914,
      "grad_norm": 3.8728957176208496,
      "learning_rate": 0.0001,
      "loss": 2.8292,
      "step": 5
    },
    {
      "epoch": 0.005488223187742968,
      "grad_norm": 3.653064250946045,
      "learning_rate": 0.00012,
      "loss": 2.7049,
      "step": 6
    },
    {
      "epoch": 0.005488223187742968,
      "eval_loss": 2.4208076000213623,
      "eval_runtime": 16.5085,
      "eval_samples_per_second": 27.925,
      "eval_steps_per_second": 13.993,
      "step": 6
    },
    {
      "epoch": 0.006402927052366796,
      "grad_norm": 3.2386770248413086,
      "learning_rate": 0.00014,
      "loss": 2.3247,
      "step": 7
    },
    {
      "epoch": 0.007317630916990624,
      "grad_norm": 3.0688631534576416,
      "learning_rate": 0.00016,
      "loss": 2.1412,
      "step": 8
    },
    {
      "epoch": 0.008232334781614453,
      "grad_norm": 2.363431930541992,
      "learning_rate": 0.00018,
      "loss": 1.8799,
      "step": 9
    },
    {
      "epoch": 0.008232334781614453,
      "eval_loss": 1.7819440364837646,
      "eval_runtime": 16.514,
      "eval_samples_per_second": 27.916,
      "eval_steps_per_second": 13.988,
      "step": 9
    },
    {
      "epoch": 0.00914703864623828,
      "grad_norm": 2.161442279815674,
      "learning_rate": 0.0002,
      "loss": 1.5952,
      "step": 10
    }
  ],
  "logging_steps": 1,
  "max_steps": 10,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 3,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 489477793382400.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}