{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.213464258078288,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 5.555555555555555e-05,
      "loss": 20.8315,
      "step": 10
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0001111111111111111,
      "loss": 16.4875,
      "step": 20
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00016666666666666666,
      "loss": 10.6503,
      "step": 30
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002222222222222222,
      "loss": 6.6236,
      "step": 40
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002777777777777778,
      "loss": 5.2548,
      "step": 50
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0003333333333333333,
      "loss": 4.6801,
      "step": 60
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0003888888888888889,
      "loss": 4.3374,
      "step": 70
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0004444444444444444,
      "loss": 3.9614,
      "step": 80
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0005,
      "loss": 3.9704,
      "step": 90
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0004977797513321492,
      "loss": 3.8112,
      "step": 100
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0004955595026642984,
      "loss": 3.6272,
      "step": 110
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0004933392539964477,
      "loss": 3.5572,
      "step": 120
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0004911190053285969,
      "loss": 3.3966,
      "step": 130
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.000488898756660746,
      "loss": 3.4632,
      "step": 140
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0004866785079928952,
      "loss": 3.4591,
      "step": 150
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0004844582593250444,
      "loss": 3.2218,
      "step": 160
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0004822380106571936,
      "loss": 3.4101,
      "step": 170
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00048001776198934283,
      "loss": 3.2787,
      "step": 180
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.000477797513321492,
      "loss": 3.1043,
      "step": 190
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0004755772646536412,
      "loss": 3.2435,
      "step": 200
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00047335701598579037,
      "loss": 3.2286,
      "step": 210
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00047113676731793964,
      "loss": 3.1484,
      "step": 220
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00046891651865008885,
      "loss": 3.1817,
      "step": 230
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.000466696269982238,
      "loss": 3.1608,
      "step": 240
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00046447602131438723,
      "loss": 3.1457,
      "step": 250
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0004622557726465364,
      "loss": 3.1212,
      "step": 260
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00046003552397868566,
      "loss": 2.9937,
      "step": 270
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0004578152753108348,
      "loss": 3.2031,
      "step": 280
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00045559502664298403,
      "loss": 3.0713,
      "step": 290
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0004533747779751332,
      "loss": 3.0352,
      "step": 300
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0004511545293072824,
      "loss": 3.0872,
      "step": 310
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0004489342806394316,
      "loss": 3.0049,
      "step": 320
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00044671403197158084,
      "loss": 3.0659,
      "step": 330
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00044449378330373,
      "loss": 3.0852,
      "step": 340
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0004422735346358792,
      "loss": 2.9506,
      "step": 350
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00044005328596802843,
      "loss": 3.027,
      "step": 360
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00043783303730017764,
      "loss": 2.8812,
      "step": 370
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00043561278863232686,
      "loss": 2.9738,
      "step": 380
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.000433392539964476,
      "loss": 3.0504,
      "step": 390
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00043117229129662523,
      "loss": 3.0195,
      "step": 400
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0004289520426287744,
      "loss": 2.968,
      "step": 410
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00042673179396092366,
      "loss": 3.0864,
      "step": 420
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0004245115452930728,
      "loss": 2.8735,
      "step": 430
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00042229129662522204,
      "loss": 3.0391,
      "step": 440
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0004200710479573712,
      "loss": 2.8288,
      "step": 450
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0004178507992895204,
      "loss": 3.0182,
      "step": 460
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0004156305506216697,
      "loss": 3.0606,
      "step": 470
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00041341030195381884,
      "loss": 2.9467,
      "step": 480
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00041119005328596806,
      "loss": 2.7842,
      "step": 490
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0004089698046181172,
      "loss": 2.8472,
      "step": 500
    }
  ],
  "max_steps": 2342,
  "num_train_epochs": 1,
  "total_flos": 1.18055554516992e+16,
  "trial_name": null,
  "trial_params": null
}