{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.027597626604112045,
  "eval_steps": 5,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0005519525320822409,
      "grad_norm": 49.3896484375,
      "learning_rate": 2e-05,
      "loss": 15.639,
      "step": 1
    },
    {
      "epoch": 0.0005519525320822409,
      "eval_loss": 15.48481559753418,
      "eval_runtime": 1246.8244,
      "eval_samples_per_second": 2.448,
      "eval_steps_per_second": 0.612,
      "step": 1
    },
    {
      "epoch": 0.0011039050641644817,
      "grad_norm": 43.143096923828125,
      "learning_rate": 4e-05,
      "loss": 15.9656,
      "step": 2
    },
    {
      "epoch": 0.0016558575962467227,
      "grad_norm": 42.27900695800781,
      "learning_rate": 6e-05,
      "loss": 14.5477,
      "step": 3
    },
    {
      "epoch": 0.0022078101283289635,
      "grad_norm": 35.55159378051758,
      "learning_rate": 8e-05,
      "loss": 13.8423,
      "step": 4
    },
    {
      "epoch": 0.0027597626604112047,
      "grad_norm": 28.90843963623047,
      "learning_rate": 0.0001,
      "loss": 11.6,
      "step": 5
    },
    {
      "epoch": 0.0027597626604112047,
      "eval_loss": 9.31697940826416,
      "eval_runtime": 1251.6285,
      "eval_samples_per_second": 2.438,
      "eval_steps_per_second": 0.61,
      "step": 5
    },
    {
      "epoch": 0.0033117151924934455,
      "grad_norm": 17.291250228881836,
      "learning_rate": 0.00012,
      "loss": 8.8271,
      "step": 6
    },
    {
      "epoch": 0.0038636677245756867,
      "grad_norm": 14.542858123779297,
      "learning_rate": 0.00014,
      "loss": 6.783,
      "step": 7
    },
    {
      "epoch": 0.004415620256657927,
      "grad_norm": 15.988166809082031,
      "learning_rate": 0.00016,
      "loss": 5.04,
      "step": 8
    },
    {
      "epoch": 0.004967572788740169,
      "grad_norm": 11.107799530029297,
      "learning_rate": 0.00018,
      "loss": 3.1666,
      "step": 9
    },
    {
      "epoch": 0.005519525320822409,
      "grad_norm": 8.49847412109375,
      "learning_rate": 0.0002,
      "loss": 2.848,
      "step": 10
    },
    {
      "epoch": 0.005519525320822409,
      "eval_loss": 1.5960692167282104,
      "eval_runtime": 1251.6225,
      "eval_samples_per_second": 2.438,
      "eval_steps_per_second": 0.61,
      "step": 10
    },
    {
      "epoch": 0.00607147785290465,
      "grad_norm": 9.435093879699707,
      "learning_rate": 0.0001996917333733128,
      "loss": 1.4884,
      "step": 11
    },
    {
      "epoch": 0.006623430384986891,
      "grad_norm": 5.787126541137695,
      "learning_rate": 0.00019876883405951377,
      "loss": 1.1072,
      "step": 12
    },
    {
      "epoch": 0.007175382917069132,
      "grad_norm": 7.211236000061035,
      "learning_rate": 0.00019723699203976766,
      "loss": 0.7525,
      "step": 13
    },
    {
      "epoch": 0.007727335449151373,
      "grad_norm": 3.376772165298462,
      "learning_rate": 0.00019510565162951537,
      "loss": 0.6327,
      "step": 14
    },
    {
      "epoch": 0.008279287981233613,
      "grad_norm": 5.405968189239502,
      "learning_rate": 0.0001923879532511287,
      "loss": 0.7817,
      "step": 15
    },
    {
      "epoch": 0.008279287981233613,
      "eval_loss": 0.7636168599128723,
      "eval_runtime": 1251.5574,
      "eval_samples_per_second": 2.439,
      "eval_steps_per_second": 0.61,
      "step": 15
    },
    {
      "epoch": 0.008831240513315854,
      "grad_norm": 3.9902729988098145,
      "learning_rate": 0.0001891006524188368,
      "loss": 0.627,
      "step": 16
    },
    {
      "epoch": 0.009383193045398096,
      "grad_norm": 2.5724852085113525,
      "learning_rate": 0.00018526401643540922,
      "loss": 0.5967,
      "step": 17
    },
    {
      "epoch": 0.009935145577480337,
      "grad_norm": 1.6642274856567383,
      "learning_rate": 0.00018090169943749476,
      "loss": 0.5874,
      "step": 18
    },
    {
      "epoch": 0.010487098109562578,
      "grad_norm": 1.9328824281692505,
      "learning_rate": 0.0001760405965600031,
      "loss": 0.5923,
      "step": 19
    },
    {
      "epoch": 0.011039050641644819,
      "grad_norm": 2.5613882541656494,
      "learning_rate": 0.00017071067811865476,
      "loss": 0.6277,
      "step": 20
    },
    {
      "epoch": 0.011039050641644819,
      "eval_loss": 0.6654544472694397,
      "eval_runtime": 1251.338,
      "eval_samples_per_second": 2.439,
      "eval_steps_per_second": 0.61,
      "step": 20
    },
    {
      "epoch": 0.01159100317372706,
      "grad_norm": 1.8146625757217407,
      "learning_rate": 0.00016494480483301836,
      "loss": 0.5095,
      "step": 21
    },
    {
      "epoch": 0.0121429557058093,
      "grad_norm": 1.723757266998291,
      "learning_rate": 0.00015877852522924732,
      "loss": 0.5199,
      "step": 22
    },
    {
      "epoch": 0.012694908237891541,
      "grad_norm": 1.9776813983917236,
      "learning_rate": 0.0001522498564715949,
      "loss": 0.5826,
      "step": 23
    },
    {
      "epoch": 0.013246860769973782,
      "grad_norm": 2.0541515350341797,
      "learning_rate": 0.00014539904997395468,
      "loss": 0.6827,
      "step": 24
    },
    {
      "epoch": 0.013798813302056023,
      "grad_norm": 2.1682755947113037,
      "learning_rate": 0.000138268343236509,
      "loss": 0.6471,
      "step": 25
    },
    {
      "epoch": 0.013798813302056023,
      "eval_loss": 0.6166768074035645,
      "eval_runtime": 1251.447,
      "eval_samples_per_second": 2.439,
      "eval_steps_per_second": 0.61,
      "step": 25
    },
    {
      "epoch": 0.014350765834138263,
      "grad_norm": 2.2478325366973877,
      "learning_rate": 0.00013090169943749476,
      "loss": 0.7773,
      "step": 26
    },
    {
      "epoch": 0.014902718366220506,
      "grad_norm": 1.3889656066894531,
      "learning_rate": 0.00012334453638559057,
      "loss": 0.7084,
      "step": 27
    },
    {
      "epoch": 0.015454670898302747,
      "grad_norm": 1.7380234003067017,
      "learning_rate": 0.0001156434465040231,
      "loss": 0.6869,
      "step": 28
    },
    {
      "epoch": 0.016006623430384986,
      "grad_norm": 1.4783921241760254,
      "learning_rate": 0.0001078459095727845,
      "loss": 0.5719,
      "step": 29
    },
    {
      "epoch": 0.016558575962467226,
      "grad_norm": 1.596419334411621,
      "learning_rate": 0.0001,
      "loss": 0.4796,
      "step": 30
    },
    {
      "epoch": 0.016558575962467226,
      "eval_loss": 0.5793518424034119,
      "eval_runtime": 1251.2902,
      "eval_samples_per_second": 2.439,
      "eval_steps_per_second": 0.61,
      "step": 30
    },
    {
      "epoch": 0.017110528494549467,
      "grad_norm": 1.5877236127853394,
      "learning_rate": 9.215409042721552e-05,
      "loss": 0.5925,
      "step": 31
    },
    {
      "epoch": 0.017662481026631708,
      "grad_norm": 1.5007165670394897,
      "learning_rate": 8.435655349597689e-05,
      "loss": 0.6137,
      "step": 32
    },
    {
      "epoch": 0.018214433558713952,
      "grad_norm": 1.4610683917999268,
      "learning_rate": 7.66554636144095e-05,
      "loss": 0.4628,
      "step": 33
    },
    {
      "epoch": 0.018766386090796193,
      "grad_norm": 0.7523146867752075,
      "learning_rate": 6.909830056250527e-05,
      "loss": 0.4449,
      "step": 34
    },
    {
      "epoch": 0.019318338622878434,
      "grad_norm": 1.2376327514648438,
      "learning_rate": 6.173165676349103e-05,
      "loss": 0.4897,
      "step": 35
    },
    {
      "epoch": 0.019318338622878434,
      "eval_loss": 0.5563785433769226,
      "eval_runtime": 1251.5204,
      "eval_samples_per_second": 2.439,
      "eval_steps_per_second": 0.61,
      "step": 35
    },
    {
      "epoch": 0.019870291154960674,
      "grad_norm": 1.0166033506393433,
      "learning_rate": 5.4600950026045326e-05,
      "loss": 0.4334,
      "step": 36
    },
    {
      "epoch": 0.020422243687042915,
      "grad_norm": 0.8759408593177795,
      "learning_rate": 4.7750143528405126e-05,
      "loss": 0.3917,
      "step": 37
    },
    {
      "epoch": 0.020974196219125156,
      "grad_norm": 1.4520206451416016,
      "learning_rate": 4.12214747707527e-05,
      "loss": 0.5742,
      "step": 38
    },
    {
      "epoch": 0.021526148751207397,
      "grad_norm": 1.113675594329834,
      "learning_rate": 3.5055195166981645e-05,
      "loss": 0.5707,
      "step": 39
    },
    {
      "epoch": 0.022078101283289638,
      "grad_norm": 1.3002536296844482,
      "learning_rate": 2.9289321881345254e-05,
      "loss": 0.5998,
      "step": 40
    },
    {
      "epoch": 0.022078101283289638,
      "eval_loss": 0.5418702960014343,
      "eval_runtime": 1251.8554,
      "eval_samples_per_second": 2.438,
      "eval_steps_per_second": 0.609,
      "step": 40
    },
    {
      "epoch": 0.02263005381537188,
      "grad_norm": 1.0999929904937744,
      "learning_rate": 2.3959403439996907e-05,
      "loss": 0.4751,
      "step": 41
    },
    {
      "epoch": 0.02318200634745412,
      "grad_norm": 1.3158468008041382,
      "learning_rate": 1.9098300562505266e-05,
      "loss": 0.6463,
      "step": 42
    },
    {
      "epoch": 0.02373395887953636,
      "grad_norm": 2.3532841205596924,
      "learning_rate": 1.4735983564590783e-05,
      "loss": 0.7916,
      "step": 43
    },
    {
      "epoch": 0.0242859114116186,
      "grad_norm": 1.268966794013977,
      "learning_rate": 1.0899347581163221e-05,
      "loss": 0.4733,
      "step": 44
    },
    {
      "epoch": 0.02483786394370084,
      "grad_norm": 1.0840526819229126,
      "learning_rate": 7.612046748871327e-06,
      "loss": 0.5932,
      "step": 45
    },
    {
      "epoch": 0.02483786394370084,
      "eval_loss": 0.5364078879356384,
      "eval_runtime": 1251.3181,
      "eval_samples_per_second": 2.439,
      "eval_steps_per_second": 0.61,
      "step": 45
    },
    {
      "epoch": 0.025389816475783082,
      "grad_norm": 1.5335124731063843,
      "learning_rate": 4.8943483704846475e-06,
      "loss": 0.4034,
      "step": 46
    },
    {
      "epoch": 0.025941769007865323,
      "grad_norm": 1.1978284120559692,
      "learning_rate": 2.7630079602323442e-06,
      "loss": 0.4882,
      "step": 47
    },
    {
      "epoch": 0.026493721539947564,
      "grad_norm": 1.2461581230163574,
      "learning_rate": 1.231165940486234e-06,
      "loss": 0.5497,
      "step": 48
    },
    {
      "epoch": 0.027045674072029804,
      "grad_norm": 1.0206390619277954,
      "learning_rate": 3.0826662668720364e-07,
      "loss": 0.4729,
      "step": 49
    },
    {
      "epoch": 0.027597626604112045,
      "grad_norm": 1.3069730997085571,
      "learning_rate": 0.0,
      "loss": 0.415,
      "step": 50
    },
    {
      "epoch": 0.027597626604112045,
      "eval_loss": 0.5334399342536926,
      "eval_runtime": 1251.5092,
      "eval_samples_per_second": 2.439,
      "eval_steps_per_second": 0.61,
      "step": 50
    }
  ],
  "logging_steps": 1,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.647225084051456e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}