{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.17012227538543329,
  "eval_steps": 100,
  "global_step": 400,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0004253056884635832,
      "eval_loss": 1.0832202434539795,
      "eval_runtime": 32.6752,
      "eval_samples_per_second": 30.298,
      "eval_steps_per_second": 15.149,
      "step": 1
    },
    {
      "epoch": 0.002126528442317916,
      "grad_norm": 0.7841684222221375,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.7602,
      "step": 5
    },
    {
      "epoch": 0.004253056884635832,
      "grad_norm": 0.921779453754425,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.8528,
      "step": 10
    },
    {
      "epoch": 0.006379585326953748,
      "grad_norm": 0.9533646106719971,
      "learning_rate": 5e-05,
      "loss": 1.0032,
      "step": 15
    },
    {
      "epoch": 0.008506113769271665,
      "grad_norm": 0.9230514764785767,
      "learning_rate": 6.666666666666667e-05,
      "loss": 0.9854,
      "step": 20
    },
    {
      "epoch": 0.01063264221158958,
      "grad_norm": 0.907342255115509,
      "learning_rate": 8.333333333333334e-05,
      "loss": 0.9975,
      "step": 25
    },
    {
      "epoch": 0.012759170653907496,
      "grad_norm": 1.0756146907806396,
      "learning_rate": 0.0001,
      "loss": 1.0462,
      "step": 30
    },
    {
      "epoch": 0.014885699096225412,
      "grad_norm": 1.1117802858352661,
      "learning_rate": 9.995494831023409e-05,
      "loss": 1.0375,
      "step": 35
    },
    {
      "epoch": 0.01701222753854333,
      "grad_norm": 1.5911064147949219,
      "learning_rate": 9.981987442712633e-05,
      "loss": 0.8992,
      "step": 40
    },
    {
      "epoch": 0.019138755980861243,
      "grad_norm": 1.1971668004989624,
      "learning_rate": 9.959502176294383e-05,
      "loss": 0.7314,
      "step": 45
    },
    {
      "epoch": 0.02126528442317916,
      "grad_norm": 1.0723843574523926,
      "learning_rate": 9.928079551738543e-05,
      "loss": 0.7988,
      "step": 50
    },
    {
      "epoch": 0.023391812865497075,
      "grad_norm": 0.5400782227516174,
      "learning_rate": 9.887776194738432e-05,
      "loss": 0.7173,
      "step": 55
    },
    {
      "epoch": 0.025518341307814992,
      "grad_norm": 0.5201585292816162,
      "learning_rate": 9.838664734667495e-05,
      "loss": 0.7165,
      "step": 60
    },
    {
      "epoch": 0.02764486975013291,
      "grad_norm": 0.5986294150352478,
      "learning_rate": 9.780833673696254e-05,
      "loss": 0.7515,
      "step": 65
    },
    {
      "epoch": 0.029771398192450824,
      "grad_norm": 0.6949173808097839,
      "learning_rate": 9.714387227305422e-05,
      "loss": 0.8674,
      "step": 70
    },
    {
      "epoch": 0.03189792663476874,
      "grad_norm": 0.7511739730834961,
      "learning_rate": 9.639445136482548e-05,
      "loss": 0.8676,
      "step": 75
    },
    {
      "epoch": 0.03402445507708666,
      "grad_norm": 0.8884425759315491,
      "learning_rate": 9.55614245194068e-05,
      "loss": 0.9426,
      "step": 80
    },
    {
      "epoch": 0.03615098351940457,
      "grad_norm": 1.1355093717575073,
      "learning_rate": 9.464629290747842e-05,
      "loss": 0.9845,
      "step": 85
    },
    {
      "epoch": 0.03827751196172249,
      "grad_norm": 0.7691839933395386,
      "learning_rate": 9.365070565805941e-05,
      "loss": 0.7586,
      "step": 90
    },
    {
      "epoch": 0.04040404040404041,
      "grad_norm": 0.9200711846351624,
      "learning_rate": 9.257645688666556e-05,
      "loss": 0.7443,
      "step": 95
    },
    {
      "epoch": 0.04253056884635832,
      "grad_norm": 1.6259804964065552,
      "learning_rate": 9.142548246219212e-05,
      "loss": 0.7642,
      "step": 100
    },
    {
      "epoch": 0.04253056884635832,
      "eval_loss": 0.7883314490318298,
      "eval_runtime": 32.4892,
      "eval_samples_per_second": 30.472,
      "eval_steps_per_second": 15.236,
      "step": 100
    },
    {
      "epoch": 0.044657097288676235,
      "grad_norm": 0.45502185821533203,
      "learning_rate": 9.019985651834703e-05,
      "loss": 0.6729,
      "step": 105
    },
    {
      "epoch": 0.04678362573099415,
      "grad_norm": 0.5358193516731262,
      "learning_rate": 8.890178771592199e-05,
      "loss": 0.7389,
      "step": 110
    },
    {
      "epoch": 0.04891015417331207,
      "grad_norm": 0.6835756301879883,
      "learning_rate": 8.753361526263621e-05,
      "loss": 0.7012,
      "step": 115
    },
    {
      "epoch": 0.051036682615629984,
      "grad_norm": 0.7369337677955627,
      "learning_rate": 8.609780469772623e-05,
      "loss": 0.7961,
      "step": 120
    },
    {
      "epoch": 0.0531632110579479,
      "grad_norm": 0.7770721316337585,
      "learning_rate": 8.459694344887732e-05,
      "loss": 0.8449,
      "step": 125
    },
    {
      "epoch": 0.05528973950026582,
      "grad_norm": 0.9152151346206665,
      "learning_rate": 8.303373616950408e-05,
      "loss": 0.7941,
      "step": 130
    },
    {
      "epoch": 0.05741626794258373,
      "grad_norm": 1.1904630661010742,
      "learning_rate": 8.141099986478212e-05,
      "loss": 0.8666,
      "step": 135
    },
    {
      "epoch": 0.05954279638490165,
      "grad_norm": 1.1595726013183594,
      "learning_rate": 7.973165881521434e-05,
      "loss": 0.8341,
      "step": 140
    },
    {
      "epoch": 0.06166932482721956,
      "grad_norm": 0.9822093844413757,
      "learning_rate": 7.799873930687978e-05,
      "loss": 0.8322,
      "step": 145
    },
    {
      "epoch": 0.06379585326953748,
      "grad_norm": 1.2074886560440063,
      "learning_rate": 7.621536417786159e-05,
      "loss": 0.6697,
      "step": 150
    },
    {
      "epoch": 0.0659223817118554,
      "grad_norm": 0.5012809038162231,
      "learning_rate": 7.438474719068173e-05,
      "loss": 0.6677,
      "step": 155
    },
    {
      "epoch": 0.06804891015417332,
      "grad_norm": 0.588683545589447,
      "learning_rate": 7.251018724088367e-05,
      "loss": 0.6848,
      "step": 160
    },
    {
      "epoch": 0.07017543859649122,
      "grad_norm": 0.6733798980712891,
      "learning_rate": 7.059506241219965e-05,
      "loss": 0.6562,
      "step": 165
    },
    {
      "epoch": 0.07230196703880915,
      "grad_norm": 0.6261290311813354,
      "learning_rate": 6.864282388901544e-05,
      "loss": 0.731,
      "step": 170
    },
    {
      "epoch": 0.07442849548112707,
      "grad_norm": 0.9433246850967407,
      "learning_rate": 6.665698973710288e-05,
      "loss": 0.7953,
      "step": 175
    },
    {
      "epoch": 0.07655502392344497,
      "grad_norm": 0.8979871273040771,
      "learning_rate": 6.464113856382752e-05,
      "loss": 0.8661,
      "step": 180
    },
    {
      "epoch": 0.0786815523657629,
      "grad_norm": 0.8001134395599365,
      "learning_rate": 6.259890306925627e-05,
      "loss": 0.8672,
      "step": 185
    },
    {
      "epoch": 0.08080808080808081,
      "grad_norm": 0.9000585675239563,
      "learning_rate": 6.0533963499786314e-05,
      "loss": 0.7966,
      "step": 190
    },
    {
      "epoch": 0.08293460925039872,
      "grad_norm": 0.9679039120674133,
      "learning_rate": 5.8450041016092464e-05,
      "loss": 0.7287,
      "step": 195
    },
    {
      "epoch": 0.08506113769271664,
      "grad_norm": 0.9612869024276733,
      "learning_rate": 5.6350890987343944e-05,
      "loss": 0.6869,
      "step": 200
    },
    {
      "epoch": 0.08506113769271664,
      "eval_loss": 0.74885493516922,
      "eval_runtime": 32.4345,
      "eval_samples_per_second": 30.523,
      "eval_steps_per_second": 15.262,
      "step": 200
    },
    {
      "epoch": 0.08718766613503455,
      "grad_norm": 0.45820483565330505,
      "learning_rate": 5.4240296223775465e-05,
      "loss": 0.5357,
      "step": 205
    },
    {
      "epoch": 0.08931419457735247,
      "grad_norm": 0.6561435461044312,
      "learning_rate": 5.212206015980742e-05,
      "loss": 0.7261,
      "step": 210
    },
    {
      "epoch": 0.09144072301967039,
      "grad_norm": 0.706652045249939,
      "learning_rate": 5e-05,
      "loss": 0.7772,
      "step": 215
    },
    {
      "epoch": 0.0935672514619883,
      "grad_norm": 0.7001965641975403,
      "learning_rate": 4.78779398401926e-05,
      "loss": 0.829,
      "step": 220
    },
    {
      "epoch": 0.09569377990430622,
      "grad_norm": 0.9561212658882141,
      "learning_rate": 4.575970377622456e-05,
      "loss": 0.8341,
      "step": 225
    },
    {
      "epoch": 0.09782030834662414,
      "grad_norm": 1.039799690246582,
      "learning_rate": 4.364910901265606e-05,
      "loss": 0.796,
      "step": 230
    },
    {
      "epoch": 0.09994683678894205,
      "grad_norm": 1.2402150630950928,
      "learning_rate": 4.1549958983907555e-05,
      "loss": 0.8059,
      "step": 235
    },
    {
      "epoch": 0.10207336523125997,
      "grad_norm": 0.7450068593025208,
      "learning_rate": 3.94660365002137e-05,
      "loss": 0.7875,
      "step": 240
    },
    {
      "epoch": 0.10419989367357789,
      "grad_norm": 0.8528944253921509,
      "learning_rate": 3.740109693074375e-05,
      "loss": 0.7362,
      "step": 245
    },
    {
      "epoch": 0.1063264221158958,
      "grad_norm": 1.327515721321106,
      "learning_rate": 3.5358861436172485e-05,
      "loss": 0.8017,
      "step": 250
    },
    {
      "epoch": 0.10845295055821372,
      "grad_norm": 0.5836326479911804,
      "learning_rate": 3.334301026289712e-05,
      "loss": 0.6268,
      "step": 255
    },
    {
      "epoch": 0.11057947900053164,
      "grad_norm": 0.5506888031959534,
      "learning_rate": 3.135717611098458e-05,
      "loss": 0.6116,
      "step": 260
    },
    {
      "epoch": 0.11270600744284955,
      "grad_norm": 0.7588187456130981,
      "learning_rate": 2.9404937587800375e-05,
      "loss": 0.6762,
      "step": 265
    },
    {
      "epoch": 0.11483253588516747,
      "grad_norm": 0.8159733414649963,
      "learning_rate": 2.748981275911633e-05,
      "loss": 0.8094,
      "step": 270
    },
    {
      "epoch": 0.11695906432748537,
      "grad_norm": 0.815102756023407,
      "learning_rate": 2.5615252809318284e-05,
      "loss": 0.6845,
      "step": 275
    },
    {
      "epoch": 0.1190855927698033,
      "grad_norm": 0.990524172782898,
      "learning_rate": 2.3784635822138424e-05,
      "loss": 0.7858,
      "step": 280
    },
    {
      "epoch": 0.12121212121212122,
      "grad_norm": 1.0764540433883667,
      "learning_rate": 2.2001260693120233e-05,
      "loss": 0.8093,
      "step": 285
    },
    {
      "epoch": 0.12333864965443912,
      "grad_norm": 0.8942254185676575,
      "learning_rate": 2.026834118478567e-05,
      "loss": 0.698,
      "step": 290
    },
    {
      "epoch": 0.12546517809675706,
      "grad_norm": 1.1617945432662964,
      "learning_rate": 1.858900013521788e-05,
      "loss": 0.8188,
      "step": 295
    },
    {
      "epoch": 0.12759170653907495,
      "grad_norm": 1.6578449010849,
      "learning_rate": 1.6966263830495936e-05,
      "loss": 0.6237,
      "step": 300
    },
    {
      "epoch": 0.12759170653907495,
      "eval_loss": 0.7355306148529053,
      "eval_runtime": 32.3471,
      "eval_samples_per_second": 30.606,
      "eval_steps_per_second": 15.303,
      "step": 300
    },
    {
      "epoch": 0.12971823498139287,
      "grad_norm": 0.5733609795570374,
      "learning_rate": 1.5403056551122697e-05,
      "loss": 0.6604,
      "step": 305
    },
    {
      "epoch": 0.1318447634237108,
      "grad_norm": 0.611932635307312,
      "learning_rate": 1.3902195302273779e-05,
      "loss": 0.6755,
      "step": 310
    },
    {
      "epoch": 0.1339712918660287,
      "grad_norm": 0.6192579865455627,
      "learning_rate": 1.246638473736378e-05,
      "loss": 0.7273,
      "step": 315
    },
    {
      "epoch": 0.13609782030834663,
      "grad_norm": 2.9742281436920166,
      "learning_rate": 1.1098212284078036e-05,
      "loss": 0.7241,
      "step": 320
    },
    {
      "epoch": 0.13822434875066453,
      "grad_norm": 0.8530343174934387,
      "learning_rate": 9.800143481652979e-06,
      "loss": 0.784,
      "step": 325
    },
    {
      "epoch": 0.14035087719298245,
      "grad_norm": 1.0411911010742188,
      "learning_rate": 8.574517537807897e-06,
      "loss": 0.7906,
      "step": 330
    },
    {
      "epoch": 0.14247740563530037,
      "grad_norm": 1.3315730094909668,
      "learning_rate": 7.423543113334436e-06,
      "loss": 0.7863,
      "step": 335
    },
    {
      "epoch": 0.1446039340776183,
      "grad_norm": 0.773786187171936,
      "learning_rate": 6.349294341940593e-06,
      "loss": 0.7532,
      "step": 340
    },
    {
      "epoch": 0.1467304625199362,
      "grad_norm": 0.8631799817085266,
      "learning_rate": 5.353707092521582e-06,
      "loss": 0.7101,
      "step": 345
    },
    {
      "epoch": 0.14885699096225413,
      "grad_norm": 1.1954724788665771,
      "learning_rate": 4.43857548059321e-06,
      "loss": 0.8269,
      "step": 350
    },
    {
      "epoch": 0.15098351940457203,
      "grad_norm": 0.5093288421630859,
      "learning_rate": 3.605548635174533e-06,
      "loss": 0.6281,
      "step": 355
    },
    {
      "epoch": 0.15311004784688995,
      "grad_norm": 0.5996906161308289,
      "learning_rate": 2.85612772694579e-06,
      "loss": 0.6559,
      "step": 360
    },
    {
      "epoch": 0.15523657628920787,
      "grad_norm": 0.7968803644180298,
      "learning_rate": 2.191663263037458e-06,
      "loss": 0.7888,
      "step": 365
    },
    {
      "epoch": 0.1573631047315258,
      "grad_norm": 0.6822494864463806,
      "learning_rate": 1.6133526533250565e-06,
      "loss": 0.7492,
      "step": 370
    },
    {
      "epoch": 0.1594896331738437,
      "grad_norm": 0.9301332235336304,
      "learning_rate": 1.1222380526156928e-06,
      "loss": 0.7315,
      "step": 375
    },
    {
      "epoch": 0.16161616161616163,
      "grad_norm": 0.9796470999717712,
      "learning_rate": 7.192044826145771e-07,
      "loss": 0.8134,
      "step": 380
    },
    {
      "epoch": 0.16374269005847952,
      "grad_norm": 1.4449524879455566,
      "learning_rate": 4.049782370561583e-07,
      "loss": 0.8235,
      "step": 385
    },
    {
      "epoch": 0.16586921850079744,
      "grad_norm": 0.774215817451477,
      "learning_rate": 1.8012557287367392e-07,
      "loss": 0.6907,
      "step": 390
    },
    {
      "epoch": 0.16799574694311536,
      "grad_norm": 0.9537460207939148,
      "learning_rate": 4.5051689765929214e-08,
      "loss": 0.6446,
      "step": 395
    },
    {
      "epoch": 0.17012227538543329,
      "grad_norm": 1.345268726348877,
      "learning_rate": 0.0,
      "loss": 0.5913,
      "step": 400
    },
    {
      "epoch": 0.17012227538543329,
      "eval_loss": 0.7333823442459106,
      "eval_runtime": 32.4093,
      "eval_samples_per_second": 30.547,
      "eval_steps_per_second": 15.273,
      "step": 400
    }
  ],
  "logging_steps": 5,
  "max_steps": 400,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.2523217739055104e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}