{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 9.0,
  "eval_steps": 200,
  "global_step": 2925,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03076923076923077,
      "grad_norm": 24.726886749267578,
      "learning_rate": 1.8e-06,
      "loss": 11.4221,
      "step": 10
    },
    {
      "epoch": 0.06153846153846154,
      "grad_norm": 17.795185089111328,
      "learning_rate": 3.8e-06,
      "loss": 10.4941,
      "step": 20
    },
    {
      "epoch": 0.09230769230769231,
      "grad_norm": 14.8720703125,
      "learning_rate": 5.8e-06,
      "loss": 10.943,
      "step": 30
    },
    {
      "epoch": 0.12307692307692308,
      "grad_norm": 26.370025634765625,
      "learning_rate": 7.8e-06,
      "loss": 9.7676,
      "step": 40
    },
    {
      "epoch": 0.15384615384615385,
      "grad_norm": 25.46526527404785,
      "learning_rate": 9.800000000000001e-06,
      "loss": 8.0724,
      "step": 50
    },
    {
      "epoch": 0.18461538461538463,
      "grad_norm": 31.001745223999023,
      "learning_rate": 1.18e-05,
      "loss": 6.9668,
      "step": 60
    },
    {
      "epoch": 0.2153846153846154,
      "grad_norm": 9.090025901794434,
      "learning_rate": 1.3800000000000002e-05,
      "loss": 5.0298,
      "step": 70
    },
    {
      "epoch": 0.24615384615384617,
      "grad_norm": 4.529256820678711,
      "learning_rate": 1.58e-05,
      "loss": 3.5286,
      "step": 80
    },
    {
      "epoch": 0.27692307692307694,
      "grad_norm": 2.912689685821533,
      "learning_rate": 1.78e-05,
      "loss": 2.9783,
      "step": 90
    },
    {
      "epoch": 0.3076923076923077,
      "grad_norm": 2.04130220413208,
      "learning_rate": 1.9800000000000004e-05,
      "loss": 2.5693,
      "step": 100
    },
    {
      "epoch": 0.3384615384615385,
      "grad_norm": 1.7645025253295898,
      "learning_rate": 2.18e-05,
      "loss": 2.3032,
      "step": 110
    },
    {
      "epoch": 0.36923076923076925,
      "grad_norm": 1.4153923988342285,
      "learning_rate": 2.38e-05,
      "loss": 2.1182,
      "step": 120
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.1566500663757324,
      "learning_rate": 2.58e-05,
      "loss": 2.2848,
      "step": 130
    },
    {
      "epoch": 0.4307692307692308,
      "grad_norm": 1.7678470611572266,
      "learning_rate": 2.7800000000000005e-05,
      "loss": 2.2928,
      "step": 140
    },
    {
      "epoch": 0.46153846153846156,
      "grad_norm": 1.717806100845337,
      "learning_rate": 2.98e-05,
      "loss": 2.0866,
      "step": 150
    },
    {
      "epoch": 0.49230769230769234,
      "grad_norm": 1.8488136529922485,
      "learning_rate": 3.18e-05,
      "loss": 2.2323,
      "step": 160
    },
    {
      "epoch": 0.5230769230769231,
      "grad_norm": 1.8968263864517212,
      "learning_rate": 3.38e-05,
      "loss": 2.2183,
      "step": 170
    },
    {
      "epoch": 0.5538461538461539,
      "grad_norm": 1.398100733757019,
      "learning_rate": 3.58e-05,
      "loss": 1.8395,
      "step": 180
    },
    {
      "epoch": 0.5846153846153846,
      "grad_norm": 1.5084631443023682,
      "learning_rate": 3.7800000000000004e-05,
      "loss": 1.9694,
      "step": 190
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 1.1019172668457031,
      "learning_rate": 3.9800000000000005e-05,
      "loss": 1.9702,
      "step": 200
    },
    {
      "epoch": 0.6153846153846154,
      "eval_gen_len": 186.9088,
      "eval_loss": 1.8701356649398804,
      "eval_rouge1": 0.5735,
      "eval_rouge2": 0.2231,
      "eval_rougeL": 0.4346,
      "eval_runtime": 33.3119,
      "eval_samples_per_second": 8.225,
      "eval_steps_per_second": 2.071,
      "step": 200
    },
    {
      "epoch": 0.6461538461538462,
      "grad_norm": 1.5155857801437378,
      "learning_rate": 4.18e-05,
      "loss": 2.0705,
      "step": 210
    },
    {
      "epoch": 0.676923076923077,
      "grad_norm": 1.3338611125946045,
      "learning_rate": 4.38e-05,
      "loss": 2.051,
      "step": 220
    },
    {
      "epoch": 0.7076923076923077,
      "grad_norm": 1.2012193202972412,
      "learning_rate": 4.58e-05,
      "loss": 1.9834,
      "step": 230
    },
    {
      "epoch": 0.7384615384615385,
      "grad_norm": 1.527007818222046,
      "learning_rate": 4.78e-05,
      "loss": 2.0451,
      "step": 240
    },
    {
      "epoch": 0.7692307692307693,
      "grad_norm": 1.2146987915039062,
      "learning_rate": 4.9800000000000004e-05,
      "loss": 1.974,
      "step": 250
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7576699256896973,
      "learning_rate": 5.1800000000000005e-05,
      "loss": 2.0347,
      "step": 260
    },
    {
      "epoch": 0.8307692307692308,
      "grad_norm": 1.17750084400177,
      "learning_rate": 5.380000000000001e-05,
      "loss": 1.9763,
      "step": 270
    },
    {
      "epoch": 0.8615384615384616,
      "grad_norm": 1.3267815113067627,
      "learning_rate": 5.580000000000001e-05,
      "loss": 1.842,
      "step": 280
    },
    {
      "epoch": 0.8923076923076924,
      "grad_norm": 1.0520875453948975,
      "learning_rate": 5.7799999999999995e-05,
      "loss": 2.0525,
      "step": 290
    },
    {
      "epoch": 0.9230769230769231,
      "grad_norm": 1.4701600074768066,
      "learning_rate": 5.9800000000000003e-05,
      "loss": 1.7418,
      "step": 300
    },
    {
      "epoch": 0.9538461538461539,
      "grad_norm": 1.062267780303955,
      "learning_rate": 6.18e-05,
      "loss": 1.9685,
      "step": 310
    },
    {
      "epoch": 0.9846153846153847,
      "grad_norm": 1.2724727392196655,
      "learning_rate": 6.38e-05,
      "loss": 1.7972,
      "step": 320
    },
    {
      "epoch": 1.0153846153846153,
      "grad_norm": 1.2834393978118896,
      "learning_rate": 6.58e-05,
      "loss": 1.8395,
      "step": 330
    },
    {
      "epoch": 1.0461538461538462,
      "grad_norm": 0.9657095074653625,
      "learning_rate": 6.780000000000001e-05,
      "loss": 1.836,
      "step": 340
    },
    {
      "epoch": 1.0769230769230769,
      "grad_norm": 1.0390011072158813,
      "learning_rate": 6.98e-05,
      "loss": 1.9328,
      "step": 350
    },
    {
      "epoch": 1.1076923076923078,
      "grad_norm": 1.2896322011947632,
      "learning_rate": 7.18e-05,
      "loss": 1.8227,
      "step": 360
    },
    {
      "epoch": 1.1384615384615384,
      "grad_norm": 1.53290593624115,
      "learning_rate": 7.38e-05,
      "loss": 1.9214,
      "step": 370
    },
    {
      "epoch": 1.1692307692307693,
      "grad_norm": 1.0145893096923828,
      "learning_rate": 7.58e-05,
      "loss": 1.8295,
      "step": 380
    },
    {
      "epoch": 1.2,
      "grad_norm": 1.2127511501312256,
      "learning_rate": 7.780000000000001e-05,
      "loss": 1.7774,
      "step": 390
    },
    {
      "epoch": 1.2307692307692308,
      "grad_norm": 1.1971853971481323,
      "learning_rate": 7.98e-05,
      "loss": 1.9926,
      "step": 400
    },
    {
      "epoch": 1.2307692307692308,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.7412512302398682,
      "eval_rouge1": 0.5961,
      "eval_rouge2": 0.2459,
      "eval_rougeL": 0.4577,
      "eval_runtime": 33.1213,
      "eval_samples_per_second": 8.273,
      "eval_steps_per_second": 2.083,
      "step": 400
    },
    {
      "epoch": 1.2615384615384615,
      "grad_norm": 1.107351303100586,
      "learning_rate": 8.18e-05,
      "loss": 1.8515,
      "step": 410
    },
    {
      "epoch": 1.2923076923076924,
      "grad_norm": 1.1407504081726074,
      "learning_rate": 8.38e-05,
      "loss": 1.7011,
      "step": 420
    },
    {
      "epoch": 1.323076923076923,
      "grad_norm": 1.418338656425476,
      "learning_rate": 8.58e-05,
      "loss": 1.6384,
      "step": 430
    },
    {
      "epoch": 1.353846153846154,
      "grad_norm": 1.3715286254882812,
      "learning_rate": 8.78e-05,
      "loss": 1.8502,
      "step": 440
    },
    {
      "epoch": 1.3846153846153846,
      "grad_norm": 0.9774390459060669,
      "learning_rate": 8.98e-05,
      "loss": 1.8264,
      "step": 450
    },
    {
      "epoch": 1.4153846153846155,
      "grad_norm": 1.4778176546096802,
      "learning_rate": 9.180000000000001e-05,
      "loss": 1.694,
      "step": 460
    },
    {
      "epoch": 1.4461538461538461,
      "grad_norm": 1.2721563577651978,
      "learning_rate": 9.38e-05,
      "loss": 1.8213,
      "step": 470
    },
    {
      "epoch": 1.476923076923077,
      "grad_norm": 0.94813472032547,
      "learning_rate": 9.58e-05,
      "loss": 1.6636,
      "step": 480
    },
    {
      "epoch": 1.5076923076923077,
      "grad_norm": 1.0905983448028564,
      "learning_rate": 9.78e-05,
      "loss": 1.7712,
      "step": 490
    },
    {
      "epoch": 1.5384615384615383,
      "grad_norm": 1.1593286991119385,
      "learning_rate": 9.98e-05,
      "loss": 1.808,
      "step": 500
    },
    {
      "epoch": 1.5692307692307692,
      "grad_norm": 1.0593713521957397,
      "learning_rate": 9.967272727272727e-05,
      "loss": 1.82,
      "step": 510
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.941973865032196,
      "learning_rate": 9.930909090909092e-05,
      "loss": 1.7341,
      "step": 520
    },
    {
      "epoch": 1.6307692307692307,
      "grad_norm": 0.80891352891922,
      "learning_rate": 9.894545454545455e-05,
      "loss": 1.6166,
      "step": 530
    },
    {
      "epoch": 1.6615384615384614,
      "grad_norm": 1.0325396060943604,
      "learning_rate": 9.858181818181819e-05,
      "loss": 1.8333,
      "step": 540
    },
    {
      "epoch": 1.6923076923076923,
      "grad_norm": 1.3042590618133545,
      "learning_rate": 9.821818181818182e-05,
      "loss": 1.6287,
      "step": 550
    },
    {
      "epoch": 1.7230769230769232,
      "grad_norm": 1.475900650024414,
      "learning_rate": 9.785454545454545e-05,
      "loss": 1.6019,
      "step": 560
    },
    {
      "epoch": 1.7538461538461538,
      "grad_norm": 1.1589939594268799,
      "learning_rate": 9.74909090909091e-05,
      "loss": 1.6904,
      "step": 570
    },
    {
      "epoch": 1.7846153846153845,
      "grad_norm": 1.2714788913726807,
      "learning_rate": 9.712727272727274e-05,
      "loss": 1.7928,
      "step": 580
    },
    {
      "epoch": 1.8153846153846154,
      "grad_norm": 1.2037074565887451,
      "learning_rate": 9.676363636363637e-05,
      "loss": 1.8325,
      "step": 590
    },
    {
      "epoch": 1.8461538461538463,
      "grad_norm": 1.1115801334381104,
      "learning_rate": 9.64e-05,
      "loss": 1.7673,
      "step": 600
    },
    {
      "epoch": 1.8461538461538463,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.69492506980896,
      "eval_rouge1": 0.6004,
      "eval_rouge2": 0.2505,
      "eval_rougeL": 0.4658,
      "eval_runtime": 33.2205,
      "eval_samples_per_second": 8.248,
      "eval_steps_per_second": 2.077,
      "step": 600
    },
    {
      "epoch": 1.876923076923077,
      "grad_norm": 1.2008461952209473,
      "learning_rate": 9.603636363636364e-05,
      "loss": 1.7674,
      "step": 610
    },
    {
      "epoch": 1.9076923076923076,
      "grad_norm": 1.1482900381088257,
      "learning_rate": 9.567272727272729e-05,
      "loss": 1.7932,
      "step": 620
    },
    {
      "epoch": 1.9384615384615385,
      "grad_norm": 1.0144352912902832,
      "learning_rate": 9.530909090909092e-05,
      "loss": 1.6315,
      "step": 630
    },
    {
      "epoch": 1.9692307692307693,
      "grad_norm": 0.9276631474494934,
      "learning_rate": 9.494545454545455e-05,
      "loss": 1.8373,
      "step": 640
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.0593888759613037,
      "learning_rate": 9.458181818181819e-05,
      "loss": 1.7967,
      "step": 650
    },
    {
      "epoch": 2.0307692307692307,
      "grad_norm": 1.1406164169311523,
      "learning_rate": 9.421818181818183e-05,
      "loss": 1.7668,
      "step": 660
    },
    {
      "epoch": 2.0615384615384613,
      "grad_norm": 0.9809508919715881,
      "learning_rate": 9.385454545454546e-05,
      "loss": 1.6602,
      "step": 670
    },
    {
      "epoch": 2.0923076923076924,
      "grad_norm": 1.1698426008224487,
      "learning_rate": 9.349090909090909e-05,
      "loss": 1.6775,
      "step": 680
    },
    {
      "epoch": 2.123076923076923,
      "grad_norm": 1.1539372205734253,
      "learning_rate": 9.312727272727274e-05,
      "loss": 1.533,
      "step": 690
    },
    {
      "epoch": 2.1538461538461537,
      "grad_norm": 1.0783981084823608,
      "learning_rate": 9.276363636363637e-05,
      "loss": 1.5243,
      "step": 700
    },
    {
      "epoch": 2.184615384615385,
      "grad_norm": 1.262705683708191,
      "learning_rate": 9.240000000000001e-05,
      "loss": 1.6625,
      "step": 710
    },
    {
      "epoch": 2.2153846153846155,
      "grad_norm": 1.1545718908309937,
      "learning_rate": 9.203636363636364e-05,
      "loss": 1.9172,
      "step": 720
    },
    {
      "epoch": 2.246153846153846,
      "grad_norm": 0.9896947741508484,
      "learning_rate": 9.167272727272728e-05,
      "loss": 1.5449,
      "step": 730
    },
    {
      "epoch": 2.276923076923077,
      "grad_norm": 1.063262701034546,
      "learning_rate": 9.130909090909091e-05,
      "loss": 1.5318,
      "step": 740
    },
    {
      "epoch": 2.3076923076923075,
      "grad_norm": 1.0846728086471558,
      "learning_rate": 9.094545454545454e-05,
      "loss": 1.5875,
      "step": 750
    },
    {
      "epoch": 2.3384615384615386,
      "grad_norm": 1.0437549352645874,
      "learning_rate": 9.058181818181819e-05,
      "loss": 1.5724,
      "step": 760
    },
    {
      "epoch": 2.3692307692307693,
      "grad_norm": 1.050115942955017,
      "learning_rate": 9.021818181818183e-05,
      "loss": 1.662,
      "step": 770
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.9663347601890564,
      "learning_rate": 8.985454545454546e-05,
      "loss": 1.6284,
      "step": 780
    },
    {
      "epoch": 2.430769230769231,
      "grad_norm": 1.1656932830810547,
      "learning_rate": 8.949090909090909e-05,
      "loss": 1.5995,
      "step": 790
    },
    {
      "epoch": 2.4615384615384617,
      "grad_norm": 1.073716402053833,
      "learning_rate": 8.912727272727273e-05,
      "loss": 1.4811,
      "step": 800
    },
    {
      "epoch": 2.4615384615384617,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.6769312620162964,
      "eval_rouge1": 0.6042,
      "eval_rouge2": 0.2561,
      "eval_rougeL": 0.4686,
      "eval_runtime": 33.5273,
      "eval_samples_per_second": 8.172,
      "eval_steps_per_second": 2.058,
      "step": 800
    },
    {
      "epoch": 2.4923076923076923,
      "grad_norm": 0.9764583110809326,
      "learning_rate": 8.876363636363638e-05,
      "loss": 1.5478,
      "step": 810
    },
    {
      "epoch": 2.523076923076923,
      "grad_norm": 0.9336417317390442,
      "learning_rate": 8.840000000000001e-05,
      "loss": 1.5138,
      "step": 820
    },
    {
      "epoch": 2.5538461538461537,
      "grad_norm": 0.9714758992195129,
      "learning_rate": 8.803636363636364e-05,
      "loss": 1.5506,
      "step": 830
    },
    {
      "epoch": 2.5846153846153848,
      "grad_norm": 0.9208464622497559,
      "learning_rate": 8.767272727272727e-05,
      "loss": 1.4944,
      "step": 840
    },
    {
      "epoch": 2.6153846153846154,
      "grad_norm": 1.0252026319503784,
      "learning_rate": 8.730909090909092e-05,
      "loss": 1.6991,
      "step": 850
    },
    {
      "epoch": 2.646153846153846,
      "grad_norm": 1.0464015007019043,
      "learning_rate": 8.694545454545455e-05,
      "loss": 1.679,
      "step": 860
    },
    {
      "epoch": 2.676923076923077,
      "grad_norm": 1.3673149347305298,
      "learning_rate": 8.658181818181818e-05,
      "loss": 1.5021,
      "step": 870
    },
    {
      "epoch": 2.707692307692308,
      "grad_norm": 1.1350778341293335,
      "learning_rate": 8.621818181818181e-05,
      "loss": 1.5898,
      "step": 880
    },
    {
      "epoch": 2.7384615384615385,
      "grad_norm": 0.9916401505470276,
      "learning_rate": 8.585454545454546e-05,
      "loss": 1.6542,
      "step": 890
    },
    {
      "epoch": 2.769230769230769,
      "grad_norm": 0.9967766404151917,
      "learning_rate": 8.54909090909091e-05,
      "loss": 1.7056,
      "step": 900
    },
    {
      "epoch": 2.8,
      "grad_norm": 1.2031991481781006,
      "learning_rate": 8.512727272727273e-05,
      "loss": 1.6856,
      "step": 910
    },
    {
      "epoch": 2.830769230769231,
      "grad_norm": 1.0159794092178345,
      "learning_rate": 8.476363636363636e-05,
      "loss": 1.5293,
      "step": 920
    },
    {
      "epoch": 2.8615384615384616,
      "grad_norm": 1.3572866916656494,
      "learning_rate": 8.44e-05,
      "loss": 1.6191,
      "step": 930
    },
    {
      "epoch": 2.8923076923076922,
      "grad_norm": 1.2567291259765625,
      "learning_rate": 8.403636363636364e-05,
      "loss": 1.7504,
      "step": 940
    },
    {
      "epoch": 2.9230769230769234,
      "grad_norm": 1.2280553579330444,
      "learning_rate": 8.367272727272728e-05,
      "loss": 1.6523,
      "step": 950
    },
    {
      "epoch": 2.953846153846154,
      "grad_norm": 1.0409953594207764,
      "learning_rate": 8.330909090909091e-05,
      "loss": 1.5903,
      "step": 960
    },
    {
      "epoch": 2.9846153846153847,
      "grad_norm": 1.10386061668396,
      "learning_rate": 8.294545454545455e-05,
      "loss": 1.5235,
      "step": 970
    },
    {
      "epoch": 3.0153846153846153,
      "grad_norm": 1.0341882705688477,
      "learning_rate": 8.258181818181818e-05,
      "loss": 1.6025,
      "step": 980
    },
    {
      "epoch": 3.046153846153846,
      "grad_norm": 1.3020343780517578,
      "learning_rate": 8.221818181818183e-05,
      "loss": 1.4696,
      "step": 990
    },
    {
      "epoch": 3.076923076923077,
      "grad_norm": 1.104643702507019,
      "learning_rate": 8.185454545454546e-05,
      "loss": 1.4009,
      "step": 1000
    },
    {
      "epoch": 3.076923076923077,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.6721168756484985,
      "eval_rouge1": 0.6044,
      "eval_rouge2": 0.2558,
      "eval_rougeL": 0.4692,
      "eval_runtime": 34.4765,
      "eval_samples_per_second": 7.947,
      "eval_steps_per_second": 2.001,
      "step": 1000
    },
    {
      "epoch": 3.1076923076923078,
      "grad_norm": 1.1327263116836548,
      "learning_rate": 8.14909090909091e-05,
      "loss": 1.5893,
      "step": 1010
    },
    {
      "epoch": 3.1384615384615384,
      "grad_norm": 1.168095350265503,
      "learning_rate": 8.112727272727273e-05,
      "loss": 1.4248,
      "step": 1020
    },
    {
      "epoch": 3.169230769230769,
      "grad_norm": 0.9978489279747009,
      "learning_rate": 8.076363636363636e-05,
      "loss": 1.5407,
      "step": 1030
    },
    {
      "epoch": 3.2,
      "grad_norm": 1.0370062589645386,
      "learning_rate": 8.04e-05,
      "loss": 1.4867,
      "step": 1040
    },
    {
      "epoch": 3.230769230769231,
      "grad_norm": 0.9647369384765625,
      "learning_rate": 8.003636363636365e-05,
      "loss": 1.4806,
      "step": 1050
    },
    {
      "epoch": 3.2615384615384615,
      "grad_norm": 1.3316948413848877,
      "learning_rate": 7.967272727272728e-05,
      "loss": 1.4612,
      "step": 1060
    },
    {
      "epoch": 3.292307692307692,
      "grad_norm": 1.37971830368042,
      "learning_rate": 7.93090909090909e-05,
      "loss": 1.5745,
      "step": 1070
    },
    {
      "epoch": 3.3230769230769233,
      "grad_norm": 1.1220242977142334,
      "learning_rate": 7.894545454545455e-05,
      "loss": 1.3228,
      "step": 1080
    },
    {
      "epoch": 3.353846153846154,
      "grad_norm": 1.0595531463623047,
      "learning_rate": 7.85818181818182e-05,
      "loss": 1.4618,
      "step": 1090
    },
    {
      "epoch": 3.3846153846153846,
      "grad_norm": 1.3739666938781738,
      "learning_rate": 7.821818181818182e-05,
      "loss": 1.4973,
      "step": 1100
    },
    {
      "epoch": 3.4153846153846152,
      "grad_norm": 1.2643866539001465,
      "learning_rate": 7.785454545454545e-05,
      "loss": 1.533,
      "step": 1110
    },
    {
      "epoch": 3.4461538461538463,
      "grad_norm": 1.232230544090271,
      "learning_rate": 7.74909090909091e-05,
      "loss": 1.4867,
      "step": 1120
    },
    {
      "epoch": 3.476923076923077,
      "grad_norm": 0.9712868332862854,
      "learning_rate": 7.712727272727273e-05,
      "loss": 1.4916,
      "step": 1130
    },
    {
      "epoch": 3.5076923076923077,
      "grad_norm": 1.3414063453674316,
      "learning_rate": 7.676363636363637e-05,
      "loss": 1.5992,
      "step": 1140
    },
    {
      "epoch": 3.5384615384615383,
      "grad_norm": 1.0222588777542114,
      "learning_rate": 7.64e-05,
      "loss": 1.5378,
      "step": 1150
    },
    {
      "epoch": 3.569230769230769,
      "grad_norm": 1.1905276775360107,
      "learning_rate": 7.603636363636364e-05,
      "loss": 1.4324,
      "step": 1160
    },
    {
      "epoch": 3.6,
      "grad_norm": 1.2846956253051758,
      "learning_rate": 7.567272727272727e-05,
      "loss": 1.4927,
      "step": 1170
    },
    {
      "epoch": 3.6307692307692307,
      "grad_norm": 1.165310025215149,
      "learning_rate": 7.530909090909092e-05,
      "loss": 1.4277,
      "step": 1180
    },
    {
      "epoch": 3.6615384615384614,
      "grad_norm": 1.063883900642395,
      "learning_rate": 7.494545454545455e-05,
      "loss": 1.5226,
      "step": 1190
    },
    {
      "epoch": 3.6923076923076925,
      "grad_norm": 1.3430577516555786,
      "learning_rate": 7.458181818181819e-05,
      "loss": 1.5315,
      "step": 1200
    },
    {
      "epoch": 3.6923076923076925,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.6592342853546143,
      "eval_rouge1": 0.6057,
      "eval_rouge2": 0.2572,
      "eval_rougeL": 0.4709,
      "eval_runtime": 33.3732,
      "eval_samples_per_second": 8.21,
      "eval_steps_per_second": 2.068,
      "step": 1200
    },
    {
      "epoch": 3.723076923076923,
      "grad_norm": 1.2028673887252808,
      "learning_rate": 7.421818181818182e-05,
      "loss": 1.5135,
      "step": 1210
    },
    {
      "epoch": 3.753846153846154,
      "grad_norm": 0.9091282486915588,
      "learning_rate": 7.385454545454545e-05,
      "loss": 1.3876,
      "step": 1220
    },
    {
      "epoch": 3.7846153846153845,
      "grad_norm": 0.9549902677536011,
      "learning_rate": 7.34909090909091e-05,
      "loss": 1.7408,
      "step": 1230
    },
    {
      "epoch": 3.815384615384615,
      "grad_norm": 1.109423279762268,
      "learning_rate": 7.312727272727274e-05,
      "loss": 1.3897,
      "step": 1240
    },
    {
      "epoch": 3.8461538461538463,
      "grad_norm": 1.1412984132766724,
      "learning_rate": 7.276363636363637e-05,
      "loss": 1.5034,
      "step": 1250
    },
    {
      "epoch": 3.876923076923077,
      "grad_norm": 1.176283359527588,
      "learning_rate": 7.24e-05,
      "loss": 1.5426,
      "step": 1260
    },
    {
      "epoch": 3.9076923076923076,
      "grad_norm": 1.3558485507965088,
      "learning_rate": 7.203636363636364e-05,
      "loss": 1.5287,
      "step": 1270
    },
    {
      "epoch": 3.9384615384615387,
      "grad_norm": 1.23688805103302,
      "learning_rate": 7.167272727272729e-05,
      "loss": 1.5794,
      "step": 1280
    },
    {
      "epoch": 3.9692307692307693,
      "grad_norm": 1.248528242111206,
      "learning_rate": 7.130909090909092e-05,
      "loss": 1.5166,
      "step": 1290
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.8396208882331848,
      "learning_rate": 7.094545454545455e-05,
      "loss": 1.4648,
      "step": 1300
    },
    {
      "epoch": 4.030769230769231,
      "grad_norm": 1.0756162405014038,
      "learning_rate": 7.058181818181819e-05,
      "loss": 1.4147,
      "step": 1310
    },
    {
      "epoch": 4.061538461538461,
      "grad_norm": 1.1731723546981812,
      "learning_rate": 7.021818181818182e-05,
      "loss": 1.3732,
      "step": 1320
    },
    {
      "epoch": 4.092307692307692,
      "grad_norm": 1.2993149757385254,
      "learning_rate": 6.985454545454546e-05,
      "loss": 1.4118,
      "step": 1330
    },
    {
      "epoch": 4.123076923076923,
      "grad_norm": 1.1648204326629639,
      "learning_rate": 6.949090909090909e-05,
      "loss": 1.4258,
      "step": 1340
    },
    {
      "epoch": 4.153846153846154,
      "grad_norm": 1.1242045164108276,
      "learning_rate": 6.912727272727274e-05,
      "loss": 1.3598,
      "step": 1350
    },
    {
      "epoch": 4.184615384615385,
      "grad_norm": 1.53397536277771,
      "learning_rate": 6.876363636363637e-05,
      "loss": 1.3431,
      "step": 1360
    },
    {
      "epoch": 4.2153846153846155,
      "grad_norm": 1.3859331607818604,
      "learning_rate": 6.840000000000001e-05,
      "loss": 1.5014,
      "step": 1370
    },
    {
      "epoch": 4.246153846153846,
      "grad_norm": 1.0821737051010132,
      "learning_rate": 6.803636363636364e-05,
      "loss": 1.2638,
      "step": 1380
    },
    {
      "epoch": 4.276923076923077,
      "grad_norm": 1.2648742198944092,
      "learning_rate": 6.767272727272728e-05,
      "loss": 1.4567,
      "step": 1390
    },
    {
      "epoch": 4.3076923076923075,
      "grad_norm": 1.1357372999191284,
      "learning_rate": 6.730909090909091e-05,
      "loss": 1.4706,
      "step": 1400
    },
    {
      "epoch": 4.3076923076923075,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.6691502332687378,
      "eval_rouge1": 0.6061,
      "eval_rouge2": 0.2593,
      "eval_rougeL": 0.4719,
      "eval_runtime": 33.439,
      "eval_samples_per_second": 8.194,
      "eval_steps_per_second": 2.063,
      "step": 1400
    },
    {
      "epoch": 4.338461538461538,
      "grad_norm": 1.4324264526367188,
      "learning_rate": 6.694545454545454e-05,
      "loss": 1.4032,
      "step": 1410
    },
    {
      "epoch": 4.36923076923077,
      "grad_norm": 1.3646095991134644,
      "learning_rate": 6.658181818181819e-05,
      "loss": 1.3943,
      "step": 1420
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.9991398453712463,
      "learning_rate": 6.621818181818183e-05,
      "loss": 1.5292,
      "step": 1430
    },
    {
      "epoch": 4.430769230769231,
      "grad_norm": 1.1873986721038818,
      "learning_rate": 6.585454545454546e-05,
      "loss": 1.4813,
      "step": 1440
    },
    {
      "epoch": 4.461538461538462,
      "grad_norm": 1.0080267190933228,
      "learning_rate": 6.549090909090909e-05,
      "loss": 1.4951,
      "step": 1450
    },
    {
      "epoch": 4.492307692307692,
      "grad_norm": 1.5542734861373901,
      "learning_rate": 6.512727272727272e-05,
      "loss": 1.5603,
      "step": 1460
    },
    {
      "epoch": 4.523076923076923,
      "grad_norm": 1.2610498666763306,
      "learning_rate": 6.476363636363638e-05,
      "loss": 1.3286,
      "step": 1470
    },
    {
      "epoch": 4.553846153846154,
      "grad_norm": 1.0882760286331177,
      "learning_rate": 6.440000000000001e-05,
      "loss": 1.309,
      "step": 1480
    },
    {
      "epoch": 4.584615384615384,
      "grad_norm": 1.1589834690093994,
      "learning_rate": 6.403636363636364e-05,
      "loss": 1.414,
      "step": 1490
    },
    {
      "epoch": 4.615384615384615,
      "grad_norm": 1.3731642961502075,
      "learning_rate": 6.367272727272727e-05,
      "loss": 1.4529,
      "step": 1500
    },
    {
      "epoch": 4.6461538461538465,
      "grad_norm": 1.3053221702575684,
      "learning_rate": 6.330909090909091e-05,
      "loss": 1.4623,
      "step": 1510
    },
    {
      "epoch": 4.676923076923077,
      "grad_norm": 1.2154396772384644,
      "learning_rate": 6.294545454545455e-05,
      "loss": 1.4766,
      "step": 1520
    },
    {
      "epoch": 4.707692307692308,
      "grad_norm": 1.0947812795639038,
      "learning_rate": 6.258181818181818e-05,
      "loss": 1.3212,
      "step": 1530
    },
    {
      "epoch": 4.7384615384615385,
      "grad_norm": 1.005462646484375,
      "learning_rate": 6.221818181818181e-05,
      "loss": 1.3956,
      "step": 1540
    },
    {
      "epoch": 4.769230769230769,
      "grad_norm": 1.196108341217041,
      "learning_rate": 6.185454545454546e-05,
      "loss": 1.4048,
      "step": 1550
    },
    {
      "epoch": 4.8,
      "grad_norm": 1.355747103691101,
      "learning_rate": 6.14909090909091e-05,
      "loss": 1.3474,
      "step": 1560
    },
    {
      "epoch": 4.8307692307692305,
      "grad_norm": 1.177310585975647,
      "learning_rate": 6.112727272727273e-05,
      "loss": 1.3038,
      "step": 1570
    },
    {
      "epoch": 4.861538461538462,
      "grad_norm": 1.273474097251892,
      "learning_rate": 6.076363636363637e-05,
      "loss": 1.3858,
      "step": 1580
    },
    {
      "epoch": 4.892307692307693,
      "grad_norm": 1.2601613998413086,
      "learning_rate": 6.04e-05,
      "loss": 1.2742,
      "step": 1590
    },
    {
      "epoch": 4.923076923076923,
      "grad_norm": 1.052040696144104,
      "learning_rate": 6.0036363636363634e-05,
      "loss": 1.5551,
      "step": 1600
    },
    {
      "epoch": 4.923076923076923,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.6678508520126343,
      "eval_rouge1": 0.6061,
      "eval_rouge2": 0.2582,
      "eval_rougeL": 0.4724,
      "eval_runtime": 33.608,
      "eval_samples_per_second": 8.153,
      "eval_steps_per_second": 2.053,
      "step": 1600
    },
    {
      "epoch": 4.953846153846154,
      "grad_norm": 1.4437050819396973,
      "learning_rate": 5.967272727272728e-05,
      "loss": 1.3613,
      "step": 1610
    },
    {
      "epoch": 4.984615384615385,
      "grad_norm": 1.398398518562317,
      "learning_rate": 5.9309090909090915e-05,
      "loss": 1.3861,
      "step": 1620
    },
    {
      "epoch": 5.015384615384615,
      "grad_norm": 1.1901689767837524,
      "learning_rate": 5.894545454545455e-05,
      "loss": 1.4525,
      "step": 1630
    },
    {
      "epoch": 5.046153846153846,
      "grad_norm": 1.2631349563598633,
      "learning_rate": 5.858181818181818e-05,
      "loss": 1.3698,
      "step": 1640
    },
    {
      "epoch": 5.076923076923077,
      "grad_norm": 1.3628337383270264,
      "learning_rate": 5.821818181818182e-05,
      "loss": 1.1917,
      "step": 1650
    },
    {
      "epoch": 5.107692307692307,
      "grad_norm": 1.2330440282821655,
      "learning_rate": 5.785454545454546e-05,
      "loss": 1.3692,
      "step": 1660
    },
    {
      "epoch": 5.138461538461539,
      "grad_norm": 1.069877028465271,
      "learning_rate": 5.74909090909091e-05,
      "loss": 1.2439,
      "step": 1670
    },
    {
      "epoch": 5.1692307692307695,
      "grad_norm": 1.1694751977920532,
      "learning_rate": 5.712727272727273e-05,
      "loss": 1.1194,
      "step": 1680
    },
    {
      "epoch": 5.2,
      "grad_norm": 1.424668312072754,
      "learning_rate": 5.6763636363636365e-05,
      "loss": 1.456,
      "step": 1690
    },
    {
      "epoch": 5.230769230769231,
      "grad_norm": 1.1166226863861084,
      "learning_rate": 5.6399999999999995e-05,
      "loss": 1.3011,
      "step": 1700
    },
    {
      "epoch": 5.2615384615384615,
      "grad_norm": 1.196712851524353,
      "learning_rate": 5.6036363636363646e-05,
      "loss": 1.3272,
      "step": 1710
    },
    {
      "epoch": 5.292307692307692,
      "grad_norm": 1.105592131614685,
      "learning_rate": 5.5672727272727276e-05,
      "loss": 1.3831,
      "step": 1720
    },
    {
      "epoch": 5.323076923076923,
      "grad_norm": 1.3789408206939697,
      "learning_rate": 5.530909090909091e-05,
      "loss": 1.3924,
      "step": 1730
    },
    {
      "epoch": 5.3538461538461535,
      "grad_norm": 1.1058343648910522,
      "learning_rate": 5.494545454545454e-05,
      "loss": 1.1278,
      "step": 1740
    },
    {
      "epoch": 5.384615384615385,
      "grad_norm": 1.0470004081726074,
      "learning_rate": 5.458181818181819e-05,
      "loss": 1.2675,
      "step": 1750
    },
    {
      "epoch": 5.415384615384616,
      "grad_norm": 1.5735996961593628,
      "learning_rate": 5.421818181818182e-05,
      "loss": 1.368,
      "step": 1760
    },
    {
      "epoch": 5.446153846153846,
      "grad_norm": 1.053110122680664,
      "learning_rate": 5.385454545454546e-05,
      "loss": 1.4409,
      "step": 1770
    },
    {
      "epoch": 5.476923076923077,
      "grad_norm": 1.2032136917114258,
      "learning_rate": 5.349090909090909e-05,
      "loss": 1.3919,
      "step": 1780
    },
    {
      "epoch": 5.507692307692308,
      "grad_norm": 1.3398489952087402,
      "learning_rate": 5.3127272727272726e-05,
      "loss": 1.3891,
      "step": 1790
    },
    {
      "epoch": 5.538461538461538,
      "grad_norm": 1.1674134731292725,
      "learning_rate": 5.276363636363637e-05,
      "loss": 1.4167,
      "step": 1800
    },
    {
      "epoch": 5.538461538461538,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.6820106506347656,
      "eval_rouge1": 0.6051,
      "eval_rouge2": 0.256,
      "eval_rougeL": 0.4705,
      "eval_runtime": 34.3835,
      "eval_samples_per_second": 7.969,
      "eval_steps_per_second": 2.007,
      "step": 1800
    },
    {
      "epoch": 5.569230769230769,
      "grad_norm": 1.3142492771148682,
      "learning_rate": 5.2400000000000007e-05,
      "loss": 1.2869,
      "step": 1810
    },
    {
      "epoch": 5.6,
      "grad_norm": 1.3149932622909546,
      "learning_rate": 5.2036363636363637e-05,
      "loss": 1.3653,
      "step": 1820
    },
    {
      "epoch": 5.63076923076923,
      "grad_norm": 1.1139847040176392,
      "learning_rate": 5.167272727272727e-05,
      "loss": 1.3807,
      "step": 1830
    },
    {
      "epoch": 5.661538461538462,
      "grad_norm": 1.302495002746582,
      "learning_rate": 5.130909090909091e-05,
      "loss": 1.3826,
      "step": 1840
    },
    {
      "epoch": 5.6923076923076925,
      "grad_norm": 1.2617419958114624,
      "learning_rate": 5.0945454545454554e-05,
      "loss": 1.283,
      "step": 1850
    },
    {
      "epoch": 5.723076923076923,
      "grad_norm": 1.252189040184021,
      "learning_rate": 5.0581818181818184e-05,
      "loss": 1.3425,
      "step": 1860
    },
    {
      "epoch": 5.753846153846154,
      "grad_norm": 1.0823620557785034,
      "learning_rate": 5.021818181818182e-05,
      "loss": 1.4646,
      "step": 1870
    },
    {
      "epoch": 5.7846153846153845,
      "grad_norm": 1.39573335647583,
      "learning_rate": 4.985454545454546e-05,
      "loss": 1.2957,
      "step": 1880
    },
    {
      "epoch": 5.815384615384615,
      "grad_norm": 1.217499852180481,
      "learning_rate": 4.9490909090909094e-05,
      "loss": 1.3232,
      "step": 1890
    },
    {
      "epoch": 5.846153846153846,
      "grad_norm": 1.3049825429916382,
      "learning_rate": 4.912727272727273e-05,
      "loss": 1.333,
      "step": 1900
    },
    {
      "epoch": 5.876923076923077,
      "grad_norm": 1.265807032585144,
      "learning_rate": 4.876363636363637e-05,
      "loss": 1.2635,
      "step": 1910
    },
    {
      "epoch": 5.907692307692308,
      "grad_norm": 1.4045813083648682,
      "learning_rate": 4.8400000000000004e-05,
      "loss": 1.3453,
      "step": 1920
    },
    {
      "epoch": 5.938461538461539,
      "grad_norm": 1.4151256084442139,
      "learning_rate": 4.803636363636364e-05,
      "loss": 1.2274,
      "step": 1930
    },
    {
      "epoch": 5.969230769230769,
      "grad_norm": 1.30918288230896,
      "learning_rate": 4.767272727272728e-05,
      "loss": 1.3835,
      "step": 1940
    },
    {
      "epoch": 6.0,
      "grad_norm": 1.1394106149673462,
      "learning_rate": 4.7309090909090914e-05,
      "loss": 1.4773,
      "step": 1950
    },
    {
      "epoch": 6.030769230769231,
      "grad_norm": 1.0991594791412354,
      "learning_rate": 4.694545454545455e-05,
      "loss": 1.1885,
      "step": 1960
    },
    {
      "epoch": 6.061538461538461,
      "grad_norm": 1.2676807641983032,
      "learning_rate": 4.658181818181818e-05,
      "loss": 1.2931,
      "step": 1970
    },
    {
      "epoch": 6.092307692307692,
      "grad_norm": 1.2844555377960205,
      "learning_rate": 4.6218181818181825e-05,
      "loss": 1.2758,
      "step": 1980
    },
    {
      "epoch": 6.123076923076923,
      "grad_norm": 1.2364481687545776,
      "learning_rate": 4.5854545454545455e-05,
      "loss": 1.1871,
      "step": 1990
    },
    {
      "epoch": 6.153846153846154,
      "grad_norm": 1.4142909049987793,
      "learning_rate": 4.54909090909091e-05,
      "loss": 1.2976,
      "step": 2000
    },
    {
      "epoch": 6.153846153846154,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.6960315704345703,
      "eval_rouge1": 0.6074,
      "eval_rouge2": 0.2564,
      "eval_rougeL": 0.4698,
      "eval_runtime": 33.4283,
      "eval_samples_per_second": 8.197,
      "eval_steps_per_second": 2.064,
      "step": 2000
    },
    {
      "epoch": 6.184615384615385,
      "grad_norm": 1.234192132949829,
      "learning_rate": 4.512727272727273e-05,
      "loss": 1.3096,
      "step": 2010
    },
    {
      "epoch": 6.2153846153846155,
      "grad_norm": 1.1222543716430664,
      "learning_rate": 4.4763636363636365e-05,
      "loss": 1.2937,
      "step": 2020
    },
    {
      "epoch": 6.246153846153846,
      "grad_norm": 1.0864425897598267,
      "learning_rate": 4.44e-05,
      "loss": 1.278,
      "step": 2030
    },
    {
      "epoch": 6.276923076923077,
      "grad_norm": 1.3431516885757446,
      "learning_rate": 4.403636363636364e-05,
      "loss": 1.2601,
      "step": 2040
    },
    {
      "epoch": 6.3076923076923075,
      "grad_norm": 1.2604031562805176,
      "learning_rate": 4.3672727272727275e-05,
      "loss": 1.3587,
      "step": 2050
    },
    {
      "epoch": 6.338461538461538,
      "grad_norm": 1.4237326383590698,
      "learning_rate": 4.330909090909091e-05,
      "loss": 1.3936,
      "step": 2060
    },
    {
      "epoch": 6.36923076923077,
      "grad_norm": 1.2190274000167847,
      "learning_rate": 4.294545454545455e-05,
      "loss": 1.2805,
      "step": 2070
    },
    {
      "epoch": 6.4,
      "grad_norm": 1.3023786544799805,
      "learning_rate": 4.2581818181818186e-05,
      "loss": 1.2676,
      "step": 2080
    },
    {
      "epoch": 6.430769230769231,
      "grad_norm": 1.2170274257659912,
      "learning_rate": 4.2218181818181816e-05,
      "loss": 1.3696,
      "step": 2090
    },
    {
      "epoch": 6.461538461538462,
      "grad_norm": 1.613784670829773,
      "learning_rate": 4.185454545454546e-05,
      "loss": 1.28,
      "step": 2100
    },
    {
      "epoch": 6.492307692307692,
      "grad_norm": 1.2165530920028687,
      "learning_rate": 4.149090909090909e-05,
      "loss": 1.2933,
      "step": 2110
    },
    {
      "epoch": 6.523076923076923,
      "grad_norm": 1.2213079929351807,
      "learning_rate": 4.112727272727273e-05,
      "loss": 1.2062,
      "step": 2120
    },
    {
      "epoch": 6.553846153846154,
      "grad_norm": 1.5889174938201904,
      "learning_rate": 4.076363636363636e-05,
      "loss": 1.2481,
      "step": 2130
    },
    {
      "epoch": 6.584615384615384,
      "grad_norm": 1.2638423442840576,
      "learning_rate": 4.0400000000000006e-05,
      "loss": 1.29,
      "step": 2140
    },
    {
      "epoch": 6.615384615384615,
      "grad_norm": 1.0796576738357544,
      "learning_rate": 4.0036363636363636e-05,
      "loss": 1.1189,
      "step": 2150
    },
    {
      "epoch": 6.6461538461538465,
      "grad_norm": 1.5910948514938354,
      "learning_rate": 3.967272727272727e-05,
      "loss": 1.2767,
      "step": 2160
    },
    {
      "epoch": 6.676923076923077,
      "grad_norm": 1.3346668481826782,
      "learning_rate": 3.930909090909091e-05,
      "loss": 1.2212,
      "step": 2170
    },
    {
      "epoch": 6.707692307692308,
      "grad_norm": 1.1277836561203003,
      "learning_rate": 3.8945454545454547e-05,
      "loss": 1.2392,
      "step": 2180
    },
    {
      "epoch": 6.7384615384615385,
      "grad_norm": 1.1212108135223389,
      "learning_rate": 3.858181818181818e-05,
      "loss": 1.3223,
      "step": 2190
    },
    {
      "epoch": 6.769230769230769,
      "grad_norm": 1.2175902128219604,
      "learning_rate": 3.821818181818182e-05,
      "loss": 1.3124,
      "step": 2200
    },
    {
      "epoch": 6.769230769230769,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.6920864582061768,
      "eval_rouge1": 0.606,
      "eval_rouge2": 0.2554,
      "eval_rougeL": 0.4694,
      "eval_runtime": 34.3853,
      "eval_samples_per_second": 7.969,
      "eval_steps_per_second": 2.007,
      "step": 2200
    },
    {
      "epoch": 6.8,
      "grad_norm": 1.163404107093811,
      "learning_rate": 3.785454545454546e-05,
      "loss": 1.4557,
      "step": 2210
    },
    {
      "epoch": 6.8307692307692305,
      "grad_norm": 1.5031542778015137,
      "learning_rate": 3.7490909090909094e-05,
      "loss": 1.1773,
      "step": 2220
    },
    {
      "epoch": 6.861538461538462,
      "grad_norm": 1.0126748085021973,
      "learning_rate": 3.712727272727273e-05,
      "loss": 1.3922,
      "step": 2230
    },
    {
      "epoch": 6.892307692307693,
      "grad_norm": 1.0135952234268188,
      "learning_rate": 3.676363636363637e-05,
      "loss": 1.2028,
      "step": 2240
    },
    {
      "epoch": 6.923076923076923,
      "grad_norm": 1.16098153591156,
      "learning_rate": 3.6400000000000004e-05,
      "loss": 1.4111,
      "step": 2250
    },
    {
      "epoch": 6.953846153846154,
      "grad_norm": 1.488234519958496,
      "learning_rate": 3.603636363636364e-05,
      "loss": 1.3131,
      "step": 2260
    },
    {
      "epoch": 6.984615384615385,
      "grad_norm": 1.129989743232727,
      "learning_rate": 3.567272727272728e-05,
      "loss": 1.1701,
      "step": 2270
    },
    {
      "epoch": 7.015384615384615,
      "grad_norm": 1.218468189239502,
      "learning_rate": 3.530909090909091e-05,
      "loss": 1.2604,
      "step": 2280
    },
    {
      "epoch": 7.046153846153846,
      "grad_norm": 1.2339926958084106,
      "learning_rate": 3.494545454545455e-05,
      "loss": 1.0932,
      "step": 2290
    },
    {
      "epoch": 7.076923076923077,
      "grad_norm": 1.4972765445709229,
      "learning_rate": 3.458181818181818e-05,
      "loss": 1.1137,
      "step": 2300
    },
    {
      "epoch": 7.107692307692307,
      "grad_norm": 1.1884584426879883,
      "learning_rate": 3.4218181818181824e-05,
      "loss": 1.1522,
      "step": 2310
    },
    {
      "epoch": 7.138461538461539,
      "grad_norm": 1.4934840202331543,
      "learning_rate": 3.3854545454545454e-05,
      "loss": 1.3121,
      "step": 2320
    },
    {
      "epoch": 7.1692307692307695,
      "grad_norm": 1.1432678699493408,
      "learning_rate": 3.34909090909091e-05,
      "loss": 1.1549,
      "step": 2330
    },
    {
      "epoch": 7.2,
      "grad_norm": 1.1708807945251465,
      "learning_rate": 3.312727272727273e-05,
      "loss": 1.1692,
      "step": 2340
    },
    {
      "epoch": 7.230769230769231,
      "grad_norm": 1.3824517726898193,
      "learning_rate": 3.2763636363636365e-05,
      "loss": 1.208,
      "step": 2350
    },
    {
      "epoch": 7.2615384615384615,
      "grad_norm": 1.1225407123565674,
      "learning_rate": 3.24e-05,
      "loss": 1.1542,
      "step": 2360
    },
    {
      "epoch": 7.292307692307692,
      "grad_norm": 1.2445507049560547,
      "learning_rate": 3.203636363636364e-05,
      "loss": 1.2265,
      "step": 2370
    },
    {
      "epoch": 7.323076923076923,
      "grad_norm": 1.256062626838684,
      "learning_rate": 3.1672727272727275e-05,
      "loss": 1.1822,
      "step": 2380
    },
    {
      "epoch": 7.3538461538461535,
      "grad_norm": 1.3986501693725586,
      "learning_rate": 3.130909090909091e-05,
      "loss": 1.262,
      "step": 2390
    },
    {
      "epoch": 7.384615384615385,
      "grad_norm": 1.1086236238479614,
      "learning_rate": 3.094545454545455e-05,
      "loss": 1.2275,
      "step": 2400
    },
    {
      "epoch": 7.384615384615385,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.6998823881149292,
      "eval_rouge1": 0.6055,
      "eval_rouge2": 0.2541,
      "eval_rougeL": 0.4684,
      "eval_runtime": 33.5145,
      "eval_samples_per_second": 8.176,
      "eval_steps_per_second": 2.059,
      "step": 2400
    },
    {
      "epoch": 7.415384615384616,
      "grad_norm": 1.5682780742645264,
      "learning_rate": 3.0581818181818185e-05,
      "loss": 1.3442,
      "step": 2410
    },
    {
      "epoch": 7.446153846153846,
      "grad_norm": 1.034818410873413,
      "learning_rate": 3.021818181818182e-05,
      "loss": 1.2158,
      "step": 2420
    },
    {
      "epoch": 7.476923076923077,
      "grad_norm": 1.2816352844238281,
      "learning_rate": 2.985454545454546e-05,
      "loss": 1.1646,
      "step": 2430
    },
    {
      "epoch": 7.507692307692308,
      "grad_norm": 1.252765417098999,
      "learning_rate": 2.9490909090909092e-05,
      "loss": 1.1985,
      "step": 2440
    },
    {
      "epoch": 7.538461538461538,
      "grad_norm": 1.4074809551239014,
      "learning_rate": 2.9127272727272732e-05,
      "loss": 1.3245,
      "step": 2450
    },
    {
      "epoch": 7.569230769230769,
      "grad_norm": 1.3757801055908203,
      "learning_rate": 2.8763636363636366e-05,
      "loss": 1.2856,
      "step": 2460
    },
    {
      "epoch": 7.6,
      "grad_norm": 1.355635643005371,
      "learning_rate": 2.84e-05,
      "loss": 1.229,
      "step": 2470
    },
    {
      "epoch": 7.63076923076923,
      "grad_norm": 1.185659646987915,
      "learning_rate": 2.803636363636364e-05,
      "loss": 1.2444,
      "step": 2480
    },
    {
      "epoch": 7.661538461538462,
      "grad_norm": 1.4726060628890991,
      "learning_rate": 2.7672727272727273e-05,
      "loss": 1.2877,
      "step": 2490
    },
    {
      "epoch": 7.6923076923076925,
      "grad_norm": 1.525718092918396,
      "learning_rate": 2.7309090909090913e-05,
      "loss": 1.2993,
      "step": 2500
    },
    {
      "epoch": 7.723076923076923,
      "grad_norm": 1.2432451248168945,
      "learning_rate": 2.6945454545454546e-05,
      "loss": 1.2803,
      "step": 2510
    },
    {
      "epoch": 7.753846153846154,
      "grad_norm": 1.2237839698791504,
      "learning_rate": 2.6581818181818186e-05,
      "loss": 1.2785,
      "step": 2520
    },
    {
      "epoch": 7.7846153846153845,
      "grad_norm": 1.5360924005508423,
      "learning_rate": 2.621818181818182e-05,
      "loss": 1.3164,
      "step": 2530
    },
    {
      "epoch": 7.815384615384615,
      "grad_norm": 1.4242442846298218,
      "learning_rate": 2.5854545454545453e-05,
      "loss": 1.1864,
      "step": 2540
    },
    {
      "epoch": 7.846153846153846,
      "grad_norm": 1.0664770603179932,
      "learning_rate": 2.5490909090909093e-05,
      "loss": 1.2769,
      "step": 2550
    },
    {
      "epoch": 7.876923076923077,
      "grad_norm": 1.3427962064743042,
      "learning_rate": 2.5127272727272727e-05,
      "loss": 1.183,
      "step": 2560
    },
    {
      "epoch": 7.907692307692308,
      "grad_norm": 1.2692787647247314,
      "learning_rate": 2.4763636363636363e-05,
      "loss": 1.3775,
      "step": 2570
    },
    {
      "epoch": 7.938461538461539,
      "grad_norm": 1.3220490217208862,
      "learning_rate": 2.44e-05,
      "loss": 1.1557,
      "step": 2580
    },
    {
      "epoch": 7.969230769230769,
      "grad_norm": 1.31517493724823,
      "learning_rate": 2.4036363636363637e-05,
      "loss": 1.3144,
      "step": 2590
    },
    {
      "epoch": 8.0,
      "grad_norm": 1.145848274230957,
      "learning_rate": 2.3672727272727274e-05,
      "loss": 1.4194,
      "step": 2600
    },
    {
      "epoch": 8.0,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.6980103254318237,
      "eval_rouge1": 0.6066,
      "eval_rouge2": 0.2565,
      "eval_rougeL": 0.4699,
      "eval_runtime": 33.5275,
      "eval_samples_per_second": 8.172,
      "eval_steps_per_second": 2.058,
      "step": 2600
    },
    {
      "epoch": 8.03076923076923,
      "grad_norm": 1.3528770208358765,
      "learning_rate": 2.330909090909091e-05,
      "loss": 1.2504,
      "step": 2610
    },
    {
      "epoch": 8.061538461538461,
      "grad_norm": 1.1651642322540283,
      "learning_rate": 2.2945454545454547e-05,
      "loss": 1.0993,
      "step": 2620
    },
    {
      "epoch": 8.092307692307692,
      "grad_norm": 1.1845202445983887,
      "learning_rate": 2.258181818181818e-05,
      "loss": 1.1356,
      "step": 2630
    },
    {
      "epoch": 8.123076923076923,
      "grad_norm": 1.2000699043273926,
      "learning_rate": 2.2218181818181817e-05,
      "loss": 1.206,
      "step": 2640
    },
    {
      "epoch": 8.153846153846153,
      "grad_norm": 1.449044108390808,
      "learning_rate": 2.1854545454545454e-05,
      "loss": 1.2059,
      "step": 2650
    },
    {
      "epoch": 8.184615384615384,
      "grad_norm": 1.2176152467727661,
      "learning_rate": 2.149090909090909e-05,
      "loss": 1.1849,
      "step": 2660
    },
    {
      "epoch": 8.215384615384615,
      "grad_norm": 1.4765113592147827,
      "learning_rate": 2.1127272727272728e-05,
      "loss": 1.3351,
      "step": 2670
    },
    {
      "epoch": 8.246153846153845,
      "grad_norm": 1.5038341283798218,
      "learning_rate": 2.0763636363636364e-05,
      "loss": 1.2766,
      "step": 2680
    },
    {
      "epoch": 8.276923076923078,
      "grad_norm": 1.3483731746673584,
      "learning_rate": 2.04e-05,
      "loss": 1.1067,
      "step": 2690
    },
    {
      "epoch": 8.307692307692308,
      "grad_norm": 1.025032639503479,
      "learning_rate": 2.0036363636363638e-05,
      "loss": 1.2155,
      "step": 2700
    },
    {
      "epoch": 8.338461538461539,
      "grad_norm": 1.3824971914291382,
      "learning_rate": 1.9672727272727275e-05,
      "loss": 1.1767,
      "step": 2710
    },
    {
      "epoch": 8.36923076923077,
      "grad_norm": 1.2280523777008057,
      "learning_rate": 1.930909090909091e-05,
      "loss": 1.2881,
      "step": 2720
    },
    {
      "epoch": 8.4,
      "grad_norm": 1.2223644256591797,
      "learning_rate": 1.8945454545454548e-05,
      "loss": 1.1898,
      "step": 2730
    },
    {
      "epoch": 8.430769230769231,
      "grad_norm": 1.349334955215454,
      "learning_rate": 1.8581818181818185e-05,
      "loss": 1.2984,
      "step": 2740
    },
    {
      "epoch": 8.461538461538462,
      "grad_norm": 1.2894556522369385,
      "learning_rate": 1.8218181818181822e-05,
      "loss": 1.3458,
      "step": 2750
    },
    {
      "epoch": 8.492307692307692,
      "grad_norm": 1.6086795330047607,
      "learning_rate": 1.7854545454545455e-05,
      "loss": 1.2394,
      "step": 2760
    },
    {
      "epoch": 8.523076923076923,
      "grad_norm": 1.4955778121948242,
      "learning_rate": 1.7490909090909092e-05,
      "loss": 1.1506,
      "step": 2770
    },
    {
      "epoch": 8.553846153846154,
      "grad_norm": 1.4156781435012817,
      "learning_rate": 1.712727272727273e-05,
      "loss": 1.1746,
      "step": 2780
    },
    {
      "epoch": 8.584615384615384,
      "grad_norm": 1.2073826789855957,
      "learning_rate": 1.6763636363636365e-05,
      "loss": 1.1301,
      "step": 2790
    },
    {
      "epoch": 8.615384615384615,
      "grad_norm": 1.574342966079712,
      "learning_rate": 1.6400000000000002e-05,
      "loss": 1.3976,
      "step": 2800
    },
    {
      "epoch": 8.615384615384615,
      "eval_gen_len": 187.0146,
      "eval_loss": 1.7040081024169922,
      "eval_rouge1": 0.6049,
      "eval_rouge2": 0.2551,
      "eval_rougeL": 0.469,
      "eval_runtime": 34.1499,
      "eval_samples_per_second": 8.023,
      "eval_steps_per_second": 2.021,
      "step": 2800
    },
    {
      "epoch": 8.646153846153846,
      "grad_norm": 1.207323670387268,
      "learning_rate": 1.603636363636364e-05,
      "loss": 1.2123,
      "step": 2810
    },
    {
      "epoch": 8.676923076923076,
      "grad_norm": 1.346170425415039,
      "learning_rate": 1.5672727272727272e-05,
      "loss": 1.1284,
      "step": 2820
    },
    {
      "epoch": 8.707692307692307,
      "grad_norm": 1.3920952081680298,
      "learning_rate": 1.530909090909091e-05,
      "loss": 1.1961,
      "step": 2830
    },
    {
      "epoch": 8.73846153846154,
      "grad_norm": 1.4912207126617432,
      "learning_rate": 1.4945454545454546e-05,
      "loss": 1.2558,
      "step": 2840
    },
    {
      "epoch": 8.76923076923077,
      "grad_norm": 0.9997207522392273,
      "learning_rate": 1.4581818181818183e-05,
      "loss": 1.1842,
      "step": 2850
    },
    {
      "epoch": 8.8,
      "grad_norm": 1.207138180732727,
      "learning_rate": 1.421818181818182e-05,
      "loss": 1.2588,
      "step": 2860
    },
    {
      "epoch": 8.830769230769231,
      "grad_norm": 1.398917555809021,
      "learning_rate": 1.3854545454545456e-05,
      "loss": 1.2445,
      "step": 2870
    },
    {
      "epoch": 8.861538461538462,
      "grad_norm": 1.3793071508407593,
      "learning_rate": 1.3490909090909093e-05,
      "loss": 1.164,
      "step": 2880
    },
    {
      "epoch": 8.892307692307693,
      "grad_norm": 1.2650920152664185,
      "learning_rate": 1.3127272727272726e-05,
      "loss": 1.2235,
      "step": 2890
    },
    {
      "epoch": 8.923076923076923,
      "grad_norm": 1.3319740295410156,
      "learning_rate": 1.2763636363636363e-05,
      "loss": 1.1818,
      "step": 2900
    },
    {
      "epoch": 8.953846153846154,
      "grad_norm": 1.395668387413025,
      "learning_rate": 1.24e-05,
      "loss": 1.2237,
      "step": 2910
    },
    {
      "epoch": 8.984615384615385,
      "grad_norm": 1.1730422973632812,
      "learning_rate": 1.2036363636363637e-05,
      "loss": 1.0141,
      "step": 2920
    }
  ],
  "logging_steps": 10,
  "max_steps": 3250,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 7124807319552000.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}