{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 8564,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0005838393274170948,
      "grad_norm": 2.8469952515683437,
      "learning_rate": 5.827505827505828e-07,
      "loss": 1.1342,
      "step": 5
    },
    {
      "epoch": 0.0011676786548341896,
      "grad_norm": 2.6897624350510996,
      "learning_rate": 1.1655011655011657e-06,
      "loss": 1.1192,
      "step": 10
    },
    {
      "epoch": 0.0017515179822512844,
      "grad_norm": 2.489357614904495,
      "learning_rate": 1.7482517482517485e-06,
      "loss": 1.1026,
      "step": 15
    },
    {
      "epoch": 0.002335357309668379,
      "grad_norm": 1.9452947723577663,
      "learning_rate": 2.3310023310023313e-06,
      "loss": 1.0839,
      "step": 20
    },
    {
      "epoch": 0.002919196637085474,
      "grad_norm": 1.3334898364058092,
      "learning_rate": 2.9137529137529138e-06,
      "loss": 1.0333,
      "step": 25
    },
    {
      "epoch": 0.003503035964502569,
      "grad_norm": 1.3156533821299237,
      "learning_rate": 3.496503496503497e-06,
      "loss": 1.0142,
      "step": 30
    },
    {
      "epoch": 0.004086875291919664,
      "grad_norm": 1.0319662501793385,
      "learning_rate": 4.079254079254079e-06,
      "loss": 0.9595,
      "step": 35
    },
    {
      "epoch": 0.004670714619336758,
      "grad_norm": 0.9794564419052394,
      "learning_rate": 4.662004662004663e-06,
      "loss": 0.9241,
      "step": 40
    },
    {
      "epoch": 0.005254553946753854,
      "grad_norm": 0.8636223012514679,
      "learning_rate": 5.244755244755245e-06,
      "loss": 0.9067,
      "step": 45
    },
    {
      "epoch": 0.005838393274170948,
      "grad_norm": 0.8696789275736428,
      "learning_rate": 5.8275058275058275e-06,
      "loss": 0.8791,
      "step": 50
    },
    {
      "epoch": 0.006422232601588043,
      "grad_norm": 0.8407794179207635,
      "learning_rate": 6.41025641025641e-06,
      "loss": 0.8934,
      "step": 55
    },
    {
      "epoch": 0.007006071929005138,
      "grad_norm": 0.9407370909076542,
      "learning_rate": 6.993006993006994e-06,
      "loss": 0.8934,
      "step": 60
    },
    {
      "epoch": 0.007589911256422233,
      "grad_norm": 0.8092787662698692,
      "learning_rate": 7.5757575757575764e-06,
      "loss": 0.863,
      "step": 65
    },
    {
      "epoch": 0.008173750583839328,
      "grad_norm": 0.8224130681631353,
      "learning_rate": 8.158508158508159e-06,
      "loss": 0.8676,
      "step": 70
    },
    {
      "epoch": 0.008757589911256422,
      "grad_norm": 0.8183320365501537,
      "learning_rate": 8.741258741258741e-06,
      "loss": 0.8736,
      "step": 75
    },
    {
      "epoch": 0.009341429238673517,
      "grad_norm": 0.7982114345023084,
      "learning_rate": 9.324009324009325e-06,
      "loss": 0.8483,
      "step": 80
    },
    {
      "epoch": 0.009925268566090611,
      "grad_norm": 0.8268601708543242,
      "learning_rate": 9.906759906759908e-06,
      "loss": 0.8463,
      "step": 85
    },
    {
      "epoch": 0.010509107893507707,
      "grad_norm": 0.8699340248486512,
      "learning_rate": 1.048951048951049e-05,
      "loss": 0.8447,
      "step": 90
    },
    {
      "epoch": 0.011092947220924802,
      "grad_norm": 0.8309891860577984,
      "learning_rate": 1.1072261072261073e-05,
      "loss": 0.8506,
      "step": 95
    },
    {
      "epoch": 0.011676786548341896,
      "grad_norm": 0.8767528986933936,
      "learning_rate": 1.1655011655011655e-05,
      "loss": 0.8229,
      "step": 100
    },
    {
      "epoch": 0.01226062587575899,
      "grad_norm": 0.8834150944718365,
      "learning_rate": 1.2237762237762239e-05,
      "loss": 0.8347,
      "step": 105
    },
    {
      "epoch": 0.012844465203176086,
      "grad_norm": 0.828246433297155,
      "learning_rate": 1.282051282051282e-05,
      "loss": 0.8258,
      "step": 110
    },
    {
      "epoch": 0.01342830453059318,
      "grad_norm": 0.8178105785040897,
      "learning_rate": 1.3403263403263406e-05,
      "loss": 0.817,
      "step": 115
    },
    {
      "epoch": 0.014012143858010275,
      "grad_norm": 0.8424478993141643,
      "learning_rate": 1.3986013986013988e-05,
      "loss": 0.825,
      "step": 120
    },
    {
      "epoch": 0.014595983185427371,
      "grad_norm": 0.8394877026175257,
      "learning_rate": 1.456876456876457e-05,
      "loss": 0.8147,
      "step": 125
    },
    {
      "epoch": 0.015179822512844466,
      "grad_norm": 0.89097070697157,
      "learning_rate": 1.5151515151515153e-05,
      "loss": 0.8146,
      "step": 130
    },
    {
      "epoch": 0.01576366184026156,
      "grad_norm": 0.9586903801030577,
      "learning_rate": 1.5734265734265734e-05,
      "loss": 0.8226,
      "step": 135
    },
    {
      "epoch": 0.016347501167678656,
      "grad_norm": 0.9000551836338954,
      "learning_rate": 1.6317016317016318e-05,
      "loss": 0.8001,
      "step": 140
    },
    {
      "epoch": 0.01693134049509575,
      "grad_norm": 0.8067021698055977,
      "learning_rate": 1.68997668997669e-05,
      "loss": 0.8064,
      "step": 145
    },
    {
      "epoch": 0.017515179822512845,
      "grad_norm": 0.9644732978901126,
      "learning_rate": 1.7482517482517483e-05,
      "loss": 0.7948,
      "step": 150
    },
    {
      "epoch": 0.01809901914992994,
      "grad_norm": 0.8898965604096551,
      "learning_rate": 1.8065268065268067e-05,
      "loss": 0.8044,
      "step": 155
    },
    {
      "epoch": 0.018682858477347034,
      "grad_norm": 0.9024973580531401,
      "learning_rate": 1.864801864801865e-05,
      "loss": 0.8113,
      "step": 160
    },
    {
      "epoch": 0.01926669780476413,
      "grad_norm": 0.8902533739833289,
      "learning_rate": 1.923076923076923e-05,
      "loss": 0.812,
      "step": 165
    },
    {
      "epoch": 0.019850537132181222,
      "grad_norm": 0.8461212901690308,
      "learning_rate": 1.9813519813519816e-05,
      "loss": 0.7835,
      "step": 170
    },
    {
      "epoch": 0.02043437645959832,
      "grad_norm": 0.9593997324120669,
      "learning_rate": 2.0396270396270396e-05,
      "loss": 0.8341,
      "step": 175
    },
    {
      "epoch": 0.021018215787015414,
      "grad_norm": 0.9319872831334555,
      "learning_rate": 2.097902097902098e-05,
      "loss": 0.8127,
      "step": 180
    },
    {
      "epoch": 0.021602055114432507,
      "grad_norm": 0.9164230729247066,
      "learning_rate": 2.156177156177156e-05,
      "loss": 0.8018,
      "step": 185
    },
    {
      "epoch": 0.022185894441849603,
      "grad_norm": 0.8722898766994293,
      "learning_rate": 2.2144522144522145e-05,
      "loss": 0.8126,
      "step": 190
    },
    {
      "epoch": 0.0227697337692667,
      "grad_norm": 0.9328215048668408,
      "learning_rate": 2.272727272727273e-05,
      "loss": 0.7799,
      "step": 195
    },
    {
      "epoch": 0.023353573096683792,
      "grad_norm": 0.9109551187088815,
      "learning_rate": 2.331002331002331e-05,
      "loss": 0.7911,
      "step": 200
    },
    {
      "epoch": 0.023937412424100888,
      "grad_norm": 0.8692976775471373,
      "learning_rate": 2.3892773892773894e-05,
      "loss": 0.7999,
      "step": 205
    },
    {
      "epoch": 0.02452125175151798,
      "grad_norm": 0.9102711535679596,
      "learning_rate": 2.4475524475524478e-05,
      "loss": 0.8224,
      "step": 210
    },
    {
      "epoch": 0.025105091078935077,
      "grad_norm": 1.0021495752651475,
      "learning_rate": 2.505827505827506e-05,
      "loss": 0.7727,
      "step": 215
    },
    {
      "epoch": 0.025688930406352173,
      "grad_norm": 0.8838902337075365,
      "learning_rate": 2.564102564102564e-05,
      "loss": 0.7968,
      "step": 220
    },
    {
      "epoch": 0.026272769733769265,
      "grad_norm": 0.8062784051996996,
      "learning_rate": 2.6223776223776224e-05,
      "loss": 0.7917,
      "step": 225
    },
    {
      "epoch": 0.02685660906118636,
      "grad_norm": 0.8311276241312253,
      "learning_rate": 2.680652680652681e-05,
      "loss": 0.8031,
      "step": 230
    },
    {
      "epoch": 0.027440448388603458,
      "grad_norm": 0.895141981016196,
      "learning_rate": 2.738927738927739e-05,
      "loss": 0.7901,
      "step": 235
    },
    {
      "epoch": 0.02802428771602055,
      "grad_norm": 0.9022303058168814,
      "learning_rate": 2.7972027972027976e-05,
      "loss": 0.7652,
      "step": 240
    },
    {
      "epoch": 0.028608127043437646,
      "grad_norm": 0.913718234352083,
      "learning_rate": 2.8554778554778557e-05,
      "loss": 0.793,
      "step": 245
    },
    {
      "epoch": 0.029191966370854742,
      "grad_norm": 0.9464414694961122,
      "learning_rate": 2.913752913752914e-05,
      "loss": 0.8194,
      "step": 250
    },
    {
      "epoch": 0.029775805698271835,
      "grad_norm": 0.8798527135755817,
      "learning_rate": 2.972027972027972e-05,
      "loss": 0.8142,
      "step": 255
    },
    {
      "epoch": 0.03035964502568893,
      "grad_norm": 0.861473905943677,
      "learning_rate": 3.0303030303030306e-05,
      "loss": 0.8026,
      "step": 260
    },
    {
      "epoch": 0.030943484353106024,
      "grad_norm": 0.8890275205284014,
      "learning_rate": 3.088578088578088e-05,
      "loss": 0.7981,
      "step": 265
    },
    {
      "epoch": 0.03152732368052312,
      "grad_norm": 0.9184733369917072,
      "learning_rate": 3.146853146853147e-05,
      "loss": 0.7806,
      "step": 270
    },
    {
      "epoch": 0.032111163007940216,
      "grad_norm": 0.9624043666630351,
      "learning_rate": 3.205128205128206e-05,
      "loss": 0.7875,
      "step": 275
    },
    {
      "epoch": 0.03269500233535731,
      "grad_norm": 0.9589380101558912,
      "learning_rate": 3.2634032634032635e-05,
      "loss": 0.7884,
      "step": 280
    },
    {
      "epoch": 0.0332788416627744,
      "grad_norm": 0.9734450757595803,
      "learning_rate": 3.321678321678322e-05,
      "loss": 0.8107,
      "step": 285
    },
    {
      "epoch": 0.0338626809901915,
      "grad_norm": 1.0976968736829902,
      "learning_rate": 3.37995337995338e-05,
      "loss": 0.7985,
      "step": 290
    },
    {
      "epoch": 0.034446520317608594,
      "grad_norm": 0.8956644445095314,
      "learning_rate": 3.438228438228439e-05,
      "loss": 0.7864,
      "step": 295
    },
    {
      "epoch": 0.03503035964502569,
      "grad_norm": 0.8961849644495538,
      "learning_rate": 3.4965034965034965e-05,
      "loss": 0.7802,
      "step": 300
    },
    {
      "epoch": 0.035614198972442786,
      "grad_norm": 0.9155647051953708,
      "learning_rate": 3.554778554778555e-05,
      "loss": 0.7894,
      "step": 305
    },
    {
      "epoch": 0.03619803829985988,
      "grad_norm": 0.9359545515475477,
      "learning_rate": 3.613053613053613e-05,
      "loss": 0.8022,
      "step": 310
    },
    {
      "epoch": 0.03678187762727697,
      "grad_norm": 0.9073994864544219,
      "learning_rate": 3.671328671328672e-05,
      "loss": 0.7826,
      "step": 315
    },
    {
      "epoch": 0.03736571695469407,
      "grad_norm": 0.9540970201934222,
      "learning_rate": 3.72960372960373e-05,
      "loss": 0.7875,
      "step": 320
    },
    {
      "epoch": 0.03794955628211116,
      "grad_norm": 0.9896974399906573,
      "learning_rate": 3.787878787878788e-05,
      "loss": 0.7815,
      "step": 325
    },
    {
      "epoch": 0.03853339560952826,
      "grad_norm": 1.0098673751943326,
      "learning_rate": 3.846153846153846e-05,
      "loss": 0.7928,
      "step": 330
    },
    {
      "epoch": 0.039117234936945355,
      "grad_norm": 0.9568961216747747,
      "learning_rate": 3.904428904428905e-05,
      "loss": 0.8014,
      "step": 335
    },
    {
      "epoch": 0.039701074264362445,
      "grad_norm": 0.9070273181335483,
      "learning_rate": 3.962703962703963e-05,
      "loss": 0.7871,
      "step": 340
    },
    {
      "epoch": 0.04028491359177954,
      "grad_norm": 0.8743288189560451,
      "learning_rate": 4.020979020979021e-05,
      "loss": 0.774,
      "step": 345
    },
    {
      "epoch": 0.04086875291919664,
      "grad_norm": 1.0477138979263285,
      "learning_rate": 4.079254079254079e-05,
      "loss": 0.7866,
      "step": 350
    },
    {
      "epoch": 0.04145259224661373,
      "grad_norm": 0.845985324382712,
      "learning_rate": 4.1375291375291377e-05,
      "loss": 0.7945,
      "step": 355
    },
    {
      "epoch": 0.04203643157403083,
      "grad_norm": 1.067533288565115,
      "learning_rate": 4.195804195804196e-05,
      "loss": 0.7953,
      "step": 360
    },
    {
      "epoch": 0.04262027090144792,
      "grad_norm": 0.9916448982734962,
      "learning_rate": 4.254079254079254e-05,
      "loss": 0.7938,
      "step": 365
    },
    {
      "epoch": 0.043204110228865014,
      "grad_norm": 0.9867852858846966,
      "learning_rate": 4.312354312354312e-05,
      "loss": 0.7866,
      "step": 370
    },
    {
      "epoch": 0.04378794955628211,
      "grad_norm": 0.8871740073671367,
      "learning_rate": 4.370629370629371e-05,
      "loss": 0.7574,
      "step": 375
    },
    {
      "epoch": 0.044371788883699206,
      "grad_norm": 0.915178688048331,
      "learning_rate": 4.428904428904429e-05,
      "loss": 0.7745,
      "step": 380
    },
    {
      "epoch": 0.0449556282111163,
      "grad_norm": 0.9878189566672229,
      "learning_rate": 4.4871794871794874e-05,
      "loss": 0.7964,
      "step": 385
    },
    {
      "epoch": 0.0455394675385334,
      "grad_norm": 1.010681809776873,
      "learning_rate": 4.545454545454546e-05,
      "loss": 0.7819,
      "step": 390
    },
    {
      "epoch": 0.04612330686595049,
      "grad_norm": 1.1897933196265749,
      "learning_rate": 4.603729603729604e-05,
      "loss": 0.7788,
      "step": 395
    },
    {
      "epoch": 0.046707146193367584,
      "grad_norm": 1.061158392111532,
      "learning_rate": 4.662004662004662e-05,
      "loss": 0.8035,
      "step": 400
    },
    {
      "epoch": 0.04729098552078468,
      "grad_norm": 0.8408235558466027,
      "learning_rate": 4.7202797202797204e-05,
      "loss": 0.7879,
      "step": 405
    },
    {
      "epoch": 0.047874824848201776,
      "grad_norm": 0.9163616279323427,
      "learning_rate": 4.778554778554779e-05,
      "loss": 0.8038,
      "step": 410
    },
    {
      "epoch": 0.04845866417561887,
      "grad_norm": 0.8231726702767893,
      "learning_rate": 4.836829836829837e-05,
      "loss": 0.7776,
      "step": 415
    },
    {
      "epoch": 0.04904250350303596,
      "grad_norm": 0.8838721217063888,
      "learning_rate": 4.8951048951048956e-05,
      "loss": 0.7699,
      "step": 420
    },
    {
      "epoch": 0.04962634283045306,
      "grad_norm": 0.9845033294686794,
      "learning_rate": 4.9533799533799534e-05,
      "loss": 0.8037,
      "step": 425
    },
    {
      "epoch": 0.050210182157870153,
      "grad_norm": 0.8749354730883913,
      "learning_rate": 4.999999832221176e-05,
      "loss": 0.7775,
      "step": 430
    },
    {
      "epoch": 0.05079402148528725,
      "grad_norm": 0.9234120904036062,
      "learning_rate": 4.999993959964937e-05,
      "loss": 0.777,
      "step": 435
    },
    {
      "epoch": 0.051377860812704346,
      "grad_norm": 0.8214791658110356,
      "learning_rate": 4.999979698792484e-05,
      "loss": 0.7936,
      "step": 440
    },
    {
      "epoch": 0.05196170014012144,
      "grad_norm": 1.067662635381822,
      "learning_rate": 4.999957048756989e-05,
      "loss": 0.7924,
      "step": 445
    },
    {
      "epoch": 0.05254553946753853,
      "grad_norm": 0.8536251459541943,
      "learning_rate": 4.999926009942899e-05,
      "loss": 0.7857,
      "step": 450
    },
    {
      "epoch": 0.05312937879495563,
      "grad_norm": 0.8789484855680025,
      "learning_rate": 4.999886582465941e-05,
      "loss": 0.8028,
      "step": 455
    },
    {
      "epoch": 0.05371321812237272,
      "grad_norm": 0.8645381455149383,
      "learning_rate": 4.999838766473116e-05,
      "loss": 0.7835,
      "step": 460
    },
    {
      "epoch": 0.05429705744978982,
      "grad_norm": 0.8193748527865334,
      "learning_rate": 4.999782562142702e-05,
      "loss": 0.7616,
      "step": 465
    },
    {
      "epoch": 0.054880896777206915,
      "grad_norm": 0.9327485152610473,
      "learning_rate": 4.999717969684254e-05,
      "loss": 0.7927,
      "step": 470
    },
    {
      "epoch": 0.055464736104624004,
      "grad_norm": 0.8976109159630459,
      "learning_rate": 4.999644989338598e-05,
      "loss": 0.8048,
      "step": 475
    },
    {
      "epoch": 0.0560485754320411,
      "grad_norm": 0.9029757753061991,
      "learning_rate": 4.9995636213778354e-05,
      "loss": 0.7697,
      "step": 480
    },
    {
      "epoch": 0.0566324147594582,
      "grad_norm": 0.8037219872770315,
      "learning_rate": 4.99947386610534e-05,
      "loss": 0.7739,
      "step": 485
    },
    {
      "epoch": 0.05721625408687529,
      "grad_norm": 0.8876170287138181,
      "learning_rate": 4.9993757238557564e-05,
      "loss": 0.789,
      "step": 490
    },
    {
      "epoch": 0.05780009341429239,
      "grad_norm": 0.8049736423744179,
      "learning_rate": 4.999269194995001e-05,
      "loss": 0.7548,
      "step": 495
    },
    {
      "epoch": 0.058383932741709485,
      "grad_norm": 0.8398014231160289,
      "learning_rate": 4.9991542799202574e-05,
      "loss": 0.7658,
      "step": 500
    },
    {
      "epoch": 0.058967772069126574,
      "grad_norm": 0.7942320658266705,
      "learning_rate": 4.999030979059977e-05,
      "loss": 0.7873,
      "step": 505
    },
    {
      "epoch": 0.05955161139654367,
      "grad_norm": 0.8289805635789632,
      "learning_rate": 4.998899292873876e-05,
      "loss": 0.7909,
      "step": 510
    },
    {
      "epoch": 0.060135450723960766,
      "grad_norm": 0.7893877662667962,
      "learning_rate": 4.9987592218529364e-05,
      "loss": 0.7776,
      "step": 515
    },
    {
      "epoch": 0.06071929005137786,
      "grad_norm": 0.7965955365053803,
      "learning_rate": 4.998610766519401e-05,
      "loss": 0.7732,
      "step": 520
    },
    {
      "epoch": 0.06130312937879496,
      "grad_norm": 0.8628562549084506,
      "learning_rate": 4.9984539274267726e-05,
      "loss": 0.7658,
      "step": 525
    },
    {
      "epoch": 0.06188696870621205,
      "grad_norm": 0.8318274287434425,
      "learning_rate": 4.998288705159815e-05,
      "loss": 0.7958,
      "step": 530
    },
    {
      "epoch": 0.062470808033629144,
      "grad_norm": 0.86123088200466,
      "learning_rate": 4.9981151003345436e-05,
      "loss": 0.7698,
      "step": 535
    },
    {
      "epoch": 0.06305464736104624,
      "grad_norm": 0.929794979823692,
      "learning_rate": 4.99793311359823e-05,
      "loss": 0.7935,
      "step": 540
    },
    {
      "epoch": 0.06363848668846334,
      "grad_norm": 0.7886084726419026,
      "learning_rate": 4.997742745629397e-05,
      "loss": 0.7884,
      "step": 545
    },
    {
      "epoch": 0.06422232601588043,
      "grad_norm": 0.7674475851531968,
      "learning_rate": 4.997543997137816e-05,
      "loss": 0.7709,
      "step": 550
    },
    {
      "epoch": 0.06480616534329753,
      "grad_norm": 0.8546622570923904,
      "learning_rate": 4.9973368688645034e-05,
      "loss": 0.7875,
      "step": 555
    },
    {
      "epoch": 0.06539000467071462,
      "grad_norm": 0.7843602866632492,
      "learning_rate": 4.997121361581721e-05,
      "loss": 0.7671,
      "step": 560
    },
    {
      "epoch": 0.06597384399813172,
      "grad_norm": 0.8189556120793431,
      "learning_rate": 4.9968974760929694e-05,
      "loss": 0.7586,
      "step": 565
    },
    {
      "epoch": 0.0665576833255488,
      "grad_norm": 0.7898759730617912,
      "learning_rate": 4.996665213232987e-05,
      "loss": 0.7377,
      "step": 570
    },
    {
      "epoch": 0.0671415226529659,
      "grad_norm": 0.8493700109069738,
      "learning_rate": 4.9964245738677465e-05,
      "loss": 0.7697,
      "step": 575
    },
    {
      "epoch": 0.067725361980383,
      "grad_norm": 0.8126736004420235,
      "learning_rate": 4.996175558894452e-05,
      "loss": 0.7624,
      "step": 580
    },
    {
      "epoch": 0.06830920130780009,
      "grad_norm": 0.8743281435570972,
      "learning_rate": 4.9959181692415345e-05,
      "loss": 0.7862,
      "step": 585
    },
    {
      "epoch": 0.06889304063521719,
      "grad_norm": 0.8965919464326476,
      "learning_rate": 4.995652405868652e-05,
      "loss": 0.7698,
      "step": 590
    },
    {
      "epoch": 0.06947687996263428,
      "grad_norm": 0.778928402409659,
      "learning_rate": 4.99537826976668e-05,
      "loss": 0.7685,
      "step": 595
    },
    {
      "epoch": 0.07006071929005138,
      "grad_norm": 0.8891716181302853,
      "learning_rate": 4.9950957619577115e-05,
      "loss": 0.7906,
      "step": 600
    },
    {
      "epoch": 0.07064455861746848,
      "grad_norm": 0.8042288230813074,
      "learning_rate": 4.9948048834950546e-05,
      "loss": 0.7856,
      "step": 605
    },
    {
      "epoch": 0.07122839794488557,
      "grad_norm": 0.8829956497108745,
      "learning_rate": 4.9945056354632255e-05,
      "loss": 0.779,
      "step": 610
    },
    {
      "epoch": 0.07181223727230267,
      "grad_norm": 0.8942892647415688,
      "learning_rate": 4.994198018977945e-05,
      "loss": 0.7769,
      "step": 615
    },
    {
      "epoch": 0.07239607659971976,
      "grad_norm": 0.7921633771179634,
      "learning_rate": 4.993882035186136e-05,
      "loss": 0.7725,
      "step": 620
    },
    {
      "epoch": 0.07297991592713685,
      "grad_norm": 0.8160400012903543,
      "learning_rate": 4.9935576852659175e-05,
      "loss": 0.7628,
      "step": 625
    },
    {
      "epoch": 0.07356375525455394,
      "grad_norm": 0.7456640206417225,
      "learning_rate": 4.993224970426603e-05,
      "loss": 0.7516,
      "step": 630
    },
    {
      "epoch": 0.07414759458197104,
      "grad_norm": 0.8299750150456215,
      "learning_rate": 4.99288389190869e-05,
      "loss": 0.7678,
      "step": 635
    },
    {
      "epoch": 0.07473143390938813,
      "grad_norm": 0.7558532259531837,
      "learning_rate": 4.992534450983864e-05,
      "loss": 0.7815,
      "step": 640
    },
    {
      "epoch": 0.07531527323680523,
      "grad_norm": 0.8252676659283117,
      "learning_rate": 4.9921766489549835e-05,
      "loss": 0.7799,
      "step": 645
    },
    {
      "epoch": 0.07589911256422233,
      "grad_norm": 0.7776976006967014,
      "learning_rate": 4.991810487156087e-05,
      "loss": 0.7615,
      "step": 650
    },
    {
      "epoch": 0.07648295189163942,
      "grad_norm": 0.8405891548119552,
      "learning_rate": 4.991435966952376e-05,
      "loss": 0.7837,
      "step": 655
    },
    {
      "epoch": 0.07706679121905652,
      "grad_norm": 0.8756113196019248,
      "learning_rate": 4.991053089740219e-05,
      "loss": 0.7699,
      "step": 660
    },
    {
      "epoch": 0.07765063054647361,
      "grad_norm": 1.1428051944412874,
      "learning_rate": 4.990661856947142e-05,
      "loss": 0.7718,
      "step": 665
    },
    {
      "epoch": 0.07823446987389071,
      "grad_norm": 0.8924432538613407,
      "learning_rate": 4.990262270031824e-05,
      "loss": 0.7461,
      "step": 670
    },
    {
      "epoch": 0.0788183092013078,
      "grad_norm": 0.9183291954602351,
      "learning_rate": 4.989854330484092e-05,
      "loss": 0.789,
      "step": 675
    },
    {
      "epoch": 0.07940214852872489,
      "grad_norm": 0.8651568066240668,
      "learning_rate": 4.9894380398249135e-05,
      "loss": 0.7818,
      "step": 680
    },
    {
      "epoch": 0.07998598785614199,
      "grad_norm": 0.8371330103012771,
      "learning_rate": 4.989013399606396e-05,
      "loss": 0.7554,
      "step": 685
    },
    {
      "epoch": 0.08056982718355908,
      "grad_norm": 0.867443980137123,
      "learning_rate": 4.988580411411774e-05,
      "loss": 0.7547,
      "step": 690
    },
    {
      "epoch": 0.08115366651097618,
      "grad_norm": 0.7919451608747614,
      "learning_rate": 4.988139076855408e-05,
      "loss": 0.7782,
      "step": 695
    },
    {
      "epoch": 0.08173750583839327,
      "grad_norm": 0.9449950228678913,
      "learning_rate": 4.9876893975827774e-05,
      "loss": 0.7665,
      "step": 700
    },
    {
      "epoch": 0.08232134516581037,
      "grad_norm": 0.9593745392334234,
      "learning_rate": 4.987231375270475e-05,
      "loss": 0.7842,
      "step": 705
    },
    {
      "epoch": 0.08290518449322747,
      "grad_norm": 0.8539716370032612,
      "learning_rate": 4.9867650116261994e-05,
      "loss": 0.7494,
      "step": 710
    },
    {
      "epoch": 0.08348902382064456,
      "grad_norm": 0.7557280578139879,
      "learning_rate": 4.986290308388747e-05,
      "loss": 0.7654,
      "step": 715
    },
    {
      "epoch": 0.08407286314806166,
      "grad_norm": 0.7185305603275817,
      "learning_rate": 4.98580726732801e-05,
      "loss": 0.7903,
      "step": 720
    },
    {
      "epoch": 0.08465670247547875,
      "grad_norm": 0.7803979092440014,
      "learning_rate": 4.985315890244969e-05,
      "loss": 0.7452,
      "step": 725
    },
    {
      "epoch": 0.08524054180289584,
      "grad_norm": 0.7966286896957142,
      "learning_rate": 4.9848161789716804e-05,
      "loss": 0.7871,
      "step": 730
    },
    {
      "epoch": 0.08582438113031293,
      "grad_norm": 0.8392258470940968,
      "learning_rate": 4.9843081353712765e-05,
      "loss": 0.7805,
      "step": 735
    },
    {
      "epoch": 0.08640822045773003,
      "grad_norm": 0.784943072918037,
      "learning_rate": 4.983791761337958e-05,
      "loss": 0.7501,
      "step": 740
    },
    {
      "epoch": 0.08699205978514712,
      "grad_norm": 0.9497402810181729,
      "learning_rate": 4.9832670587969804e-05,
      "loss": 0.7686,
      "step": 745
    },
    {
      "epoch": 0.08757589911256422,
      "grad_norm": 0.8211803369957865,
      "learning_rate": 4.9827340297046546e-05,
      "loss": 0.7434,
      "step": 750
    },
    {
      "epoch": 0.08815973843998132,
      "grad_norm": 0.7188834313405097,
      "learning_rate": 4.9821926760483354e-05,
      "loss": 0.7693,
      "step": 755
    },
    {
      "epoch": 0.08874357776739841,
      "grad_norm": 0.7991395439280983,
      "learning_rate": 4.9816429998464155e-05,
      "loss": 0.7644,
      "step": 760
    },
    {
      "epoch": 0.08932741709481551,
      "grad_norm": 0.7629383896397622,
      "learning_rate": 4.9810850031483155e-05,
      "loss": 0.7472,
      "step": 765
    },
    {
      "epoch": 0.0899112564222326,
      "grad_norm": 0.950532875668034,
      "learning_rate": 4.9805186880344826e-05,
      "loss": 0.7624,
      "step": 770
    },
    {
      "epoch": 0.0904950957496497,
      "grad_norm": 0.7831295772019135,
      "learning_rate": 4.9799440566163726e-05,
      "loss": 0.7601,
      "step": 775
    },
    {
      "epoch": 0.0910789350770668,
      "grad_norm": 0.7768389598632662,
      "learning_rate": 4.979361111036454e-05,
      "loss": 0.7763,
      "step": 780
    },
    {
      "epoch": 0.09166277440448388,
      "grad_norm": 0.7500437315213245,
      "learning_rate": 4.9787698534681896e-05,
      "loss": 0.781,
      "step": 785
    },
    {
      "epoch": 0.09224661373190098,
      "grad_norm": 0.725679634631429,
      "learning_rate": 4.978170286116035e-05,
      "loss": 0.763,
      "step": 790
    },
    {
      "epoch": 0.09283045305931807,
      "grad_norm": 0.6820916470053155,
      "learning_rate": 4.9775624112154275e-05,
      "loss": 0.7403,
      "step": 795
    },
    {
      "epoch": 0.09341429238673517,
      "grad_norm": 0.7021882835127938,
      "learning_rate": 4.976946231032777e-05,
      "loss": 0.7341,
      "step": 800
    },
    {
      "epoch": 0.09399813171415226,
      "grad_norm": 0.8227621427323781,
      "learning_rate": 4.976321747865462e-05,
      "loss": 0.7648,
      "step": 805
    },
    {
      "epoch": 0.09458197104156936,
      "grad_norm": 0.804890789043882,
      "learning_rate": 4.975688964041816e-05,
      "loss": 0.7669,
      "step": 810
    },
    {
      "epoch": 0.09516581036898646,
      "grad_norm": 0.7950162974406255,
      "learning_rate": 4.975047881921119e-05,
      "loss": 0.7348,
      "step": 815
    },
    {
      "epoch": 0.09574964969640355,
      "grad_norm": 0.8239463595384365,
      "learning_rate": 4.974398503893596e-05,
      "loss": 0.7665,
      "step": 820
    },
    {
      "epoch": 0.09633348902382065,
      "grad_norm": 0.753758358380225,
      "learning_rate": 4.973740832380397e-05,
      "loss": 0.7751,
      "step": 825
    },
    {
      "epoch": 0.09691732835123774,
      "grad_norm": 0.8628734451803414,
      "learning_rate": 4.9730748698335954e-05,
      "loss": 0.7868,
      "step": 830
    },
    {
      "epoch": 0.09750116767865484,
      "grad_norm": 0.8027759284538418,
      "learning_rate": 4.9724006187361794e-05,
      "loss": 0.7796,
      "step": 835
    },
    {
      "epoch": 0.09808500700607192,
      "grad_norm": 0.8509806930142826,
      "learning_rate": 4.971718081602037e-05,
      "loss": 0.7936,
      "step": 840
    },
    {
      "epoch": 0.09866884633348902,
      "grad_norm": 0.9698203041083456,
      "learning_rate": 4.971027260975952e-05,
      "loss": 0.7604,
      "step": 845
    },
    {
      "epoch": 0.09925268566090611,
      "grad_norm": 0.9130733546941406,
      "learning_rate": 4.9703281594335904e-05,
      "loss": 0.7564,
      "step": 850
    },
    {
      "epoch": 0.09983652498832321,
      "grad_norm": 0.7322423075538033,
      "learning_rate": 4.969620779581497e-05,
      "loss": 0.7601,
      "step": 855
    },
    {
      "epoch": 0.10042036431574031,
      "grad_norm": 0.964862665560022,
      "learning_rate": 4.968905124057077e-05,
      "loss": 0.7466,
      "step": 860
    },
    {
      "epoch": 0.1010042036431574,
      "grad_norm": 0.9994098601217942,
      "learning_rate": 4.968181195528594e-05,
      "loss": 0.7458,
      "step": 865
    },
    {
      "epoch": 0.1015880429705745,
      "grad_norm": 0.8404606717951096,
      "learning_rate": 4.9674489966951545e-05,
      "loss": 0.762,
      "step": 870
    },
    {
      "epoch": 0.1021718822979916,
      "grad_norm": 0.7250386939916199,
      "learning_rate": 4.9667085302867015e-05,
      "loss": 0.7461,
      "step": 875
    },
    {
      "epoch": 0.10275572162540869,
      "grad_norm": 0.7529424335871671,
      "learning_rate": 4.9659597990640045e-05,
      "loss": 0.7489,
      "step": 880
    },
    {
      "epoch": 0.10333956095282579,
      "grad_norm": 0.7954471318661211,
      "learning_rate": 4.9652028058186435e-05,
      "loss": 0.761,
      "step": 885
    },
    {
      "epoch": 0.10392340028024288,
      "grad_norm": 0.780620168906275,
      "learning_rate": 4.9644375533730056e-05,
      "loss": 0.7824,
      "step": 890
    },
    {
      "epoch": 0.10450723960765997,
      "grad_norm": 0.8376075291664477,
      "learning_rate": 4.963664044580272e-05,
      "loss": 0.7605,
      "step": 895
    },
    {
      "epoch": 0.10509107893507706,
      "grad_norm": 0.7349182138721907,
      "learning_rate": 4.9628822823244056e-05,
      "loss": 0.7421,
      "step": 900
    },
    {
      "epoch": 0.10567491826249416,
      "grad_norm": 0.8037517128405073,
      "learning_rate": 4.962092269520143e-05,
      "loss": 0.7406,
      "step": 905
    },
    {
      "epoch": 0.10625875758991125,
      "grad_norm": 0.8672270903867407,
      "learning_rate": 4.96129400911298e-05,
      "loss": 0.7714,
      "step": 910
    },
    {
      "epoch": 0.10684259691732835,
      "grad_norm": 0.8132034707233711,
      "learning_rate": 4.960487504079166e-05,
      "loss": 0.7441,
      "step": 915
    },
    {
      "epoch": 0.10742643624474545,
      "grad_norm": 0.9227968444282286,
      "learning_rate": 4.959672757425688e-05,
      "loss": 0.7651,
      "step": 920
    },
    {
      "epoch": 0.10801027557216254,
      "grad_norm": 0.7885589322496032,
      "learning_rate": 4.958849772190261e-05,
      "loss": 0.7603,
      "step": 925
    },
    {
      "epoch": 0.10859411489957964,
      "grad_norm": 0.728877555249776,
      "learning_rate": 4.958018551441317e-05,
      "loss": 0.7399,
      "step": 930
    },
    {
      "epoch": 0.10917795422699673,
      "grad_norm": 0.8131296512535063,
      "learning_rate": 4.957179098277994e-05,
      "loss": 0.7651,
      "step": 935
    },
    {
      "epoch": 0.10976179355441383,
      "grad_norm": 0.7050317838185277,
      "learning_rate": 4.956331415830125e-05,
      "loss": 0.7337,
      "step": 940
    },
    {
      "epoch": 0.11034563288183093,
      "grad_norm": 0.7609060790958637,
      "learning_rate": 4.955475507258222e-05,
      "loss": 0.7683,
      "step": 945
    },
    {
      "epoch": 0.11092947220924801,
      "grad_norm": 0.7472253996529664,
      "learning_rate": 4.95461137575347e-05,
      "loss": 0.7383,
      "step": 950
    },
    {
      "epoch": 0.1115133115366651,
      "grad_norm": 0.8644167522162455,
      "learning_rate": 4.953739024537712e-05,
      "loss": 0.7213,
      "step": 955
    },
    {
      "epoch": 0.1120971508640822,
      "grad_norm": 0.7143865358435283,
      "learning_rate": 4.952858456863437e-05,
      "loss": 0.775,
      "step": 960
    },
    {
      "epoch": 0.1126809901914993,
      "grad_norm": 0.828635883067693,
      "learning_rate": 4.951969676013768e-05,
      "loss": 0.7495,
      "step": 965
    },
    {
      "epoch": 0.1132648295189164,
      "grad_norm": 0.7571887396783333,
      "learning_rate": 4.951072685302452e-05,
      "loss": 0.7474,
      "step": 970
    },
    {
      "epoch": 0.11384866884633349,
      "grad_norm": 0.7502741470779379,
      "learning_rate": 4.950167488073844e-05,
      "loss": 0.7392,
      "step": 975
    },
    {
      "epoch": 0.11443250817375059,
      "grad_norm": 0.8496185620948489,
      "learning_rate": 4.949254087702896e-05,
      "loss": 0.7481,
      "step": 980
    },
    {
      "epoch": 0.11501634750116768,
      "grad_norm": 0.7272674140304245,
      "learning_rate": 4.948332487595148e-05,
      "loss": 0.7543,
      "step": 985
    },
    {
      "epoch": 0.11560018682858478,
      "grad_norm": 0.7136992316712841,
      "learning_rate": 4.9474026911867084e-05,
      "loss": 0.757,
      "step": 990
    },
    {
      "epoch": 0.11618402615600187,
      "grad_norm": 0.7174339829157743,
      "learning_rate": 4.9464647019442465e-05,
      "loss": 0.7239,
      "step": 995
    },
    {
      "epoch": 0.11676786548341897,
      "grad_norm": 0.8377816293409226,
      "learning_rate": 4.945518523364976e-05,
      "loss": 0.7548,
      "step": 1000
    },
    {
      "epoch": 0.11735170481083605,
      "grad_norm": 0.7146458332659746,
      "learning_rate": 4.944564158976647e-05,
      "loss": 0.7584,
      "step": 1005
    },
    {
      "epoch": 0.11793554413825315,
      "grad_norm": 0.8123437914876361,
      "learning_rate": 4.943601612337528e-05,
      "loss": 0.7505,
      "step": 1010
    },
    {
      "epoch": 0.11851938346567024,
      "grad_norm": 0.938013186912681,
      "learning_rate": 4.9426308870363934e-05,
      "loss": 0.7513,
      "step": 1015
    },
    {
      "epoch": 0.11910322279308734,
      "grad_norm": 0.7403213416682412,
      "learning_rate": 4.941651986692514e-05,
      "loss": 0.7619,
      "step": 1020
    },
    {
      "epoch": 0.11968706212050444,
      "grad_norm": 0.7221282797840786,
      "learning_rate": 4.940664914955637e-05,
      "loss": 0.7535,
      "step": 1025
    },
    {
      "epoch": 0.12027090144792153,
      "grad_norm": 0.6850603164988163,
      "learning_rate": 4.939669675505978e-05,
      "loss": 0.7648,
      "step": 1030
    },
    {
      "epoch": 0.12085474077533863,
      "grad_norm": 0.7511737605932157,
      "learning_rate": 4.938666272054205e-05,
      "loss": 0.7347,
      "step": 1035
    },
    {
      "epoch": 0.12143858010275572,
      "grad_norm": 0.7184559628537028,
      "learning_rate": 4.937654708341425e-05,
      "loss": 0.7654,
      "step": 1040
    },
    {
      "epoch": 0.12202241943017282,
      "grad_norm": 0.7433996377054052,
      "learning_rate": 4.93663498813917e-05,
      "loss": 0.7529,
      "step": 1045
    },
    {
      "epoch": 0.12260625875758992,
      "grad_norm": 0.771594757102507,
      "learning_rate": 4.9356071152493815e-05,
      "loss": 0.7438,
      "step": 1050
    },
    {
      "epoch": 0.123190098085007,
      "grad_norm": 0.7099006582807407,
      "learning_rate": 4.934571093504398e-05,
      "loss": 0.7413,
      "step": 1055
    },
    {
      "epoch": 0.1237739374124241,
      "grad_norm": 0.7753993011006178,
      "learning_rate": 4.933526926766943e-05,
      "loss": 0.7724,
      "step": 1060
    },
    {
      "epoch": 0.12435777673984119,
      "grad_norm": 0.6788452808676482,
      "learning_rate": 4.9324746189301027e-05,
      "loss": 0.76,
      "step": 1065
    },
    {
      "epoch": 0.12494161606725829,
      "grad_norm": 0.775189516086989,
      "learning_rate": 4.9314141739173223e-05,
      "loss": 0.7557,
      "step": 1070
    },
    {
      "epoch": 0.12552545539467538,
      "grad_norm": 0.7464622012093612,
      "learning_rate": 4.9303455956823816e-05,
      "loss": 0.7675,
      "step": 1075
    },
    {
      "epoch": 0.12610929472209248,
      "grad_norm": 0.7214821452340838,
      "learning_rate": 4.929268888209388e-05,
      "loss": 0.7351,
      "step": 1080
    },
    {
      "epoch": 0.12669313404950958,
      "grad_norm": 0.8130480605834056,
      "learning_rate": 4.928184055512754e-05,
      "loss": 0.7488,
      "step": 1085
    },
    {
      "epoch": 0.12727697337692667,
      "grad_norm": 0.6912803562502243,
      "learning_rate": 4.927091101637189e-05,
      "loss": 0.74,
      "step": 1090
    },
    {
      "epoch": 0.12786081270434377,
      "grad_norm": 0.7043260852620832,
      "learning_rate": 4.9259900306576825e-05,
      "loss": 0.7269,
      "step": 1095
    },
    {
      "epoch": 0.12844465203176086,
      "grad_norm": 0.6686198741044436,
      "learning_rate": 4.924880846679485e-05,
      "loss": 0.745,
      "step": 1100
    },
    {
      "epoch": 0.12902849135917796,
      "grad_norm": 0.7390481439750773,
      "learning_rate": 4.923763553838098e-05,
      "loss": 0.7511,
      "step": 1105
    },
    {
      "epoch": 0.12961233068659506,
      "grad_norm": 0.6882006426504611,
      "learning_rate": 4.9226381562992546e-05,
      "loss": 0.7569,
      "step": 1110
    },
    {
      "epoch": 0.13019617001401215,
      "grad_norm": 0.6876582667989148,
      "learning_rate": 4.9215046582589066e-05,
      "loss": 0.7484,
      "step": 1115
    },
    {
      "epoch": 0.13078000934142925,
      "grad_norm": 0.7696618028115917,
      "learning_rate": 4.9203630639432083e-05,
      "loss": 0.7407,
      "step": 1120
    },
    {
      "epoch": 0.13136384866884634,
      "grad_norm": 0.9041022334920666,
      "learning_rate": 4.919213377608499e-05,
      "loss": 0.7577,
      "step": 1125
    },
    {
      "epoch": 0.13194768799626344,
      "grad_norm": 0.6981879096369867,
      "learning_rate": 4.9180556035412876e-05,
      "loss": 0.7411,
      "step": 1130
    },
    {
      "epoch": 0.13253152732368054,
      "grad_norm": 0.8322803511194127,
      "learning_rate": 4.916889746058242e-05,
      "loss": 0.7646,
      "step": 1135
    },
    {
      "epoch": 0.1331153666510976,
      "grad_norm": 0.8419357871549217,
      "learning_rate": 4.9157158095061636e-05,
      "loss": 0.7408,
      "step": 1140
    },
    {
      "epoch": 0.1336992059785147,
      "grad_norm": 0.7278929815006521,
      "learning_rate": 4.914533798261977e-05,
      "loss": 0.7358,
      "step": 1145
    },
    {
      "epoch": 0.1342830453059318,
      "grad_norm": 0.8230990854901412,
      "learning_rate": 4.913343716732713e-05,
      "loss": 0.7558,
      "step": 1150
    },
    {
      "epoch": 0.1348668846333489,
      "grad_norm": 0.7572916262517394,
      "learning_rate": 4.912145569355495e-05,
      "loss": 0.7428,
      "step": 1155
    },
    {
      "epoch": 0.135450723960766,
      "grad_norm": 0.7491860421832062,
      "learning_rate": 4.910939360597514e-05,
      "loss": 0.7296,
      "step": 1160
    },
    {
      "epoch": 0.13603456328818309,
      "grad_norm": 0.7690234675019328,
      "learning_rate": 4.909725094956019e-05,
      "loss": 0.7538,
      "step": 1165
    },
    {
      "epoch": 0.13661840261560018,
      "grad_norm": 0.7299285218059413,
      "learning_rate": 4.908502776958301e-05,
      "loss": 0.7384,
      "step": 1170
    },
    {
      "epoch": 0.13720224194301728,
      "grad_norm": 0.9300595802171107,
      "learning_rate": 4.907272411161668e-05,
      "loss": 0.7383,
      "step": 1175
    },
    {
      "epoch": 0.13778608127043437,
      "grad_norm": 0.7337159957589131,
      "learning_rate": 4.9060340021534415e-05,
      "loss": 0.74,
      "step": 1180
    },
    {
      "epoch": 0.13836992059785147,
      "grad_norm": 0.7259120613159923,
      "learning_rate": 4.9047875545509235e-05,
      "loss": 0.7341,
      "step": 1185
    },
    {
      "epoch": 0.13895375992526857,
      "grad_norm": 0.7044955504234521,
      "learning_rate": 4.9035330730013926e-05,
      "loss": 0.7352,
      "step": 1190
    },
    {
      "epoch": 0.13953759925268566,
      "grad_norm": 0.729708864538447,
      "learning_rate": 4.9022705621820786e-05,
      "loss": 0.7214,
      "step": 1195
    },
    {
      "epoch": 0.14012143858010276,
      "grad_norm": 0.7149710232809768,
      "learning_rate": 4.901000026800148e-05,
      "loss": 0.7492,
      "step": 1200
    },
    {
      "epoch": 0.14070527790751985,
      "grad_norm": 0.7537344737207899,
      "learning_rate": 4.899721471592688e-05,
      "loss": 0.7294,
      "step": 1205
    },
    {
      "epoch": 0.14128911723493695,
      "grad_norm": 0.742958645757194,
      "learning_rate": 4.898434901326685e-05,
      "loss": 0.723,
      "step": 1210
    },
    {
      "epoch": 0.14187295656235405,
      "grad_norm": 0.7286315223401272,
      "learning_rate": 4.897140320799011e-05,
      "loss": 0.7301,
      "step": 1215
    },
    {
      "epoch": 0.14245679588977114,
      "grad_norm": 0.7421491652969855,
      "learning_rate": 4.8958377348364e-05,
      "loss": 0.7498,
      "step": 1220
    },
    {
      "epoch": 0.14304063521718824,
      "grad_norm": 0.7414371484478484,
      "learning_rate": 4.894527148295438e-05,
      "loss": 0.7477,
      "step": 1225
    },
    {
      "epoch": 0.14362447454460534,
      "grad_norm": 0.9459047173148238,
      "learning_rate": 4.8932085660625374e-05,
      "loss": 0.751,
      "step": 1230
    },
    {
      "epoch": 0.14420831387202243,
      "grad_norm": 0.7886617214535956,
      "learning_rate": 4.8918819930539244e-05,
      "loss": 0.7365,
      "step": 1235
    },
    {
      "epoch": 0.14479215319943953,
      "grad_norm": 0.846908444975893,
      "learning_rate": 4.8905474342156144e-05,
      "loss": 0.7453,
      "step": 1240
    },
    {
      "epoch": 0.1453759925268566,
      "grad_norm": 0.7469618310264896,
      "learning_rate": 4.889204894523401e-05,
      "loss": 0.7457,
      "step": 1245
    },
    {
      "epoch": 0.1459598318542737,
      "grad_norm": 0.7542688436084458,
      "learning_rate": 4.8878543789828314e-05,
      "loss": 0.7377,
      "step": 1250
    },
    {
      "epoch": 0.1465436711816908,
      "grad_norm": 0.7035185258217505,
      "learning_rate": 4.886495892629191e-05,
      "loss": 0.7524,
      "step": 1255
    },
    {
      "epoch": 0.14712751050910788,
      "grad_norm": 0.7088045343755188,
      "learning_rate": 4.8851294405274855e-05,
      "loss": 0.722,
      "step": 1260
    },
    {
      "epoch": 0.14771134983652498,
      "grad_norm": 0.7155027999309841,
      "learning_rate": 4.8837550277724165e-05,
      "loss": 0.7308,
      "step": 1265
    },
    {
      "epoch": 0.14829518916394208,
      "grad_norm": 0.7781935060677897,
      "learning_rate": 4.8823726594883696e-05,
      "loss": 0.7436,
      "step": 1270
    },
    {
      "epoch": 0.14887902849135917,
      "grad_norm": 0.7515943007662474,
      "learning_rate": 4.8809823408293887e-05,
      "loss": 0.7443,
      "step": 1275
    },
    {
      "epoch": 0.14946286781877627,
      "grad_norm": 0.7058532715642434,
      "learning_rate": 4.8795840769791634e-05,
      "loss": 0.7487,
      "step": 1280
    },
    {
      "epoch": 0.15004670714619336,
      "grad_norm": 0.7950171862665167,
      "learning_rate": 4.878177873151004e-05,
      "loss": 0.7434,
      "step": 1285
    },
    {
      "epoch": 0.15063054647361046,
      "grad_norm": 0.7274427585504183,
      "learning_rate": 4.876763734587825e-05,
      "loss": 0.7345,
      "step": 1290
    },
    {
      "epoch": 0.15121438580102756,
      "grad_norm": 0.6601643434457186,
      "learning_rate": 4.8753416665621255e-05,
      "loss": 0.7186,
      "step": 1295
    },
    {
      "epoch": 0.15179822512844465,
      "grad_norm": 0.6860883461904687,
      "learning_rate": 4.873911674375968e-05,
      "loss": 0.7501,
      "step": 1300
    },
    {
      "epoch": 0.15238206445586175,
      "grad_norm": 0.8052239552003218,
      "learning_rate": 4.87247376336096e-05,
      "loss": 0.745,
      "step": 1305
    },
    {
      "epoch": 0.15296590378327884,
      "grad_norm": 0.7778289155585636,
      "learning_rate": 4.8710279388782345e-05,
      "loss": 0.7369,
      "step": 1310
    },
    {
      "epoch": 0.15354974311069594,
      "grad_norm": 0.7450131152812045,
      "learning_rate": 4.869574206318427e-05,
      "loss": 0.7281,
      "step": 1315
    },
    {
      "epoch": 0.15413358243811304,
      "grad_norm": 0.6824661780591835,
      "learning_rate": 4.868112571101659e-05,
      "loss": 0.7115,
      "step": 1320
    },
    {
      "epoch": 0.15471742176553013,
      "grad_norm": 0.7908470051891671,
      "learning_rate": 4.866643038677519e-05,
      "loss": 0.7415,
      "step": 1325
    },
    {
      "epoch": 0.15530126109294723,
      "grad_norm": 0.8076628638288811,
      "learning_rate": 4.865165614525033e-05,
      "loss": 0.7425,
      "step": 1330
    },
    {
      "epoch": 0.15588510042036433,
      "grad_norm": 0.7177283048497456,
      "learning_rate": 4.863680304152657e-05,
      "loss": 0.7457,
      "step": 1335
    },
    {
      "epoch": 0.15646893974778142,
      "grad_norm": 0.7665358490767893,
      "learning_rate": 4.862187113098249e-05,
      "loss": 0.7458,
      "step": 1340
    },
    {
      "epoch": 0.15705277907519852,
      "grad_norm": 0.807745344355968,
      "learning_rate": 4.8606860469290454e-05,
      "loss": 0.733,
      "step": 1345
    },
    {
      "epoch": 0.1576366184026156,
      "grad_norm": 0.7713265125912636,
      "learning_rate": 4.859177111241649e-05,
      "loss": 0.7175,
      "step": 1350
    },
    {
      "epoch": 0.15822045773003268,
      "grad_norm": 0.7831841494722501,
      "learning_rate": 4.8576603116620004e-05,
      "loss": 0.7318,
      "step": 1355
    },
    {
      "epoch": 0.15880429705744978,
      "grad_norm": 0.8627481452369917,
      "learning_rate": 4.8561356538453625e-05,
      "loss": 0.721,
      "step": 1360
    },
    {
      "epoch": 0.15938813638486687,
      "grad_norm": 0.7424567289172562,
      "learning_rate": 4.8546031434762954e-05,
      "loss": 0.7548,
      "step": 1365
    },
    {
      "epoch": 0.15997197571228397,
      "grad_norm": 0.7337905743450628,
      "learning_rate": 4.853062786268636e-05,
      "loss": 0.7497,
      "step": 1370
    },
    {
      "epoch": 0.16055581503970107,
      "grad_norm": 0.7476013018793656,
      "learning_rate": 4.85151458796548e-05,
      "loss": 0.7163,
      "step": 1375
    },
    {
      "epoch": 0.16113965436711816,
      "grad_norm": 0.8043212279278502,
      "learning_rate": 4.849958554339156e-05,
      "loss": 0.7531,
      "step": 1380
    },
    {
      "epoch": 0.16172349369453526,
      "grad_norm": 0.8977875103848776,
      "learning_rate": 4.8483946911912064e-05,
      "loss": 0.7444,
      "step": 1385
    },
    {
      "epoch": 0.16230733302195235,
      "grad_norm": 0.7817709982244301,
      "learning_rate": 4.846823004352366e-05,
      "loss": 0.7258,
      "step": 1390
    },
    {
      "epoch": 0.16289117234936945,
      "grad_norm": 0.8098880241300683,
      "learning_rate": 4.845243499682539e-05,
      "loss": 0.7509,
      "step": 1395
    },
    {
      "epoch": 0.16347501167678655,
      "grad_norm": 0.770709782942639,
      "learning_rate": 4.8436561830707786e-05,
      "loss": 0.7327,
      "step": 1400
    },
    {
      "epoch": 0.16405885100420364,
      "grad_norm": 0.7668990726836052,
      "learning_rate": 4.842061060435261e-05,
      "loss": 0.729,
      "step": 1405
    },
    {
      "epoch": 0.16464269033162074,
      "grad_norm": 0.7164525231757792,
      "learning_rate": 4.840458137723271e-05,
      "loss": 0.7014,
      "step": 1410
    },
    {
      "epoch": 0.16522652965903784,
      "grad_norm": 0.8840366074204892,
      "learning_rate": 4.838847420911172e-05,
      "loss": 0.7221,
      "step": 1415
    },
    {
      "epoch": 0.16581036898645493,
      "grad_norm": 0.7844725444750456,
      "learning_rate": 4.8372289160043895e-05,
      "loss": 0.7388,
      "step": 1420
    },
    {
      "epoch": 0.16639420831387203,
      "grad_norm": 0.7986461499605559,
      "learning_rate": 4.835602629037384e-05,
      "loss": 0.7298,
      "step": 1425
    },
    {
      "epoch": 0.16697804764128912,
      "grad_norm": 0.6968449481556948,
      "learning_rate": 4.8339685660736324e-05,
      "loss": 0.723,
      "step": 1430
    },
    {
      "epoch": 0.16756188696870622,
      "grad_norm": 0.7822286977526196,
      "learning_rate": 4.8323267332056026e-05,
      "loss": 0.7334,
      "step": 1435
    },
    {
      "epoch": 0.16814572629612332,
      "grad_norm": 0.6954977452551738,
      "learning_rate": 4.830677136554733e-05,
      "loss": 0.7311,
      "step": 1440
    },
    {
      "epoch": 0.1687295656235404,
      "grad_norm": 0.8436171213392395,
      "learning_rate": 4.829019782271408e-05,
      "loss": 0.7519,
      "step": 1445
    },
    {
      "epoch": 0.1693134049509575,
      "grad_norm": 0.7046391770080698,
      "learning_rate": 4.827354676534937e-05,
      "loss": 0.7459,
      "step": 1450
    },
    {
      "epoch": 0.1698972442783746,
      "grad_norm": 0.719980747686207,
      "learning_rate": 4.825681825553527e-05,
      "loss": 0.739,
      "step": 1455
    },
    {
      "epoch": 0.17048108360579167,
      "grad_norm": 0.7103564668833614,
      "learning_rate": 4.824001235564265e-05,
      "loss": 0.7458,
      "step": 1460
    },
    {
      "epoch": 0.17106492293320877,
      "grad_norm": 0.6864678038650494,
      "learning_rate": 4.822312912833092e-05,
      "loss": 0.7297,
      "step": 1465
    },
    {
      "epoch": 0.17164876226062586,
      "grad_norm": 0.7328592434686132,
      "learning_rate": 4.82061686365478e-05,
      "loss": 0.7327,
      "step": 1470
    },
    {
      "epoch": 0.17223260158804296,
      "grad_norm": 0.7571325709685475,
      "learning_rate": 4.818913094352907e-05,
      "loss": 0.7302,
      "step": 1475
    },
    {
      "epoch": 0.17281644091546006,
      "grad_norm": 0.7179359161509148,
      "learning_rate": 4.8172016112798364e-05,
      "loss": 0.7444,
      "step": 1480
    },
    {
      "epoch": 0.17340028024287715,
      "grad_norm": 0.7722153034297365,
      "learning_rate": 4.8154824208166906e-05,
      "loss": 0.7595,
      "step": 1485
    },
    {
      "epoch": 0.17398411957029425,
      "grad_norm": 0.7363478679562057,
      "learning_rate": 4.8137555293733294e-05,
      "loss": 0.7263,
      "step": 1490
    },
    {
      "epoch": 0.17456795889771135,
      "grad_norm": 0.8124460587287587,
      "learning_rate": 4.812020943388324e-05,
      "loss": 0.7124,
      "step": 1495
    },
    {
      "epoch": 0.17515179822512844,
      "grad_norm": 0.7148964393172884,
      "learning_rate": 4.810278669328935e-05,
      "loss": 0.7429,
      "step": 1500
    },
    {
      "epoch": 0.17573563755254554,
      "grad_norm": 0.8468862512438853,
      "learning_rate": 4.808528713691087e-05,
      "loss": 0.7166,
      "step": 1505
    },
    {
      "epoch": 0.17631947687996263,
      "grad_norm": 0.7834963307553772,
      "learning_rate": 4.806771082999346e-05,
      "loss": 0.7488,
      "step": 1510
    },
    {
      "epoch": 0.17690331620737973,
      "grad_norm": 0.7261513735919553,
      "learning_rate": 4.8050057838068904e-05,
      "loss": 0.7421,
      "step": 1515
    },
    {
      "epoch": 0.17748715553479683,
      "grad_norm": 0.7551923969507343,
      "learning_rate": 4.803232822695493e-05,
      "loss": 0.7337,
      "step": 1520
    },
    {
      "epoch": 0.17807099486221392,
      "grad_norm": 0.8296978285255314,
      "learning_rate": 4.801452206275493e-05,
      "loss": 0.7281,
      "step": 1525
    },
    {
      "epoch": 0.17865483418963102,
      "grad_norm": 0.7081211489282102,
      "learning_rate": 4.79966394118577e-05,
      "loss": 0.7216,
      "step": 1530
    },
    {
      "epoch": 0.1792386735170481,
      "grad_norm": 0.803686277740153,
      "learning_rate": 4.797868034093724e-05,
      "loss": 0.7476,
      "step": 1535
    },
    {
      "epoch": 0.1798225128444652,
      "grad_norm": 0.7401591404567419,
      "learning_rate": 4.7960644916952444e-05,
      "loss": 0.7417,
      "step": 1540
    },
    {
      "epoch": 0.1804063521718823,
      "grad_norm": 0.7893838464964483,
      "learning_rate": 4.7942533207146916e-05,
      "loss": 0.7498,
      "step": 1545
    },
    {
      "epoch": 0.1809901914992994,
      "grad_norm": 0.8188234554767124,
      "learning_rate": 4.792434527904864e-05,
      "loss": 0.7422,
      "step": 1550
    },
    {
      "epoch": 0.1815740308267165,
      "grad_norm": 0.6461357446193222,
      "learning_rate": 4.7906081200469835e-05,
      "loss": 0.7303,
      "step": 1555
    },
    {
      "epoch": 0.1821578701541336,
      "grad_norm": 0.6843427149385607,
      "learning_rate": 4.788774103950657e-05,
      "loss": 0.726,
      "step": 1560
    },
    {
      "epoch": 0.1827417094815507,
      "grad_norm": 0.9580042770236428,
      "learning_rate": 4.7869324864538636e-05,
      "loss": 0.732,
      "step": 1565
    },
    {
      "epoch": 0.18332554880896776,
      "grad_norm": 0.7146642982640992,
      "learning_rate": 4.7850832744229216e-05,
      "loss": 0.7397,
      "step": 1570
    },
    {
      "epoch": 0.18390938813638485,
      "grad_norm": 0.8365768389202328,
      "learning_rate": 4.783226474752465e-05,
      "loss": 0.7383,
      "step": 1575
    },
    {
      "epoch": 0.18449322746380195,
      "grad_norm": 0.7990966260259673,
      "learning_rate": 4.781362094365417e-05,
      "loss": 0.7196,
      "step": 1580
    },
    {
      "epoch": 0.18507706679121905,
      "grad_norm": 0.8345679211677212,
      "learning_rate": 4.779490140212966e-05,
      "loss": 0.7182,
      "step": 1585
    },
    {
      "epoch": 0.18566090611863614,
      "grad_norm": 0.7251252240357575,
      "learning_rate": 4.777610619274539e-05,
      "loss": 0.735,
      "step": 1590
    },
    {
      "epoch": 0.18624474544605324,
      "grad_norm": 0.7016107904965909,
      "learning_rate": 4.775723538557772e-05,
      "loss": 0.7144,
      "step": 1595
    },
    {
      "epoch": 0.18682858477347034,
      "grad_norm": 0.7741910944117159,
      "learning_rate": 4.7738289050984905e-05,
      "loss": 0.7393,
      "step": 1600
    },
    {
      "epoch": 0.18741242410088743,
      "grad_norm": 0.826306902362388,
      "learning_rate": 4.7719267259606795e-05,
      "loss": 0.7278,
      "step": 1605
    },
    {
      "epoch": 0.18799626342830453,
      "grad_norm": 0.7428959175092528,
      "learning_rate": 4.770017008236455e-05,
      "loss": 0.7404,
      "step": 1610
    },
    {
      "epoch": 0.18858010275572162,
      "grad_norm": 0.7152156671162925,
      "learning_rate": 4.768099759046042e-05,
      "loss": 0.711,
      "step": 1615
    },
    {
      "epoch": 0.18916394208313872,
      "grad_norm": 0.7243354015604727,
      "learning_rate": 4.766174985537745e-05,
      "loss": 0.7043,
      "step": 1620
    },
    {
      "epoch": 0.18974778141055582,
      "grad_norm": 0.7070692111855642,
      "learning_rate": 4.7642426948879234e-05,
      "loss": 0.7115,
      "step": 1625
    },
    {
      "epoch": 0.1903316207379729,
      "grad_norm": 0.7526365457947733,
      "learning_rate": 4.762302894300962e-05,
      "loss": 0.7443,
      "step": 1630
    },
    {
      "epoch": 0.19091546006539,
      "grad_norm": 0.7400669421223262,
      "learning_rate": 4.760355591009247e-05,
      "loss": 0.7397,
      "step": 1635
    },
    {
      "epoch": 0.1914992993928071,
      "grad_norm": 0.6973523839093395,
      "learning_rate": 4.7584007922731383e-05,
      "loss": 0.7357,
      "step": 1640
    },
    {
      "epoch": 0.1920831387202242,
      "grad_norm": 0.7222361309671663,
      "learning_rate": 4.75643850538094e-05,
      "loss": 0.7169,
      "step": 1645
    },
    {
      "epoch": 0.1926669780476413,
      "grad_norm": 0.765478532510268,
      "learning_rate": 4.754468737648878e-05,
      "loss": 0.7252,
      "step": 1650
    },
    {
      "epoch": 0.1932508173750584,
      "grad_norm": 0.7492897945719802,
      "learning_rate": 4.752491496421066e-05,
      "loss": 0.7308,
      "step": 1655
    },
    {
      "epoch": 0.1938346567024755,
      "grad_norm": 0.6713564084526321,
      "learning_rate": 4.750506789069486e-05,
      "loss": 0.7257,
      "step": 1660
    },
    {
      "epoch": 0.19441849602989258,
      "grad_norm": 0.7445920572569636,
      "learning_rate": 4.7485146229939545e-05,
      "loss": 0.7235,
      "step": 1665
    },
    {
      "epoch": 0.19500233535730968,
      "grad_norm": 0.7538942068389883,
      "learning_rate": 4.746515005622097e-05,
      "loss": 0.7179,
      "step": 1670
    },
    {
      "epoch": 0.19558617468472678,
      "grad_norm": 0.7816896420662496,
      "learning_rate": 4.744507944409322e-05,
      "loss": 0.7437,
      "step": 1675
    },
    {
      "epoch": 0.19617001401214385,
      "grad_norm": 0.6863940434432573,
      "learning_rate": 4.742493446838791e-05,
      "loss": 0.7104,
      "step": 1680
    },
    {
      "epoch": 0.19675385333956094,
      "grad_norm": 0.7694997012291778,
      "learning_rate": 4.740471520421392e-05,
      "loss": 0.7256,
      "step": 1685
    },
    {
      "epoch": 0.19733769266697804,
      "grad_norm": 0.7486931532940556,
      "learning_rate": 4.73844217269571e-05,
      "loss": 0.7238,
      "step": 1690
    },
    {
      "epoch": 0.19792153199439513,
      "grad_norm": 0.6904775873596434,
      "learning_rate": 4.736405411228e-05,
      "loss": 0.7143,
      "step": 1695
    },
    {
      "epoch": 0.19850537132181223,
      "grad_norm": 0.7482659898128301,
      "learning_rate": 4.7343612436121575e-05,
      "loss": 0.7623,
      "step": 1700
    },
    {
      "epoch": 0.19908921064922933,
      "grad_norm": 0.7314789656035418,
      "learning_rate": 4.732309677469693e-05,
      "loss": 0.7412,
      "step": 1705
    },
    {
      "epoch": 0.19967304997664642,
      "grad_norm": 0.6899940552720958,
      "learning_rate": 4.7302507204497026e-05,
      "loss": 0.719,
      "step": 1710
    },
    {
      "epoch": 0.20025688930406352,
      "grad_norm": 0.7282691554214673,
      "learning_rate": 4.728184380228834e-05,
      "loss": 0.7374,
      "step": 1715
    },
    {
      "epoch": 0.20084072863148061,
      "grad_norm": 0.7013315312116346,
      "learning_rate": 4.7261106645112677e-05,
      "loss": 0.7274,
      "step": 1720
    },
    {
      "epoch": 0.2014245679588977,
      "grad_norm": 0.7819768242805057,
      "learning_rate": 4.72402958102868e-05,
      "loss": 0.7461,
      "step": 1725
    },
    {
      "epoch": 0.2020084072863148,
      "grad_norm": 0.7309301514396227,
      "learning_rate": 4.72194113754022e-05,
      "loss": 0.7296,
      "step": 1730
    },
    {
      "epoch": 0.2025922466137319,
      "grad_norm": 0.7487524023177833,
      "learning_rate": 4.719845341832475e-05,
      "loss": 0.6885,
      "step": 1735
    },
    {
      "epoch": 0.203176085941149,
      "grad_norm": 0.9788588285692689,
      "learning_rate": 4.7177422017194464e-05,
      "loss": 0.7199,
      "step": 1740
    },
    {
      "epoch": 0.2037599252685661,
      "grad_norm": 0.7918374375300556,
      "learning_rate": 4.715631725042517e-05,
      "loss": 0.7422,
      "step": 1745
    },
    {
      "epoch": 0.2043437645959832,
      "grad_norm": 0.8055570505724186,
      "learning_rate": 4.7135139196704254e-05,
      "loss": 0.7235,
      "step": 1750
    },
    {
      "epoch": 0.2049276039234003,
      "grad_norm": 0.7196921493988918,
      "learning_rate": 4.711388793499233e-05,
      "loss": 0.7204,
      "step": 1755
    },
    {
      "epoch": 0.20551144325081738,
      "grad_norm": 0.8221920631131578,
      "learning_rate": 4.709256354452298e-05,
      "loss": 0.7296,
      "step": 1760
    },
    {
      "epoch": 0.20609528257823448,
      "grad_norm": 0.8127617904984341,
      "learning_rate": 4.7071166104802415e-05,
      "loss": 0.7245,
      "step": 1765
    },
    {
      "epoch": 0.20667912190565157,
      "grad_norm": 0.7043304691367893,
      "learning_rate": 4.7049695695609224e-05,
      "loss": 0.7103,
      "step": 1770
    },
    {
      "epoch": 0.20726296123306867,
      "grad_norm": 0.649014116022384,
      "learning_rate": 4.702815239699405e-05,
      "loss": 0.7146,
      "step": 1775
    },
    {
      "epoch": 0.20784680056048577,
      "grad_norm": 0.7140594319480008,
      "learning_rate": 4.7006536289279285e-05,
      "loss": 0.7175,
      "step": 1780
    },
    {
      "epoch": 0.20843063988790284,
      "grad_norm": 0.7241345764959499,
      "learning_rate": 4.698484745305882e-05,
      "loss": 0.7007,
      "step": 1785
    },
    {
      "epoch": 0.20901447921531993,
      "grad_norm": 0.7813784340987022,
      "learning_rate": 4.696308596919767e-05,
      "loss": 0.7457,
      "step": 1790
    },
    {
      "epoch": 0.20959831854273703,
      "grad_norm": 0.7070774934064795,
      "learning_rate": 4.694125191883174e-05,
      "loss": 0.7188,
      "step": 1795
    },
    {
      "epoch": 0.21018215787015412,
      "grad_norm": 0.6804544243910975,
      "learning_rate": 4.691934538336746e-05,
      "loss": 0.725,
      "step": 1800
    },
    {
      "epoch": 0.21076599719757122,
      "grad_norm": 0.6728574938989879,
      "learning_rate": 4.6897366444481545e-05,
      "loss": 0.7181,
      "step": 1805
    },
    {
      "epoch": 0.21134983652498832,
      "grad_norm": 0.7631516107921738,
      "learning_rate": 4.687531518412065e-05,
      "loss": 0.73,
      "step": 1810
    },
    {
      "epoch": 0.2119336758524054,
      "grad_norm": 0.7241736870057862,
      "learning_rate": 4.685319168450107e-05,
      "loss": 0.6938,
      "step": 1815
    },
    {
      "epoch": 0.2125175151798225,
      "grad_norm": 0.7095684376204812,
      "learning_rate": 4.683099602810845e-05,
      "loss": 0.7445,
      "step": 1820
    },
    {
      "epoch": 0.2131013545072396,
      "grad_norm": 0.6789241533004805,
      "learning_rate": 4.680872829769745e-05,
      "loss": 0.7139,
      "step": 1825
    },
    {
      "epoch": 0.2136851938346567,
      "grad_norm": 0.6959715900470123,
      "learning_rate": 4.6786388576291446e-05,
      "loss": 0.738,
      "step": 1830
    },
    {
      "epoch": 0.2142690331620738,
      "grad_norm": 0.7209917479235074,
      "learning_rate": 4.6763976947182256e-05,
      "loss": 0.7143,
      "step": 1835
    },
    {
      "epoch": 0.2148528724894909,
      "grad_norm": 0.7846008482256338,
      "learning_rate": 4.6741493493929794e-05,
      "loss": 0.7193,
      "step": 1840
    },
    {
      "epoch": 0.215436711816908,
      "grad_norm": 0.8188656249048588,
      "learning_rate": 4.671893830036174e-05,
      "loss": 0.7274,
      "step": 1845
    },
    {
      "epoch": 0.21602055114432508,
      "grad_norm": 0.8194046437238091,
      "learning_rate": 4.6696311450573266e-05,
      "loss": 0.7446,
      "step": 1850
    },
    {
      "epoch": 0.21660439047174218,
      "grad_norm": 0.8430873361879598,
      "learning_rate": 4.667361302892671e-05,
      "loss": 0.7034,
      "step": 1855
    },
    {
      "epoch": 0.21718822979915928,
      "grad_norm": 0.8546100923096231,
      "learning_rate": 4.665084312005126e-05,
      "loss": 0.6924,
      "step": 1860
    },
    {
      "epoch": 0.21777206912657637,
      "grad_norm": 0.710893431040641,
      "learning_rate": 4.662800180884263e-05,
      "loss": 0.7386,
      "step": 1865
    },
    {
      "epoch": 0.21835590845399347,
      "grad_norm": 0.7830156422797829,
      "learning_rate": 4.660508918046277e-05,
      "loss": 0.7225,
      "step": 1870
    },
    {
      "epoch": 0.21893974778141057,
      "grad_norm": 0.691958056855305,
      "learning_rate": 4.658210532033951e-05,
      "loss": 0.7287,
      "step": 1875
    },
    {
      "epoch": 0.21952358710882766,
      "grad_norm": 0.711708610990222,
      "learning_rate": 4.6559050314166264e-05,
      "loss": 0.7167,
      "step": 1880
    },
    {
      "epoch": 0.22010742643624476,
      "grad_norm": 0.7122500688909733,
      "learning_rate": 4.653592424790172e-05,
      "loss": 0.731,
      "step": 1885
    },
    {
      "epoch": 0.22069126576366185,
      "grad_norm": 0.743470720917725,
      "learning_rate": 4.6512727207769504e-05,
      "loss": 0.7335,
      "step": 1890
    },
    {
      "epoch": 0.22127510509107892,
      "grad_norm": 0.7437561107243308,
      "learning_rate": 4.6489459280257856e-05,
      "loss": 0.716,
      "step": 1895
    },
    {
      "epoch": 0.22185894441849602,
      "grad_norm": 0.7146414813002067,
      "learning_rate": 4.646612055211933e-05,
      "loss": 0.7393,
      "step": 1900
    },
    {
      "epoch": 0.22244278374591311,
      "grad_norm": 0.709665611856685,
      "learning_rate": 4.6442711110370424e-05,
      "loss": 0.697,
      "step": 1905
    },
    {
      "epoch": 0.2230266230733302,
      "grad_norm": 0.9843066670816354,
      "learning_rate": 4.64192310422913e-05,
      "loss": 0.7088,
      "step": 1910
    },
    {
      "epoch": 0.2236104624007473,
      "grad_norm": 0.6457620908315918,
      "learning_rate": 4.639568043542548e-05,
      "loss": 0.7035,
      "step": 1915
    },
    {
      "epoch": 0.2241943017281644,
      "grad_norm": 0.708708239642946,
      "learning_rate": 4.6372059377579414e-05,
      "loss": 0.7217,
      "step": 1920
    },
    {
      "epoch": 0.2247781410555815,
      "grad_norm": 0.7500113479201387,
      "learning_rate": 4.634836795682228e-05,
      "loss": 0.7147,
      "step": 1925
    },
    {
      "epoch": 0.2253619803829986,
      "grad_norm": 0.7119356065347904,
      "learning_rate": 4.632460626148558e-05,
      "loss": 0.7259,
      "step": 1930
    },
    {
      "epoch": 0.2259458197104157,
      "grad_norm": 0.6943499671147205,
      "learning_rate": 4.6300774380162825e-05,
      "loss": 0.7299,
      "step": 1935
    },
    {
      "epoch": 0.2265296590378328,
      "grad_norm": 0.7890957040844898,
      "learning_rate": 4.627687240170921e-05,
      "loss": 0.72,
      "step": 1940
    },
    {
      "epoch": 0.22711349836524988,
      "grad_norm": 0.7431464489795075,
      "learning_rate": 4.625290041524128e-05,
      "loss": 0.7227,
      "step": 1945
    },
    {
      "epoch": 0.22769733769266698,
      "grad_norm": 0.6790888225168289,
      "learning_rate": 4.6228858510136616e-05,
      "loss": 0.7137,
      "step": 1950
    },
    {
      "epoch": 0.22828117702008408,
      "grad_norm": 0.7157071181310045,
      "learning_rate": 4.620474677603345e-05,
      "loss": 0.7235,
      "step": 1955
    },
    {
      "epoch": 0.22886501634750117,
      "grad_norm": 0.7285656420756189,
      "learning_rate": 4.61805653028304e-05,
      "loss": 0.7188,
      "step": 1960
    },
    {
      "epoch": 0.22944885567491827,
      "grad_norm": 0.798435835459099,
      "learning_rate": 4.615631418068609e-05,
      "loss": 0.736,
      "step": 1965
    },
    {
      "epoch": 0.23003269500233536,
      "grad_norm": 0.7297626012745467,
      "learning_rate": 4.613199350001881e-05,
      "loss": 0.7306,
      "step": 1970
    },
    {
      "epoch": 0.23061653432975246,
      "grad_norm": 0.7425217549848289,
      "learning_rate": 4.6107603351506205e-05,
      "loss": 0.7235,
      "step": 1975
    },
    {
      "epoch": 0.23120037365716956,
      "grad_norm": 0.7220004291903487,
      "learning_rate": 4.608314382608493e-05,
      "loss": 0.7173,
      "step": 1980
    },
    {
      "epoch": 0.23178421298458665,
      "grad_norm": 0.7173901963009753,
      "learning_rate": 4.6058615014950315e-05,
      "loss": 0.7338,
      "step": 1985
    },
    {
      "epoch": 0.23236805231200375,
      "grad_norm": 0.6790506753795957,
      "learning_rate": 4.6034017009555975e-05,
      "loss": 0.7272,
      "step": 1990
    },
    {
      "epoch": 0.23295189163942084,
      "grad_norm": 0.7047642196241657,
      "learning_rate": 4.600934990161355e-05,
      "loss": 0.7139,
      "step": 1995
    },
    {
      "epoch": 0.23353573096683794,
      "grad_norm": 0.758097998754232,
      "learning_rate": 4.598461378309231e-05,
      "loss": 0.7262,
      "step": 2000
    },
    {
      "epoch": 0.234119570294255,
      "grad_norm": 0.6628045373040543,
      "learning_rate": 4.5959808746218823e-05,
      "loss": 0.7118,
      "step": 2005
    },
    {
      "epoch": 0.2347034096216721,
      "grad_norm": 0.7054626068525848,
      "learning_rate": 4.593493488347662e-05,
      "loss": 0.7231,
      "step": 2010
    },
    {
      "epoch": 0.2352872489490892,
      "grad_norm": 0.7292550895736654,
      "learning_rate": 4.590999228760583e-05,
      "loss": 0.7192,
      "step": 2015
    },
    {
      "epoch": 0.2358710882765063,
      "grad_norm": 0.7267049938742051,
      "learning_rate": 4.5884981051602873e-05,
      "loss": 0.7015,
      "step": 2020
    },
    {
      "epoch": 0.2364549276039234,
      "grad_norm": 0.6455506674222412,
      "learning_rate": 4.585990126872006e-05,
      "loss": 0.7084,
      "step": 2025
    },
    {
      "epoch": 0.2370387669313405,
      "grad_norm": 0.659962308727248,
      "learning_rate": 4.583475303246527e-05,
      "loss": 0.7055,
      "step": 2030
    },
    {
      "epoch": 0.23762260625875758,
      "grad_norm": 0.6480329607760619,
      "learning_rate": 4.580953643660165e-05,
      "loss": 0.7121,
      "step": 2035
    },
    {
      "epoch": 0.23820644558617468,
      "grad_norm": 0.7606715846725551,
      "learning_rate": 4.5784251575147176e-05,
      "loss": 0.7292,
      "step": 2040
    },
    {
      "epoch": 0.23879028491359178,
      "grad_norm": 0.715112048397896,
      "learning_rate": 4.5758898542374354e-05,
      "loss": 0.7255,
      "step": 2045
    },
    {
      "epoch": 0.23937412424100887,
      "grad_norm": 0.6867461810383618,
      "learning_rate": 4.5733477432809884e-05,
      "loss": 0.7022,
      "step": 2050
    },
    {
      "epoch": 0.23995796356842597,
      "grad_norm": 0.643764497714989,
      "learning_rate": 4.570798834123425e-05,
      "loss": 0.7079,
      "step": 2055
    },
    {
      "epoch": 0.24054180289584307,
      "grad_norm": 0.6735689952721187,
      "learning_rate": 4.5682431362681435e-05,
      "loss": 0.7087,
      "step": 2060
    },
    {
      "epoch": 0.24112564222326016,
      "grad_norm": 0.6466696791306183,
      "learning_rate": 4.565680659243851e-05,
      "loss": 0.6947,
      "step": 2065
    },
    {
      "epoch": 0.24170948155067726,
      "grad_norm": 0.6809481402735733,
      "learning_rate": 4.5631114126045315e-05,
      "loss": 0.7152,
      "step": 2070
    },
    {
      "epoch": 0.24229332087809435,
      "grad_norm": 0.6348521978462173,
      "learning_rate": 4.560535405929408e-05,
      "loss": 0.7037,
      "step": 2075
    },
    {
      "epoch": 0.24287716020551145,
      "grad_norm": 0.6796805499806474,
      "learning_rate": 4.557952648822908e-05,
      "loss": 0.7162,
      "step": 2080
    },
    {
      "epoch": 0.24346099953292855,
      "grad_norm": 0.7185561925920844,
      "learning_rate": 4.555363150914628e-05,
      "loss": 0.7287,
      "step": 2085
    },
    {
      "epoch": 0.24404483886034564,
      "grad_norm": 0.6818164108488127,
      "learning_rate": 4.552766921859297e-05,
      "loss": 0.7048,
      "step": 2090
    },
    {
      "epoch": 0.24462867818776274,
      "grad_norm": 0.7900603785829974,
      "learning_rate": 4.5501639713367386e-05,
      "loss": 0.6947,
      "step": 2095
    },
    {
      "epoch": 0.24521251751517983,
      "grad_norm": 0.8122940747156205,
      "learning_rate": 4.547554309051839e-05,
      "loss": 0.7334,
      "step": 2100
    },
    {
      "epoch": 0.24579635684259693,
      "grad_norm": 0.7539481589316036,
      "learning_rate": 4.5449379447345084e-05,
      "loss": 0.7192,
      "step": 2105
    },
    {
      "epoch": 0.246380196170014,
      "grad_norm": 0.7714231523906511,
      "learning_rate": 4.5423148881396444e-05,
      "loss": 0.7252,
      "step": 2110
    },
    {
      "epoch": 0.2469640354974311,
      "grad_norm": 0.7271119619546056,
      "learning_rate": 4.539685149047097e-05,
      "loss": 0.7151,
      "step": 2115
    },
    {
      "epoch": 0.2475478748248482,
      "grad_norm": 0.7408265661316124,
      "learning_rate": 4.5370487372616285e-05,
      "loss": 0.7064,
      "step": 2120
    },
    {
      "epoch": 0.2481317141522653,
      "grad_norm": 0.6622899868579666,
      "learning_rate": 4.5344056626128847e-05,
      "loss": 0.7248,
      "step": 2125
    },
    {
      "epoch": 0.24871555347968238,
      "grad_norm": 0.7402058026741981,
      "learning_rate": 4.53175593495535e-05,
      "loss": 0.7198,
      "step": 2130
    },
    {
      "epoch": 0.24929939280709948,
      "grad_norm": 0.6980377237367063,
      "learning_rate": 4.529099564168312e-05,
      "loss": 0.7281,
      "step": 2135
    },
    {
      "epoch": 0.24988323213451658,
      "grad_norm": 0.6874041759692474,
      "learning_rate": 4.526436560155833e-05,
      "loss": 0.7128,
      "step": 2140
    },
    {
      "epoch": 0.2504670714619337,
      "grad_norm": 0.7071543054401014,
      "learning_rate": 4.5237669328467e-05,
      "loss": 0.7013,
      "step": 2145
    },
    {
      "epoch": 0.25105091078935077,
      "grad_norm": 0.8532610188441806,
      "learning_rate": 4.5210906921944e-05,
      "loss": 0.7175,
      "step": 2150
    },
    {
      "epoch": 0.2516347501167679,
      "grad_norm": 0.7039095592542086,
      "learning_rate": 4.518407848177073e-05,
      "loss": 0.7254,
      "step": 2155
    },
    {
      "epoch": 0.25221858944418496,
      "grad_norm": 0.714656007800895,
      "learning_rate": 4.515718410797481e-05,
      "loss": 0.7381,
      "step": 2160
    },
    {
      "epoch": 0.25280242877160203,
      "grad_norm": 0.8251368166360454,
      "learning_rate": 4.513022390082969e-05,
      "loss": 0.7019,
      "step": 2165
    },
    {
      "epoch": 0.25338626809901915,
      "grad_norm": 0.6503458888327505,
      "learning_rate": 4.510319796085428e-05,
      "loss": 0.7318,
      "step": 2170
    },
    {
      "epoch": 0.2539701074264362,
      "grad_norm": 0.70200635610956,
      "learning_rate": 4.5076106388812534e-05,
      "loss": 0.7242,
      "step": 2175
    },
    {
      "epoch": 0.25455394675385334,
      "grad_norm": 0.6976305202866769,
      "learning_rate": 4.504894928571315e-05,
      "loss": 0.7154,
      "step": 2180
    },
    {
      "epoch": 0.2551377860812704,
      "grad_norm": 0.6885582444665725,
      "learning_rate": 4.502172675280915e-05,
      "loss": 0.7078,
      "step": 2185
    },
    {
      "epoch": 0.25572162540868754,
      "grad_norm": 0.7713787736354188,
      "learning_rate": 4.4994438891597486e-05,
      "loss": 0.7604,
      "step": 2190
    },
    {
      "epoch": 0.2563054647361046,
      "grad_norm": 0.6839857411452482,
      "learning_rate": 4.496708580381868e-05,
      "loss": 0.7309,
      "step": 2195
    },
    {
      "epoch": 0.25688930406352173,
      "grad_norm": 0.7530727282616239,
      "learning_rate": 4.4939667591456465e-05,
      "loss": 0.7093,
      "step": 2200
    },
    {
      "epoch": 0.2574731433909388,
      "grad_norm": 0.7522898332263996,
      "learning_rate": 4.491218435673737e-05,
      "loss": 0.7188,
      "step": 2205
    },
    {
      "epoch": 0.2580569827183559,
      "grad_norm": 0.6687177720045462,
      "learning_rate": 4.4884636202130365e-05,
      "loss": 0.7091,
      "step": 2210
    },
    {
      "epoch": 0.258640822045773,
      "grad_norm": 0.7463298115893197,
      "learning_rate": 4.485702323034647e-05,
      "loss": 0.7179,
      "step": 2215
    },
    {
      "epoch": 0.2592246613731901,
      "grad_norm": 0.7302081712396381,
      "learning_rate": 4.4829345544338355e-05,
      "loss": 0.7241,
      "step": 2220
    },
    {
      "epoch": 0.2598085007006072,
      "grad_norm": 0.7606959932317213,
      "learning_rate": 4.480160324729998e-05,
      "loss": 0.7067,
      "step": 2225
    },
    {
      "epoch": 0.2603923400280243,
      "grad_norm": 0.7189168959720732,
      "learning_rate": 4.477379644266621e-05,
      "loss": 0.7105,
      "step": 2230
    },
    {
      "epoch": 0.2609761793554414,
      "grad_norm": 0.6519886164895211,
      "learning_rate": 4.47459252341124e-05,
      "loss": 0.7463,
      "step": 2235
    },
    {
      "epoch": 0.2615600186828585,
      "grad_norm": 0.6945678381172148,
      "learning_rate": 4.471798972555407e-05,
      "loss": 0.7127,
      "step": 2240
    },
    {
      "epoch": 0.26214385801027557,
      "grad_norm": 0.7717732570913138,
      "learning_rate": 4.468999002114642e-05,
      "loss": 0.7293,
      "step": 2245
    },
    {
      "epoch": 0.2627276973376927,
      "grad_norm": 0.6834180271932923,
      "learning_rate": 4.4661926225284057e-05,
      "loss": 0.7104,
      "step": 2250
    },
    {
      "epoch": 0.26331153666510976,
      "grad_norm": 0.6953443040568222,
      "learning_rate": 4.463379844260051e-05,
      "loss": 0.7229,
      "step": 2255
    },
    {
      "epoch": 0.2638953759925269,
      "grad_norm": 0.7559329906618139,
      "learning_rate": 4.460560677796788e-05,
      "loss": 0.7036,
      "step": 2260
    },
    {
      "epoch": 0.26447921531994395,
      "grad_norm": 0.7214193536775777,
      "learning_rate": 4.4577351336496466e-05,
      "loss": 0.717,
      "step": 2265
    },
    {
      "epoch": 0.2650630546473611,
      "grad_norm": 0.7534161123387066,
      "learning_rate": 4.454903222353433e-05,
      "loss": 0.7013,
      "step": 2270
    },
    {
      "epoch": 0.26564689397477814,
      "grad_norm": 0.6774263838856932,
      "learning_rate": 4.4520649544666955e-05,
      "loss": 0.713,
      "step": 2275
    },
    {
      "epoch": 0.2662307333021952,
      "grad_norm": 0.6707315471580606,
      "learning_rate": 4.4492203405716804e-05,
      "loss": 0.7066,
      "step": 2280
    },
    {
      "epoch": 0.26681457262961233,
      "grad_norm": 0.7262172413571504,
      "learning_rate": 4.4463693912742944e-05,
      "loss": 0.707,
      "step": 2285
    },
    {
      "epoch": 0.2673984119570294,
      "grad_norm": 0.7280740771734855,
      "learning_rate": 4.4435121172040674e-05,
      "loss": 0.7073,
      "step": 2290
    },
    {
      "epoch": 0.2679822512844465,
      "grad_norm": 0.6934167945142579,
      "learning_rate": 4.4406485290141075e-05,
      "loss": 0.6996,
      "step": 2295
    },
    {
      "epoch": 0.2685660906118636,
      "grad_norm": 0.7041971735017232,
      "learning_rate": 4.437778637381068e-05,
      "loss": 0.7007,
      "step": 2300
    },
    {
      "epoch": 0.2691499299392807,
      "grad_norm": 0.7866703196821602,
      "learning_rate": 4.434902453005101e-05,
      "loss": 0.7369,
      "step": 2305
    },
    {
      "epoch": 0.2697337692666978,
      "grad_norm": 0.7061581650441343,
      "learning_rate": 4.4320199866098216e-05,
      "loss": 0.7065,
      "step": 2310
    },
    {
      "epoch": 0.2703176085941149,
      "grad_norm": 0.711781682573645,
      "learning_rate": 4.4291312489422684e-05,
      "loss": 0.7282,
      "step": 2315
    },
    {
      "epoch": 0.270901447921532,
      "grad_norm": 0.6745562342287523,
      "learning_rate": 4.426236250772859e-05,
      "loss": 0.708,
      "step": 2320
    },
    {
      "epoch": 0.2714852872489491,
      "grad_norm": 0.6740154414616895,
      "learning_rate": 4.423335002895358e-05,
      "loss": 0.7042,
      "step": 2325
    },
    {
      "epoch": 0.27206912657636617,
      "grad_norm": 0.7056547935721885,
      "learning_rate": 4.420427516126822e-05,
      "loss": 0.7317,
      "step": 2330
    },
    {
      "epoch": 0.2726529659037833,
      "grad_norm": 0.6657623911020857,
      "learning_rate": 4.4175138013075804e-05,
      "loss": 0.7111,
      "step": 2335
    },
    {
      "epoch": 0.27323680523120036,
      "grad_norm": 0.7553581713777339,
      "learning_rate": 4.4145938693011747e-05,
      "loss": 0.7108,
      "step": 2340
    },
    {
      "epoch": 0.2738206445586175,
      "grad_norm": 0.8733645372868298,
      "learning_rate": 4.4116677309943295e-05,
      "loss": 0.7156,
      "step": 2345
    },
    {
      "epoch": 0.27440448388603456,
      "grad_norm": 0.6923216566350364,
      "learning_rate": 4.40873539729691e-05,
      "loss": 0.7247,
      "step": 2350
    },
    {
      "epoch": 0.2749883232134517,
      "grad_norm": 0.7032793290907281,
      "learning_rate": 4.405796879141881e-05,
      "loss": 0.7038,
      "step": 2355
    },
    {
      "epoch": 0.27557216254086875,
      "grad_norm": 0.7366632971967906,
      "learning_rate": 4.402852187485262e-05,
      "loss": 0.7201,
      "step": 2360
    },
    {
      "epoch": 0.27615600186828587,
      "grad_norm": 0.7421535169907494,
      "learning_rate": 4.3999013333060936e-05,
      "loss": 0.7227,
      "step": 2365
    },
    {
      "epoch": 0.27673984119570294,
      "grad_norm": 0.7054520030021889,
      "learning_rate": 4.396944327606389e-05,
      "loss": 0.7031,
      "step": 2370
    },
    {
      "epoch": 0.27732368052312006,
      "grad_norm": 0.6757686926397057,
      "learning_rate": 4.393981181411102e-05,
      "loss": 0.7241,
      "step": 2375
    },
    {
      "epoch": 0.27790751985053713,
      "grad_norm": 0.6949088234243647,
      "learning_rate": 4.3910119057680765e-05,
      "loss": 0.6881,
      "step": 2380
    },
    {
      "epoch": 0.2784913591779542,
      "grad_norm": 0.7569213644796755,
      "learning_rate": 4.3880365117480114e-05,
      "loss": 0.7225,
      "step": 2385
    },
    {
      "epoch": 0.2790751985053713,
      "grad_norm": 0.7530951446510832,
      "learning_rate": 4.385055010444416e-05,
      "loss": 0.7028,
      "step": 2390
    },
    {
      "epoch": 0.2796590378327884,
      "grad_norm": 0.7409067166871964,
      "learning_rate": 4.382067412973573e-05,
      "loss": 0.7003,
      "step": 2395
    },
    {
      "epoch": 0.2802428771602055,
      "grad_norm": 0.681951341188302,
      "learning_rate": 4.3790737304744906e-05,
      "loss": 0.7189,
      "step": 2400
    },
    {
      "epoch": 0.2808267164876226,
      "grad_norm": 0.6465059909172851,
      "learning_rate": 4.376073974108866e-05,
      "loss": 0.7225,
      "step": 2405
    },
    {
      "epoch": 0.2814105558150397,
      "grad_norm": 0.6656442992103169,
      "learning_rate": 4.373068155061043e-05,
      "loss": 0.7069,
      "step": 2410
    },
    {
      "epoch": 0.2819943951424568,
      "grad_norm": 0.6534552264402784,
      "learning_rate": 4.37005628453797e-05,
      "loss": 0.7,
      "step": 2415
    },
    {
      "epoch": 0.2825782344698739,
      "grad_norm": 0.6952651195555617,
      "learning_rate": 4.367038373769155e-05,
      "loss": 0.7299,
      "step": 2420
    },
    {
      "epoch": 0.28316207379729097,
      "grad_norm": 0.6842809970843287,
      "learning_rate": 4.36401443400663e-05,
      "loss": 0.7258,
      "step": 2425
    },
    {
      "epoch": 0.2837459131247081,
      "grad_norm": 0.7331445788168038,
      "learning_rate": 4.3609844765249034e-05,
      "loss": 0.6946,
      "step": 2430
    },
    {
      "epoch": 0.28432975245212516,
      "grad_norm": 0.7347255587932956,
      "learning_rate": 4.357948512620922e-05,
      "loss": 0.7048,
      "step": 2435
    },
    {
      "epoch": 0.2849135917795423,
      "grad_norm": 0.8121169217743148,
      "learning_rate": 4.354906553614024e-05,
      "loss": 0.7125,
      "step": 2440
    },
    {
      "epoch": 0.28549743110695935,
      "grad_norm": 0.6800833661450737,
      "learning_rate": 4.3518586108459034e-05,
      "loss": 0.6926,
      "step": 2445
    },
    {
      "epoch": 0.2860812704343765,
      "grad_norm": 0.736383144444763,
      "learning_rate": 4.34880469568056e-05,
      "loss": 0.6916,
      "step": 2450
    },
    {
      "epoch": 0.28666510976179355,
      "grad_norm": 0.7294023217733528,
      "learning_rate": 4.345744819504266e-05,
      "loss": 0.7112,
      "step": 2455
    },
    {
      "epoch": 0.28724894908921067,
      "grad_norm": 0.6890872175614355,
      "learning_rate": 4.342678993725517e-05,
      "loss": 0.7039,
      "step": 2460
    },
    {
      "epoch": 0.28783278841662774,
      "grad_norm": 0.6649888788261715,
      "learning_rate": 4.339607229774989e-05,
      "loss": 0.7108,
      "step": 2465
    },
    {
      "epoch": 0.28841662774404486,
      "grad_norm": 0.6522467369641055,
      "learning_rate": 4.3365295391054996e-05,
      "loss": 0.7044,
      "step": 2470
    },
    {
      "epoch": 0.28900046707146193,
      "grad_norm": 0.7181727438474074,
      "learning_rate": 4.333445933191964e-05,
      "loss": 0.7175,
      "step": 2475
    },
    {
      "epoch": 0.28958430639887905,
      "grad_norm": 0.6795701001412194,
      "learning_rate": 4.330356423531352e-05,
      "loss": 0.7112,
      "step": 2480
    },
    {
      "epoch": 0.2901681457262961,
      "grad_norm": 0.7039262534649463,
      "learning_rate": 4.327261021642644e-05,
      "loss": 0.7192,
      "step": 2485
    },
    {
      "epoch": 0.2907519850537132,
      "grad_norm": 0.7104481909459923,
      "learning_rate": 4.32415973906679e-05,
      "loss": 0.7072,
      "step": 2490
    },
    {
      "epoch": 0.2913358243811303,
      "grad_norm": 0.6730367434130707,
      "learning_rate": 4.3210525873666656e-05,
      "loss": 0.7062,
      "step": 2495
    },
    {
      "epoch": 0.2919196637085474,
      "grad_norm": 0.8316755995846691,
      "learning_rate": 4.317939578127029e-05,
      "loss": 0.7101,
      "step": 2500
    },
    {
      "epoch": 0.2925035030359645,
      "grad_norm": 0.7776101899040683,
      "learning_rate": 4.314820722954476e-05,
      "loss": 0.7102,
      "step": 2505
    },
    {
      "epoch": 0.2930873423633816,
      "grad_norm": 0.7759230288668068,
      "learning_rate": 4.3116960334774e-05,
      "loss": 0.7088,
      "step": 2510
    },
    {
      "epoch": 0.2936711816907987,
      "grad_norm": 0.7300987708649985,
      "learning_rate": 4.308565521345949e-05,
      "loss": 0.7174,
      "step": 2515
    },
    {
      "epoch": 0.29425502101821577,
      "grad_norm": 0.691563983565198,
      "learning_rate": 4.305429198231977e-05,
      "loss": 0.7094,
      "step": 2520
    },
    {
      "epoch": 0.2948388603456329,
      "grad_norm": 0.6857850906341554,
      "learning_rate": 4.302287075829005e-05,
      "loss": 0.7043,
      "step": 2525
    },
    {
      "epoch": 0.29542269967304996,
      "grad_norm": 0.6168868887138788,
      "learning_rate": 4.2991391658521765e-05,
      "loss": 0.6994,
      "step": 2530
    },
    {
      "epoch": 0.2960065390004671,
      "grad_norm": 0.7084081647037271,
      "learning_rate": 4.2959854800382136e-05,
      "loss": 0.7047,
      "step": 2535
    },
    {
      "epoch": 0.29659037832788415,
      "grad_norm": 0.6454455832599233,
      "learning_rate": 4.292826030145372e-05,
      "loss": 0.7107,
      "step": 2540
    },
    {
      "epoch": 0.2971742176553013,
      "grad_norm": 0.7537875064830446,
      "learning_rate": 4.289660827953399e-05,
      "loss": 0.6881,
      "step": 2545
    },
    {
      "epoch": 0.29775805698271834,
      "grad_norm": 0.665124089965744,
      "learning_rate": 4.28648988526349e-05,
      "loss": 0.7252,
      "step": 2550
    },
    {
      "epoch": 0.29834189631013547,
      "grad_norm": 10.191918716713266,
      "learning_rate": 4.2833132138982415e-05,
      "loss": 0.717,
      "step": 2555
    },
    {
      "epoch": 0.29892573563755254,
      "grad_norm": 0.659368592659605,
      "learning_rate": 4.280130825701609e-05,
      "loss": 0.711,
      "step": 2560
    },
    {
      "epoch": 0.29950957496496966,
      "grad_norm": 0.7185064005962647,
      "learning_rate": 4.276942732538866e-05,
      "loss": 0.7008,
      "step": 2565
    },
    {
      "epoch": 0.30009341429238673,
      "grad_norm": 0.6847656968163185,
      "learning_rate": 4.273748946296552e-05,
      "loss": 0.7344,
      "step": 2570
    },
    {
      "epoch": 0.30067725361980385,
      "grad_norm": 0.7003587004137025,
      "learning_rate": 4.2705494788824345e-05,
      "loss": 0.7121,
      "step": 2575
    },
    {
      "epoch": 0.3012610929472209,
      "grad_norm": 0.7621456361852244,
      "learning_rate": 4.267344342225463e-05,
      "loss": 0.7231,
      "step": 2580
    },
    {
      "epoch": 0.30184493227463804,
      "grad_norm": 0.6976812884927045,
      "learning_rate": 4.264133548275725e-05,
      "loss": 0.7009,
      "step": 2585
    },
    {
      "epoch": 0.3024287716020551,
      "grad_norm": 0.6443472776826159,
      "learning_rate": 4.2609171090044e-05,
      "loss": 0.6905,
      "step": 2590
    },
    {
      "epoch": 0.30301261092947224,
      "grad_norm": 0.6585015539397339,
      "learning_rate": 4.257695036403714e-05,
      "loss": 0.7033,
      "step": 2595
    },
    {
      "epoch": 0.3035964502568893,
      "grad_norm": 0.6939183770223464,
      "learning_rate": 4.2544673424868994e-05,
      "loss": 0.7006,
      "step": 2600
    },
    {
      "epoch": 0.3041802895843064,
      "grad_norm": 0.6470850459309977,
      "learning_rate": 4.251234039288145e-05,
      "loss": 0.7064,
      "step": 2605
    },
    {
      "epoch": 0.3047641289117235,
      "grad_norm": 0.7018952484634018,
      "learning_rate": 4.2479951388625546e-05,
      "loss": 0.7287,
      "step": 2610
    },
    {
      "epoch": 0.30534796823914057,
      "grad_norm": 0.6707270948528987,
      "learning_rate": 4.2447506532861e-05,
      "loss": 0.7247,
      "step": 2615
    },
    {
      "epoch": 0.3059318075665577,
      "grad_norm": 0.6873978437611662,
      "learning_rate": 4.241500594655577e-05,
      "loss": 0.7049,
      "step": 2620
    },
    {
      "epoch": 0.30651564689397476,
      "grad_norm": 0.6587849385828438,
      "learning_rate": 4.2382449750885604e-05,
      "loss": 0.6914,
      "step": 2625
    },
    {
      "epoch": 0.3070994862213919,
      "grad_norm": 0.7235185916363532,
      "learning_rate": 4.2349838067233575e-05,
      "loss": 0.6889,
      "step": 2630
    },
    {
      "epoch": 0.30768332554880895,
      "grad_norm": 0.7438779983004897,
      "learning_rate": 4.231717101718967e-05,
      "loss": 0.6854,
      "step": 2635
    },
    {
      "epoch": 0.3082671648762261,
      "grad_norm": 0.6358770824948266,
      "learning_rate": 4.228444872255025e-05,
      "loss": 0.6982,
      "step": 2640
    },
    {
      "epoch": 0.30885100420364314,
      "grad_norm": 0.7557882249486343,
      "learning_rate": 4.2251671305317696e-05,
      "loss": 0.7095,
      "step": 2645
    },
    {
      "epoch": 0.30943484353106027,
      "grad_norm": 0.6559135507236117,
      "learning_rate": 4.2218838887699894e-05,
      "loss": 0.7143,
      "step": 2650
    },
    {
      "epoch": 0.31001868285847733,
      "grad_norm": 0.8256383447956446,
      "learning_rate": 4.2185951592109794e-05,
      "loss": 0.6974,
      "step": 2655
    },
    {
      "epoch": 0.31060252218589446,
      "grad_norm": 0.7970632629634542,
      "learning_rate": 4.2153009541164965e-05,
      "loss": 0.7143,
      "step": 2660
    },
    {
      "epoch": 0.3111863615133115,
      "grad_norm": 0.7317917328687641,
      "learning_rate": 4.21200128576871e-05,
      "loss": 0.7248,
      "step": 2665
    },
    {
      "epoch": 0.31177020084072865,
      "grad_norm": 0.6721444475469468,
      "learning_rate": 4.208696166470161e-05,
      "loss": 0.718,
      "step": 2670
    },
    {
      "epoch": 0.3123540401681457,
      "grad_norm": 0.7858254702932888,
      "learning_rate": 4.2053856085437124e-05,
      "loss": 0.7106,
      "step": 2675
    },
    {
      "epoch": 0.31293787949556284,
      "grad_norm": 0.6846940486554121,
      "learning_rate": 4.202069624332507e-05,
      "loss": 0.7071,
      "step": 2680
    },
    {
      "epoch": 0.3135217188229799,
      "grad_norm": 0.7014521181871499,
      "learning_rate": 4.1987482261999164e-05,
      "loss": 0.7235,
      "step": 2685
    },
    {
      "epoch": 0.31410555815039704,
      "grad_norm": 0.6825589502569331,
      "learning_rate": 4.1954214265294985e-05,
      "loss": 0.6855,
      "step": 2690
    },
    {
      "epoch": 0.3146893974778141,
      "grad_norm": 0.5691899107187525,
      "learning_rate": 4.192089237724951e-05,
      "loss": 0.6909,
      "step": 2695
    },
    {
      "epoch": 0.3152732368052312,
      "grad_norm": 0.6814010212005029,
      "learning_rate": 4.188751672210063e-05,
      "loss": 0.71,
      "step": 2700
    },
    {
      "epoch": 0.3158570761326483,
      "grad_norm": 0.689336907740428,
      "learning_rate": 4.1854087424286725e-05,
      "loss": 0.6859,
      "step": 2705
    },
    {
      "epoch": 0.31644091546006536,
      "grad_norm": 0.7473246366953188,
      "learning_rate": 4.182060460844615e-05,
      "loss": 0.6962,
      "step": 2710
    },
    {
      "epoch": 0.3170247547874825,
      "grad_norm": 1.0456906948881868,
      "learning_rate": 4.1787068399416825e-05,
      "loss": 0.6992,
      "step": 2715
    },
    {
      "epoch": 0.31760859411489956,
      "grad_norm": 0.6930676304656502,
      "learning_rate": 4.175347892223572e-05,
      "loss": 0.6783,
      "step": 2720
    },
    {
      "epoch": 0.3181924334423167,
      "grad_norm": 0.760108322896286,
      "learning_rate": 4.1719836302138426e-05,
      "loss": 0.6989,
      "step": 2725
    },
    {
      "epoch": 0.31877627276973375,
      "grad_norm": 0.7328309953315881,
      "learning_rate": 4.168614066455867e-05,
      "loss": 0.7007,
      "step": 2730
    },
    {
      "epoch": 0.31936011209715087,
      "grad_norm": 0.7344695169247055,
      "learning_rate": 4.165239213512784e-05,
      "loss": 0.6931,
      "step": 2735
    },
    {
      "epoch": 0.31994395142456794,
      "grad_norm": 0.696926721127825,
      "learning_rate": 4.161859083967454e-05,
      "loss": 0.7007,
      "step": 2740
    },
    {
      "epoch": 0.32052779075198506,
      "grad_norm": 0.6590558010589381,
      "learning_rate": 4.158473690422409e-05,
      "loss": 0.6918,
      "step": 2745
    },
    {
      "epoch": 0.32111163007940213,
      "grad_norm": 0.6476753037089318,
      "learning_rate": 4.15508304549981e-05,
      "loss": 0.6747,
      "step": 2750
    },
    {
      "epoch": 0.32169546940681926,
      "grad_norm": 0.7031519295271327,
      "learning_rate": 4.1516871618413947e-05,
      "loss": 0.7064,
      "step": 2755
    },
    {
      "epoch": 0.3222793087342363,
      "grad_norm": 0.6439952158257722,
      "learning_rate": 4.148286052108436e-05,
      "loss": 0.7097,
      "step": 2760
    },
    {
      "epoch": 0.32286314806165345,
      "grad_norm": 0.6991435194699337,
      "learning_rate": 4.144879728981688e-05,
      "loss": 0.7048,
      "step": 2765
    },
    {
      "epoch": 0.3234469873890705,
      "grad_norm": 0.6677321854539165,
      "learning_rate": 4.141468205161345e-05,
      "loss": 0.6984,
      "step": 2770
    },
    {
      "epoch": 0.32403082671648764,
      "grad_norm": 0.6595171804385687,
      "learning_rate": 4.1380514933669916e-05,
      "loss": 0.6784,
      "step": 2775
    },
    {
      "epoch": 0.3246146660439047,
      "grad_norm": 1.015021139511113,
      "learning_rate": 4.134629606337555e-05,
      "loss": 0.6925,
      "step": 2780
    },
    {
      "epoch": 0.32519850537132183,
      "grad_norm": 0.7214804008392196,
      "learning_rate": 4.131202556831257e-05,
      "loss": 0.7085,
      "step": 2785
    },
    {
      "epoch": 0.3257823446987389,
      "grad_norm": 0.731348240194823,
      "learning_rate": 4.1277703576255685e-05,
      "loss": 0.6931,
      "step": 2790
    },
    {
      "epoch": 0.326366184026156,
      "grad_norm": 0.8049304402215585,
      "learning_rate": 4.12433302151716e-05,
      "loss": 0.6947,
      "step": 2795
    },
    {
      "epoch": 0.3269500233535731,
      "grad_norm": 0.6361610980352036,
      "learning_rate": 4.1208905613218547e-05,
      "loss": 0.7007,
      "step": 2800
    },
    {
      "epoch": 0.3275338626809902,
      "grad_norm": 0.6580608817341838,
      "learning_rate": 4.1174429898745795e-05,
      "loss": 0.6851,
      "step": 2805
    },
    {
      "epoch": 0.3281177020084073,
      "grad_norm": 0.657110312928303,
      "learning_rate": 4.113990320029321e-05,
      "loss": 0.6806,
      "step": 2810
    },
    {
      "epoch": 0.32870154133582435,
      "grad_norm": 0.6569678973108026,
      "learning_rate": 4.1105325646590714e-05,
      "loss": 0.7137,
      "step": 2815
    },
    {
      "epoch": 0.3292853806632415,
      "grad_norm": 0.6555287805338297,
      "learning_rate": 4.1070697366557856e-05,
      "loss": 0.6947,
      "step": 2820
    },
    {
      "epoch": 0.32986921999065855,
      "grad_norm": 0.7188920865527592,
      "learning_rate": 4.103601848930332e-05,
      "loss": 0.6875,
      "step": 2825
    },
    {
      "epoch": 0.33045305931807567,
      "grad_norm": 0.7899413062439027,
      "learning_rate": 4.100128914412442e-05,
      "loss": 0.7319,
      "step": 2830
    },
    {
      "epoch": 0.33103689864549274,
      "grad_norm": 0.733267680492785,
      "learning_rate": 4.096650946050664e-05,
      "loss": 0.688,
      "step": 2835
    },
    {
      "epoch": 0.33162073797290986,
      "grad_norm": 0.7098708668395597,
      "learning_rate": 4.0931679568123174e-05,
      "loss": 0.7132,
      "step": 2840
    },
    {
      "epoch": 0.33220457730032693,
      "grad_norm": 0.6758172761287962,
      "learning_rate": 4.0896799596834365e-05,
      "loss": 0.6856,
      "step": 2845
    },
    {
      "epoch": 0.33278841662774405,
      "grad_norm": 0.7459994296367798,
      "learning_rate": 4.086186967668731e-05,
      "loss": 0.7159,
      "step": 2850
    },
    {
      "epoch": 0.3333722559551611,
      "grad_norm": 0.7288354533071518,
      "learning_rate": 4.082688993791533e-05,
      "loss": 0.6734,
      "step": 2855
    },
    {
      "epoch": 0.33395609528257825,
      "grad_norm": 0.9075510914012299,
      "learning_rate": 4.079186051093747e-05,
      "loss": 0.6948,
      "step": 2860
    },
    {
      "epoch": 0.3345399346099953,
      "grad_norm": 0.7536999910281159,
      "learning_rate": 4.075678152635807e-05,
      "loss": 0.7141,
      "step": 2865
    },
    {
      "epoch": 0.33512377393741244,
      "grad_norm": 0.6776220892035995,
      "learning_rate": 4.07216531149662e-05,
      "loss": 0.7186,
      "step": 2870
    },
    {
      "epoch": 0.3357076132648295,
      "grad_norm": 0.6698565336124284,
      "learning_rate": 4.068647540773524e-05,
      "loss": 0.7061,
      "step": 2875
    },
    {
      "epoch": 0.33629145259224663,
      "grad_norm": 0.7102555949426216,
      "learning_rate": 4.065124853582237e-05,
      "loss": 0.7114,
      "step": 2880
    },
    {
      "epoch": 0.3368752919196637,
      "grad_norm": 0.6493150216278054,
      "learning_rate": 4.0615972630568055e-05,
      "loss": 0.703,
      "step": 2885
    },
    {
      "epoch": 0.3374591312470808,
      "grad_norm": 0.6775510172923045,
      "learning_rate": 4.0580647823495587e-05,
      "loss": 0.7045,
      "step": 2890
    },
    {
      "epoch": 0.3380429705744979,
      "grad_norm": 0.6692491951480167,
      "learning_rate": 4.054527424631059e-05,
      "loss": 0.7315,
      "step": 2895
    },
    {
      "epoch": 0.338626809901915,
      "grad_norm": 0.6738566077502742,
      "learning_rate": 4.0509852030900506e-05,
      "loss": 0.6768,
      "step": 2900
    },
    {
      "epoch": 0.3392106492293321,
      "grad_norm": 0.6409417570471981,
      "learning_rate": 4.047438130933415e-05,
      "loss": 0.703,
      "step": 2905
    },
    {
      "epoch": 0.3397944885567492,
      "grad_norm": 0.7101594035977382,
      "learning_rate": 4.043886221386117e-05,
      "loss": 0.6896,
      "step": 2910
    },
    {
      "epoch": 0.3403783278841663,
      "grad_norm": 0.6346742841875289,
      "learning_rate": 4.040329487691155e-05,
      "loss": 0.6973,
      "step": 2915
    },
    {
      "epoch": 0.34096216721158334,
      "grad_norm": 0.8103244660091896,
      "learning_rate": 4.036767943109519e-05,
      "loss": 0.7054,
      "step": 2920
    },
    {
      "epoch": 0.34154600653900047,
      "grad_norm": 0.688994173113095,
      "learning_rate": 4.0332016009201315e-05,
      "loss": 0.7048,
      "step": 2925
    },
    {
      "epoch": 0.34212984586641754,
      "grad_norm": 0.6578485129978351,
      "learning_rate": 4.0296304744198045e-05,
      "loss": 0.6956,
      "step": 2930
    },
    {
      "epoch": 0.34271368519383466,
      "grad_norm": 0.6377412125496434,
      "learning_rate": 4.0260545769231875e-05,
      "loss": 0.6908,
      "step": 2935
    },
    {
      "epoch": 0.34329752452125173,
      "grad_norm": 0.670481994026621,
      "learning_rate": 4.022473921762719e-05,
      "loss": 0.7069,
      "step": 2940
    },
    {
      "epoch": 0.34388136384866885,
      "grad_norm": 0.7121697851728561,
      "learning_rate": 4.018888522288574e-05,
      "loss": 0.7129,
      "step": 2945
    },
    {
      "epoch": 0.3444652031760859,
      "grad_norm": 0.6887026519736897,
      "learning_rate": 4.0152983918686175e-05,
      "loss": 0.6939,
      "step": 2950
    },
    {
      "epoch": 0.34504904250350305,
      "grad_norm": 0.7017636868082506,
      "learning_rate": 4.0117035438883553e-05,
      "loss": 0.6812,
      "step": 2955
    },
    {
      "epoch": 0.3456328818309201,
      "grad_norm": 0.7655292468384295,
      "learning_rate": 4.008103991750879e-05,
      "loss": 0.715,
      "step": 2960
    },
    {
      "epoch": 0.34621672115833724,
      "grad_norm": 0.6287342780769691,
      "learning_rate": 4.004499748876821e-05,
      "loss": 0.694,
      "step": 2965
    },
    {
      "epoch": 0.3468005604857543,
      "grad_norm": 0.6396219403886257,
      "learning_rate": 4.000890828704304e-05,
      "loss": 0.681,
      "step": 2970
    },
    {
      "epoch": 0.34738439981317143,
      "grad_norm": 0.6866315857071885,
      "learning_rate": 3.997277244688886e-05,
      "loss": 0.7081,
      "step": 2975
    },
    {
      "epoch": 0.3479682391405885,
      "grad_norm": 0.7105639621395489,
      "learning_rate": 3.993659010303517e-05,
      "loss": 0.7073,
      "step": 2980
    },
    {
      "epoch": 0.3485520784680056,
      "grad_norm": 0.6483059974789481,
      "learning_rate": 3.9900361390384836e-05,
      "loss": 0.6721,
      "step": 2985
    },
    {
      "epoch": 0.3491359177954227,
      "grad_norm": 0.6579177689380913,
      "learning_rate": 3.986408644401362e-05,
      "loss": 0.7076,
      "step": 2990
    },
    {
      "epoch": 0.3497197571228398,
      "grad_norm": 0.6842426698159001,
      "learning_rate": 3.982776539916966e-05,
      "loss": 0.6946,
      "step": 2995
    },
    {
      "epoch": 0.3503035964502569,
      "grad_norm": 0.6214608870632571,
      "learning_rate": 3.979139839127296e-05,
      "loss": 0.679,
      "step": 3000
    },
    {
      "epoch": 0.350887435777674,
      "grad_norm": 0.7832466335636389,
      "learning_rate": 3.975498555591489e-05,
      "loss": 0.694,
      "step": 3005
    },
    {
      "epoch": 0.3514712751050911,
      "grad_norm": 0.6827242334386869,
      "learning_rate": 3.971852702885772e-05,
      "loss": 0.686,
      "step": 3010
    },
    {
      "epoch": 0.3520551144325082,
      "grad_norm": 0.6580285082416581,
      "learning_rate": 3.9682022946034006e-05,
      "loss": 0.6915,
      "step": 3015
    },
    {
      "epoch": 0.35263895375992527,
      "grad_norm": 0.6644485295248183,
      "learning_rate": 3.964547344354624e-05,
      "loss": 0.6955,
      "step": 3020
    },
    {
      "epoch": 0.3532227930873424,
      "grad_norm": 0.6797616001519512,
      "learning_rate": 3.9608878657666195e-05,
      "loss": 0.7005,
      "step": 3025
    },
    {
      "epoch": 0.35380663241475946,
      "grad_norm": 0.6882723067231326,
      "learning_rate": 3.9572238724834503e-05,
      "loss": 0.7009,
      "step": 3030
    },
    {
      "epoch": 0.3543904717421765,
      "grad_norm": 0.7025514914124491,
      "learning_rate": 3.953555378166012e-05,
      "loss": 0.7015,
      "step": 3035
    },
    {
      "epoch": 0.35497431106959365,
      "grad_norm": 0.7682225416014826,
      "learning_rate": 3.9498823964919827e-05,
      "loss": 0.7039,
      "step": 3040
    },
    {
      "epoch": 0.3555581503970107,
      "grad_norm": 0.7107066995180754,
      "learning_rate": 3.94620494115577e-05,
      "loss": 0.688,
      "step": 3045
    },
    {
      "epoch": 0.35614198972442784,
      "grad_norm": 0.603746881271006,
      "learning_rate": 3.942523025868461e-05,
      "loss": 0.6915,
      "step": 3050
    },
    {
      "epoch": 0.3567258290518449,
      "grad_norm": 0.6977580760284987,
      "learning_rate": 3.9388366643577745e-05,
      "loss": 0.689,
      "step": 3055
    },
    {
      "epoch": 0.35730966837926204,
      "grad_norm": 0.6254718988195369,
      "learning_rate": 3.9351458703680017e-05,
      "loss": 0.7093,
      "step": 3060
    },
    {
      "epoch": 0.3578935077066791,
      "grad_norm": 0.6794200041896331,
      "learning_rate": 3.931450657659963e-05,
      "loss": 0.6954,
      "step": 3065
    },
    {
      "epoch": 0.3584773470340962,
      "grad_norm": 0.7000832034897168,
      "learning_rate": 3.927751040010954e-05,
      "loss": 0.6751,
      "step": 3070
    },
    {
      "epoch": 0.3590611863615133,
      "grad_norm": 0.7011267366601257,
      "learning_rate": 3.924047031214691e-05,
      "loss": 0.708,
      "step": 3075
    },
    {
      "epoch": 0.3596450256889304,
      "grad_norm": 0.7552720574103187,
      "learning_rate": 3.920338645081266e-05,
      "loss": 0.6939,
      "step": 3080
    },
    {
      "epoch": 0.3602288650163475,
      "grad_norm": 0.709414134987964,
      "learning_rate": 3.916625895437089e-05,
      "loss": 0.6684,
      "step": 3085
    },
    {
      "epoch": 0.3608127043437646,
      "grad_norm": 0.7038732195784704,
      "learning_rate": 3.912908796124839e-05,
      "loss": 0.6953,
      "step": 3090
    },
    {
      "epoch": 0.3613965436711817,
      "grad_norm": 0.7064185255920825,
      "learning_rate": 3.909187361003414e-05,
      "loss": 0.6847,
      "step": 3095
    },
    {
      "epoch": 0.3619803829985988,
      "grad_norm": 0.7314898303717124,
      "learning_rate": 3.905461603947878e-05,
      "loss": 0.6987,
      "step": 3100
    },
    {
      "epoch": 0.3625642223260159,
      "grad_norm": 0.6889637879433151,
      "learning_rate": 3.9017315388494044e-05,
      "loss": 0.6853,
      "step": 3105
    },
    {
      "epoch": 0.363148061653433,
      "grad_norm": 0.8312571876184839,
      "learning_rate": 3.8979971796152346e-05,
      "loss": 0.6914,
      "step": 3110
    },
    {
      "epoch": 0.36373190098085006,
      "grad_norm": 0.582698659718714,
      "learning_rate": 3.894258540168618e-05,
      "loss": 0.6728,
      "step": 3115
    },
    {
      "epoch": 0.3643157403082672,
      "grad_norm": 0.6619313870899733,
      "learning_rate": 3.89051563444876e-05,
      "loss": 0.6785,
      "step": 3120
    },
    {
      "epoch": 0.36489957963568426,
      "grad_norm": 0.6298363673198333,
      "learning_rate": 3.886768476410777e-05,
      "loss": 0.6833,
      "step": 3125
    },
    {
      "epoch": 0.3654834189631014,
      "grad_norm": 0.8219887753285791,
      "learning_rate": 3.883017080025638e-05,
      "loss": 0.6837,
      "step": 3130
    },
    {
      "epoch": 0.36606725829051845,
      "grad_norm": 0.7880218471799671,
      "learning_rate": 3.879261459280111e-05,
      "loss": 0.6868,
      "step": 3135
    },
    {
      "epoch": 0.3666510976179355,
      "grad_norm": 0.7345112746587662,
      "learning_rate": 3.875501628176719e-05,
      "loss": 0.6934,
      "step": 3140
    },
    {
      "epoch": 0.36723493694535264,
      "grad_norm": 0.686416317008603,
      "learning_rate": 3.8717376007336814e-05,
      "loss": 0.6877,
      "step": 3145
    },
    {
      "epoch": 0.3678187762727697,
      "grad_norm": 0.7334866029192383,
      "learning_rate": 3.867969390984862e-05,
      "loss": 0.7131,
      "step": 3150
    },
    {
      "epoch": 0.36840261560018683,
      "grad_norm": 0.6732681172574688,
      "learning_rate": 3.864197012979719e-05,
      "loss": 0.7155,
      "step": 3155
    },
    {
      "epoch": 0.3689864549276039,
      "grad_norm": 0.6887026642062427,
      "learning_rate": 3.8604204807832516e-05,
      "loss": 0.7267,
      "step": 3160
    },
    {
      "epoch": 0.369570294255021,
      "grad_norm": 0.6714593414758345,
      "learning_rate": 3.856639808475947e-05,
      "loss": 0.6795,
      "step": 3165
    },
    {
      "epoch": 0.3701541335824381,
      "grad_norm": 0.6649220433540397,
      "learning_rate": 3.85285501015373e-05,
      "loss": 0.6889,
      "step": 3170
    },
    {
      "epoch": 0.3707379729098552,
      "grad_norm": 0.6235959590521644,
      "learning_rate": 3.8490660999279074e-05,
      "loss": 0.6862,
      "step": 3175
    },
    {
      "epoch": 0.3713218122372723,
      "grad_norm": 0.626992375665342,
      "learning_rate": 3.8452730919251174e-05,
      "loss": 0.6964,
      "step": 3180
    },
    {
      "epoch": 0.3719056515646894,
      "grad_norm": 0.6155958131892619,
      "learning_rate": 3.841476000287275e-05,
      "loss": 0.7053,
      "step": 3185
    },
    {
      "epoch": 0.3724894908921065,
      "grad_norm": 0.6851410102440836,
      "learning_rate": 3.837674839171524e-05,
      "loss": 0.6864,
      "step": 3190
    },
    {
      "epoch": 0.3730733302195236,
      "grad_norm": 0.6357427022808335,
      "learning_rate": 3.833869622750177e-05,
      "loss": 0.7065,
      "step": 3195
    },
    {
      "epoch": 0.37365716954694067,
      "grad_norm": 0.8472517069635026,
      "learning_rate": 3.8300603652106704e-05,
      "loss": 0.695,
      "step": 3200
    },
    {
      "epoch": 0.3742410088743578,
      "grad_norm": 0.756250084595756,
      "learning_rate": 3.8262470807555045e-05,
      "loss": 0.6802,
      "step": 3205
    },
    {
      "epoch": 0.37482484820177486,
      "grad_norm": 0.6839568898754494,
      "learning_rate": 3.822429783602195e-05,
      "loss": 0.6991,
      "step": 3210
    },
    {
      "epoch": 0.375408687529192,
      "grad_norm": 0.6868351371148217,
      "learning_rate": 3.818608487983218e-05,
      "loss": 0.6769,
      "step": 3215
    },
    {
      "epoch": 0.37599252685660906,
      "grad_norm": 0.6203850879359878,
      "learning_rate": 3.8147832081459574e-05,
      "loss": 0.6861,
      "step": 3220
    },
    {
      "epoch": 0.3765763661840262,
      "grad_norm": 0.7422862863096844,
      "learning_rate": 3.810953958352653e-05,
      "loss": 0.7102,
      "step": 3225
    },
    {
      "epoch": 0.37716020551144325,
      "grad_norm": 0.6192695326949685,
      "learning_rate": 3.807120752880346e-05,
      "loss": 0.6889,
      "step": 3230
    },
    {
      "epoch": 0.37774404483886037,
      "grad_norm": 0.6414835917217437,
      "learning_rate": 3.8032836060208265e-05,
      "loss": 0.6769,
      "step": 3235
    },
    {
      "epoch": 0.37832788416627744,
      "grad_norm": 0.6636929047568134,
      "learning_rate": 3.799442532080577e-05,
      "loss": 0.6792,
      "step": 3240
    },
    {
      "epoch": 0.3789117234936945,
      "grad_norm": 0.7334579643106445,
      "learning_rate": 3.795597545380724e-05,
      "loss": 0.6921,
      "step": 3245
    },
    {
      "epoch": 0.37949556282111163,
      "grad_norm": 0.7242201259541307,
      "learning_rate": 3.791748660256983e-05,
      "loss": 0.6894,
      "step": 3250
    },
    {
      "epoch": 0.3800794021485287,
      "grad_norm": 0.6800906858596535,
      "learning_rate": 3.787895891059603e-05,
      "loss": 0.6732,
      "step": 3255
    },
    {
      "epoch": 0.3806632414759458,
      "grad_norm": 0.6694030660200606,
      "learning_rate": 3.784039252153315e-05,
      "loss": 0.6833,
      "step": 3260
    },
    {
      "epoch": 0.3812470808033629,
      "grad_norm": 0.7837093304371092,
      "learning_rate": 3.780178757917278e-05,
      "loss": 0.7044,
      "step": 3265
    },
    {
      "epoch": 0.38183092013078,
      "grad_norm": 0.6212998846441561,
      "learning_rate": 3.776314422745026e-05,
      "loss": 0.6743,
      "step": 3270
    },
    {
      "epoch": 0.3824147594581971,
      "grad_norm": 0.7428058913367551,
      "learning_rate": 3.772446261044411e-05,
      "loss": 0.6851,
      "step": 3275
    },
    {
      "epoch": 0.3829985987856142,
      "grad_norm": 0.6845689857219531,
      "learning_rate": 3.768574287237555e-05,
      "loss": 0.6824,
      "step": 3280
    },
    {
      "epoch": 0.3835824381130313,
      "grad_norm": 0.7390118487736407,
      "learning_rate": 3.7646985157607915e-05,
      "loss": 0.6899,
      "step": 3285
    },
    {
      "epoch": 0.3841662774404484,
      "grad_norm": 0.7772545878003212,
      "learning_rate": 3.760818961064614e-05,
      "loss": 0.6831,
      "step": 3290
    },
    {
      "epoch": 0.38475011676786547,
      "grad_norm": 0.7965196041346534,
      "learning_rate": 3.75693563761362e-05,
      "loss": 0.6892,
      "step": 3295
    },
    {
      "epoch": 0.3853339560952826,
      "grad_norm": 0.6577827435561913,
      "learning_rate": 3.75304855988646e-05,
      "loss": 0.7007,
      "step": 3300
    },
    {
      "epoch": 0.38591779542269966,
      "grad_norm": 0.7685136213719611,
      "learning_rate": 3.749157742375782e-05,
      "loss": 0.697,
      "step": 3305
    },
    {
      "epoch": 0.3865016347501168,
      "grad_norm": 0.7295181909577287,
      "learning_rate": 3.745263199588176e-05,
      "loss": 0.6931,
      "step": 3310
    },
    {
      "epoch": 0.38708547407753385,
      "grad_norm": 0.6878827489363338,
      "learning_rate": 3.741364946044123e-05,
      "loss": 0.6886,
      "step": 3315
    },
    {
      "epoch": 0.387669313404951,
      "grad_norm": 0.6687780142846725,
      "learning_rate": 3.737462996277939e-05,
      "loss": 0.686,
      "step": 3320
    },
    {
      "epoch": 0.38825315273236805,
      "grad_norm": 0.6822226346049627,
      "learning_rate": 3.73355736483772e-05,
      "loss": 0.7238,
      "step": 3325
    },
    {
      "epoch": 0.38883699205978517,
      "grad_norm": 0.7793024322443424,
      "learning_rate": 3.72964806628529e-05,
      "loss": 0.6793,
      "step": 3330
    },
    {
      "epoch": 0.38942083138720224,
      "grad_norm": 0.7332530440310608,
      "learning_rate": 3.725735115196145e-05,
      "loss": 0.7077,
      "step": 3335
    },
    {
      "epoch": 0.39000467071461936,
      "grad_norm": 0.7291717740569443,
      "learning_rate": 3.7218185261593984e-05,
      "loss": 0.6939,
      "step": 3340
    },
    {
      "epoch": 0.39058851004203643,
      "grad_norm": 0.678089956357006,
      "learning_rate": 3.717898313777729e-05,
      "loss": 0.6971,
      "step": 3345
    },
    {
      "epoch": 0.39117234936945355,
      "grad_norm": 0.7147921035532178,
      "learning_rate": 3.713974492667324e-05,
      "loss": 0.6957,
      "step": 3350
    },
    {
      "epoch": 0.3917561886968706,
      "grad_norm": 0.6522228386343375,
      "learning_rate": 3.710047077457826e-05,
      "loss": 0.6891,
      "step": 3355
    },
    {
      "epoch": 0.3923400280242877,
      "grad_norm": 0.6710362987910684,
      "learning_rate": 3.706116082792276e-05,
      "loss": 0.6815,
      "step": 3360
    },
    {
      "epoch": 0.3929238673517048,
      "grad_norm": 0.6291887390159168,
      "learning_rate": 3.702181523327064e-05,
      "loss": 0.7092,
      "step": 3365
    },
    {
      "epoch": 0.3935077066791219,
      "grad_norm": 0.6995020859725057,
      "learning_rate": 3.698243413731867e-05,
      "loss": 0.6861,
      "step": 3370
    },
    {
      "epoch": 0.394091546006539,
      "grad_norm": 0.7633653352248395,
      "learning_rate": 3.694301768689603e-05,
      "loss": 0.6917,
      "step": 3375
    },
    {
      "epoch": 0.3946753853339561,
      "grad_norm": 0.7314601602571308,
      "learning_rate": 3.690356602896368e-05,
      "loss": 0.6982,
      "step": 3380
    },
    {
      "epoch": 0.3952592246613732,
      "grad_norm": 0.8403954593326415,
      "learning_rate": 3.686407931061386e-05,
      "loss": 0.6769,
      "step": 3385
    },
    {
      "epoch": 0.39584306398879027,
      "grad_norm": 0.747466874618807,
      "learning_rate": 3.682455767906954e-05,
      "loss": 0.6928,
      "step": 3390
    },
    {
      "epoch": 0.3964269033162074,
      "grad_norm": 0.6767936645773085,
      "learning_rate": 3.678500128168384e-05,
      "loss": 0.6744,
      "step": 3395
    },
    {
      "epoch": 0.39701074264362446,
      "grad_norm": 0.7332913208913894,
      "learning_rate": 3.674541026593952e-05,
      "loss": 0.6872,
      "step": 3400
    },
    {
      "epoch": 0.3975945819710416,
      "grad_norm": 0.6812167590557383,
      "learning_rate": 3.6705784779448405e-05,
      "loss": 0.6771,
      "step": 3405
    },
    {
      "epoch": 0.39817842129845865,
      "grad_norm": 0.6245513451979265,
      "learning_rate": 3.6666124969950835e-05,
      "loss": 0.6834,
      "step": 3410
    },
    {
      "epoch": 0.3987622606258758,
      "grad_norm": 0.6561995817045527,
      "learning_rate": 3.662643098531513e-05,
      "loss": 0.6942,
      "step": 3415
    },
    {
      "epoch": 0.39934609995329284,
      "grad_norm": 0.7088078943293247,
      "learning_rate": 3.6586702973537025e-05,
      "loss": 0.6921,
      "step": 3420
    },
    {
      "epoch": 0.39992993928070997,
      "grad_norm": 0.6426536532575015,
      "learning_rate": 3.654694108273912e-05,
      "loss": 0.6696,
      "step": 3425
    },
    {
      "epoch": 0.40051377860812704,
      "grad_norm": 0.6457654101479425,
      "learning_rate": 3.6507145461170345e-05,
      "loss": 0.6657,
      "step": 3430
    },
    {
      "epoch": 0.40109761793554416,
      "grad_norm": 0.7405170378891968,
      "learning_rate": 3.646731625720537e-05,
      "loss": 0.6714,
      "step": 3435
    },
    {
      "epoch": 0.40168145726296123,
      "grad_norm": 0.722411587375372,
      "learning_rate": 3.642745361934408e-05,
      "loss": 0.6947,
      "step": 3440
    },
    {
      "epoch": 0.40226529659037835,
      "grad_norm": 0.7570639839348096,
      "learning_rate": 3.638755769621104e-05,
      "loss": 0.6937,
      "step": 3445
    },
    {
      "epoch": 0.4028491359177954,
      "grad_norm": 0.6831672177275794,
      "learning_rate": 3.634762863655487e-05,
      "loss": 0.682,
      "step": 3450
    },
    {
      "epoch": 0.40343297524521254,
      "grad_norm": 0.7543450989841435,
      "learning_rate": 3.630766658924779e-05,
      "loss": 0.6977,
      "step": 3455
    },
    {
      "epoch": 0.4040168145726296,
      "grad_norm": 0.6552784947688012,
      "learning_rate": 3.6267671703284963e-05,
      "loss": 0.6912,
      "step": 3460
    },
    {
      "epoch": 0.4046006539000467,
      "grad_norm": 0.8909899789769518,
      "learning_rate": 3.6227644127784026e-05,
      "loss": 0.6987,
      "step": 3465
    },
    {
      "epoch": 0.4051844932274638,
      "grad_norm": 0.7456834932185622,
      "learning_rate": 3.618758401198447e-05,
      "loss": 0.6829,
      "step": 3470
    },
    {
      "epoch": 0.4057683325548809,
      "grad_norm": 0.8023255073012434,
      "learning_rate": 3.6147491505247124e-05,
      "loss": 0.6904,
      "step": 3475
    },
    {
      "epoch": 0.406352171882298,
      "grad_norm": 0.6740423733656838,
      "learning_rate": 3.6107366757053586e-05,
      "loss": 0.6916,
      "step": 3480
    },
    {
      "epoch": 0.40693601120971507,
      "grad_norm": 0.7245632825508872,
      "learning_rate": 3.606720991700565e-05,
      "loss": 0.6972,
      "step": 3485
    },
    {
      "epoch": 0.4075198505371322,
      "grad_norm": 0.6922520102615611,
      "learning_rate": 3.602702113482477e-05,
      "loss": 0.692,
      "step": 3490
    },
    {
      "epoch": 0.40810368986454926,
      "grad_norm": 0.7075741705174543,
      "learning_rate": 3.59868005603515e-05,
      "loss": 0.6982,
      "step": 3495
    },
    {
      "epoch": 0.4086875291919664,
      "grad_norm": 0.6844993230920785,
      "learning_rate": 3.5946548343544925e-05,
      "loss": 0.6761,
      "step": 3500
    },
    {
      "epoch": 0.40927136851938345,
      "grad_norm": 0.663357862984397,
      "learning_rate": 3.5906264634482084e-05,
      "loss": 0.6762,
      "step": 3505
    },
    {
      "epoch": 0.4098552078468006,
      "grad_norm": 0.6834924687016519,
      "learning_rate": 3.586594958335747e-05,
      "loss": 0.68,
      "step": 3510
    },
    {
      "epoch": 0.41043904717421764,
      "grad_norm": 0.6593085285066986,
      "learning_rate": 3.582560334048241e-05,
      "loss": 0.6754,
      "step": 3515
    },
    {
      "epoch": 0.41102288650163477,
      "grad_norm": 0.6908960562089073,
      "learning_rate": 3.578522605628453e-05,
      "loss": 0.6654,
      "step": 3520
    },
    {
      "epoch": 0.41160672582905183,
      "grad_norm": 0.6399414636774441,
      "learning_rate": 3.5744817881307184e-05,
      "loss": 0.6801,
      "step": 3525
    },
    {
      "epoch": 0.41219056515646896,
      "grad_norm": 0.6935459398136206,
      "learning_rate": 3.570437896620891e-05,
      "loss": 0.6823,
      "step": 3530
    },
    {
      "epoch": 0.412774404483886,
      "grad_norm": 0.6936385265984067,
      "learning_rate": 3.566390946176286e-05,
      "loss": 0.6966,
      "step": 3535
    },
    {
      "epoch": 0.41335824381130315,
      "grad_norm": 0.733685837451808,
      "learning_rate": 3.5623409518856225e-05,
      "loss": 0.7024,
      "step": 3540
    },
    {
      "epoch": 0.4139420831387202,
      "grad_norm": 0.6476767995892281,
      "learning_rate": 3.55828792884897e-05,
      "loss": 0.6945,
      "step": 3545
    },
    {
      "epoch": 0.41452592246613734,
      "grad_norm": 0.7048321026918248,
      "learning_rate": 3.5542318921776886e-05,
      "loss": 0.6824,
      "step": 3550
    },
    {
      "epoch": 0.4151097617935544,
      "grad_norm": 0.626231298342904,
      "learning_rate": 3.5501728569943746e-05,
      "loss": 0.6798,
      "step": 3555
    },
    {
      "epoch": 0.41569360112097153,
      "grad_norm": 0.7000118781897608,
      "learning_rate": 3.546110838432806e-05,
      "loss": 0.6767,
      "step": 3560
    },
    {
      "epoch": 0.4162774404483886,
      "grad_norm": 0.7861580029223385,
      "learning_rate": 3.542045851637883e-05,
      "loss": 0.6767,
      "step": 3565
    },
    {
      "epoch": 0.41686127977580567,
      "grad_norm": 0.8074448945180608,
      "learning_rate": 3.53797791176557e-05,
      "loss": 0.7018,
      "step": 3570
    },
    {
      "epoch": 0.4174451191032228,
      "grad_norm": 0.7146281056667712,
      "learning_rate": 3.5339070339828466e-05,
      "loss": 0.6865,
      "step": 3575
    },
    {
      "epoch": 0.41802895843063986,
      "grad_norm": 0.7441724024271111,
      "learning_rate": 3.529833233467642e-05,
      "loss": 0.6617,
      "step": 3580
    },
    {
      "epoch": 0.418612797758057,
      "grad_norm": 0.6449017553102977,
      "learning_rate": 3.525756525408785e-05,
      "loss": 0.6938,
      "step": 3585
    },
    {
      "epoch": 0.41919663708547406,
      "grad_norm": 0.7257859088018427,
      "learning_rate": 3.521676925005945e-05,
      "loss": 0.6899,
      "step": 3590
    },
    {
      "epoch": 0.4197804764128912,
      "grad_norm": 0.7124825002659122,
      "learning_rate": 3.517594447469572e-05,
      "loss": 0.6744,
      "step": 3595
    },
    {
      "epoch": 0.42036431574030825,
      "grad_norm": 0.634046926253278,
      "learning_rate": 3.513509108020846e-05,
      "loss": 0.6927,
      "step": 3600
    },
    {
      "epoch": 0.42094815506772537,
      "grad_norm": 0.6432772267862358,
      "learning_rate": 3.5094209218916185e-05,
      "loss": 0.6775,
      "step": 3605
    },
    {
      "epoch": 0.42153199439514244,
      "grad_norm": 0.6879752638775296,
      "learning_rate": 3.505329904324351e-05,
      "loss": 0.6728,
      "step": 3610
    },
    {
      "epoch": 0.42211583372255956,
      "grad_norm": 0.7595999082326345,
      "learning_rate": 3.501236070572066e-05,
      "loss": 0.6768,
      "step": 3615
    },
    {
      "epoch": 0.42269967304997663,
      "grad_norm": 0.6505503285843467,
      "learning_rate": 3.497139435898283e-05,
      "loss": 0.6849,
      "step": 3620
    },
    {
      "epoch": 0.42328351237739376,
      "grad_norm": 0.6499660319606886,
      "learning_rate": 3.4930400155769644e-05,
      "loss": 0.6754,
      "step": 3625
    },
    {
      "epoch": 0.4238673517048108,
      "grad_norm": 0.6251892497211252,
      "learning_rate": 3.488937824892461e-05,
      "loss": 0.697,
      "step": 3630
    },
    {
      "epoch": 0.42445119103222795,
      "grad_norm": 0.6581284790376016,
      "learning_rate": 3.48483287913945e-05,
      "loss": 0.6965,
      "step": 3635
    },
    {
      "epoch": 0.425035030359645,
      "grad_norm": 0.6744230932975706,
      "learning_rate": 3.480725193622881e-05,
      "loss": 0.6751,
      "step": 3640
    },
    {
      "epoch": 0.42561886968706214,
      "grad_norm": 0.6793166788586336,
      "learning_rate": 3.476614783657922e-05,
      "loss": 0.7013,
      "step": 3645
    },
    {
      "epoch": 0.4262027090144792,
      "grad_norm": 0.6669494613932773,
      "learning_rate": 3.472501664569894e-05,
      "loss": 0.6886,
      "step": 3650
    },
    {
      "epoch": 0.42678654834189633,
      "grad_norm": 0.6252882985306817,
      "learning_rate": 3.468385851694222e-05,
      "loss": 0.6863,
      "step": 3655
    },
    {
      "epoch": 0.4273703876693134,
      "grad_norm": 0.7019249203412884,
      "learning_rate": 3.464267360376373e-05,
      "loss": 0.6798,
      "step": 3660
    },
    {
      "epoch": 0.4279542269967305,
      "grad_norm": 0.6806791026761212,
      "learning_rate": 3.460146205971802e-05,
      "loss": 0.6948,
      "step": 3665
    },
    {
      "epoch": 0.4285380663241476,
      "grad_norm": 0.6241325042876864,
      "learning_rate": 3.456022403845891e-05,
      "loss": 0.6864,
      "step": 3670
    },
    {
      "epoch": 0.4291219056515647,
      "grad_norm": 0.7118272522580762,
      "learning_rate": 3.4518959693738944e-05,
      "loss": 0.6782,
      "step": 3675
    },
    {
      "epoch": 0.4297057449789818,
      "grad_norm": 0.6972804885973292,
      "learning_rate": 3.4477669179408834e-05,
      "loss": 0.6826,
      "step": 3680
    },
    {
      "epoch": 0.43028958430639885,
      "grad_norm": 0.734923021450161,
      "learning_rate": 3.443635264941682e-05,
      "loss": 0.6834,
      "step": 3685
    },
    {
      "epoch": 0.430873423633816,
      "grad_norm": 0.6523407996281446,
      "learning_rate": 3.4395010257808185e-05,
      "loss": 0.6871,
      "step": 3690
    },
    {
      "epoch": 0.43145726296123305,
      "grad_norm": 0.6589822288230873,
      "learning_rate": 3.43536421587246e-05,
      "loss": 0.6964,
      "step": 3695
    },
    {
      "epoch": 0.43204110228865017,
      "grad_norm": 0.6714736680537675,
      "learning_rate": 3.431224850640361e-05,
      "loss": 0.6807,
      "step": 3700
    },
    {
      "epoch": 0.43262494161606724,
      "grad_norm": 0.6798905897218975,
      "learning_rate": 3.427082945517801e-05,
      "loss": 0.6751,
      "step": 3705
    },
    {
      "epoch": 0.43320878094348436,
      "grad_norm": 0.6499474511854968,
      "learning_rate": 3.422938515947531e-05,
      "loss": 0.67,
      "step": 3710
    },
    {
      "epoch": 0.43379262027090143,
      "grad_norm": 0.621575208209989,
      "learning_rate": 3.418791577381713e-05,
      "loss": 0.6763,
      "step": 3715
    },
    {
      "epoch": 0.43437645959831855,
      "grad_norm": 0.7243770387236024,
      "learning_rate": 3.4146421452818657e-05,
      "loss": 0.6989,
      "step": 3720
    },
    {
      "epoch": 0.4349602989257356,
      "grad_norm": 0.6610910256831685,
      "learning_rate": 3.4104902351188e-05,
      "loss": 0.679,
      "step": 3725
    },
    {
      "epoch": 0.43554413825315275,
      "grad_norm": 0.6531424740316809,
      "learning_rate": 3.406335862372573e-05,
      "loss": 0.6683,
      "step": 3730
    },
    {
      "epoch": 0.4361279775805698,
      "grad_norm": 0.7388404354779999,
      "learning_rate": 3.402179042532417e-05,
      "loss": 0.6895,
      "step": 3735
    },
    {
      "epoch": 0.43671181690798694,
      "grad_norm": 0.6570601621253606,
      "learning_rate": 3.3980197910966915e-05,
      "loss": 0.6855,
      "step": 3740
    },
    {
      "epoch": 0.437295656235404,
      "grad_norm": 0.6882979008253807,
      "learning_rate": 3.3938581235728214e-05,
      "loss": 0.6727,
      "step": 3745
    },
    {
      "epoch": 0.43787949556282113,
      "grad_norm": 0.6360394378243861,
      "learning_rate": 3.389694055477238e-05,
      "loss": 0.6942,
      "step": 3750
    },
    {
      "epoch": 0.4384633348902382,
      "grad_norm": 0.6630358815549592,
      "learning_rate": 3.385527602335327e-05,
      "loss": 0.6459,
      "step": 3755
    },
    {
      "epoch": 0.4390471742176553,
      "grad_norm": 0.6293041537091805,
      "learning_rate": 3.381358779681362e-05,
      "loss": 0.6707,
      "step": 3760
    },
    {
      "epoch": 0.4396310135450724,
      "grad_norm": 0.6518689521648657,
      "learning_rate": 3.377187603058454e-05,
      "loss": 0.6858,
      "step": 3765
    },
    {
      "epoch": 0.4402148528724895,
      "grad_norm": 0.721640342120163,
      "learning_rate": 3.373014088018489e-05,
      "loss": 0.702,
      "step": 3770
    },
    {
      "epoch": 0.4407986921999066,
      "grad_norm": 0.6236090703227648,
      "learning_rate": 3.3688382501220727e-05,
      "loss": 0.6691,
      "step": 3775
    },
    {
      "epoch": 0.4413825315273237,
      "grad_norm": 0.7348340644041736,
      "learning_rate": 3.364660104938472e-05,
      "loss": 0.6894,
      "step": 3780
    },
    {
      "epoch": 0.4419663708547408,
      "grad_norm": 0.7284618161561375,
      "learning_rate": 3.3604796680455546e-05,
      "loss": 0.7028,
      "step": 3785
    },
    {
      "epoch": 0.44255021018215784,
      "grad_norm": 0.6364473797128645,
      "learning_rate": 3.356296955029733e-05,
      "loss": 0.6783,
      "step": 3790
    },
    {
      "epoch": 0.44313404950957497,
      "grad_norm": 0.6779869540793965,
      "learning_rate": 3.3521119814859063e-05,
      "loss": 0.6838,
      "step": 3795
    },
    {
      "epoch": 0.44371788883699204,
      "grad_norm": 0.6074968287383505,
      "learning_rate": 3.347924763017403e-05,
      "loss": 0.6713,
      "step": 3800
    },
    {
      "epoch": 0.44430172816440916,
      "grad_norm": 0.6605903491808311,
      "learning_rate": 3.3437353152359195e-05,
      "loss": 0.6764,
      "step": 3805
    },
    {
      "epoch": 0.44488556749182623,
      "grad_norm": 0.6650848208031424,
      "learning_rate": 3.339543653761466e-05,
      "loss": 0.6849,
      "step": 3810
    },
    {
      "epoch": 0.44546940681924335,
      "grad_norm": 0.696409487160532,
      "learning_rate": 3.335349794222304e-05,
      "loss": 0.6732,
      "step": 3815
    },
    {
      "epoch": 0.4460532461466604,
      "grad_norm": 0.6826813844096611,
      "learning_rate": 3.331153752254893e-05,
      "loss": 0.6954,
      "step": 3820
    },
    {
      "epoch": 0.44663708547407754,
      "grad_norm": 0.7001544241959847,
      "learning_rate": 3.326955543503827e-05,
      "loss": 0.7036,
      "step": 3825
    },
    {
      "epoch": 0.4472209248014946,
      "grad_norm": 0.708253678105146,
      "learning_rate": 3.322755183621779e-05,
      "loss": 0.6756,
      "step": 3830
    },
    {
      "epoch": 0.44780476412891174,
      "grad_norm": 0.7002269675727447,
      "learning_rate": 3.318552688269446e-05,
      "loss": 0.6694,
      "step": 3835
    },
    {
      "epoch": 0.4483886034563288,
      "grad_norm": 0.71437997612647,
      "learning_rate": 3.314348073115481e-05,
      "loss": 0.6839,
      "step": 3840
    },
    {
      "epoch": 0.44897244278374593,
      "grad_norm": 0.6324613379256642,
      "learning_rate": 3.310141353836446e-05,
      "loss": 0.6881,
      "step": 3845
    },
    {
      "epoch": 0.449556282111163,
      "grad_norm": 0.722441314751814,
      "learning_rate": 3.305932546116743e-05,
      "loss": 0.6787,
      "step": 3850
    },
    {
      "epoch": 0.4501401214385801,
      "grad_norm": 0.6536803096515039,
      "learning_rate": 3.301721665648566e-05,
      "loss": 0.6967,
      "step": 3855
    },
    {
      "epoch": 0.4507239607659972,
      "grad_norm": 0.6797978945571883,
      "learning_rate": 3.297508728131832e-05,
      "loss": 0.6738,
      "step": 3860
    },
    {
      "epoch": 0.4513078000934143,
      "grad_norm": 0.7092983307165541,
      "learning_rate": 3.29329374927413e-05,
      "loss": 0.684,
      "step": 3865
    },
    {
      "epoch": 0.4518916394208314,
      "grad_norm": 0.6438253823064166,
      "learning_rate": 3.2890767447906615e-05,
      "loss": 0.6702,
      "step": 3870
    },
    {
      "epoch": 0.4524754787482485,
      "grad_norm": 0.6771145985577135,
      "learning_rate": 3.284857730404176e-05,
      "loss": 0.6741,
      "step": 3875
    },
    {
      "epoch": 0.4530593180756656,
      "grad_norm": 0.7049524098486649,
      "learning_rate": 3.2806367218449216e-05,
      "loss": 0.68,
      "step": 3880
    },
    {
      "epoch": 0.4536431574030827,
      "grad_norm": 0.7689565685544832,
      "learning_rate": 3.2764137348505785e-05,
      "loss": 0.6771,
      "step": 3885
    },
    {
      "epoch": 0.45422699673049977,
      "grad_norm": 0.7184216342968225,
      "learning_rate": 3.2721887851662044e-05,
      "loss": 0.6691,
      "step": 3890
    },
    {
      "epoch": 0.45481083605791683,
      "grad_norm": 1.0037489244304667,
      "learning_rate": 3.267961888544173e-05,
      "loss": 0.6869,
      "step": 3895
    },
    {
      "epoch": 0.45539467538533396,
      "grad_norm": 0.6392092275759652,
      "learning_rate": 3.263733060744121e-05,
      "loss": 0.6768,
      "step": 3900
    },
    {
      "epoch": 0.455978514712751,
      "grad_norm": 0.7279101918913876,
      "learning_rate": 3.25950231753288e-05,
      "loss": 0.6694,
      "step": 3905
    },
    {
      "epoch": 0.45656235404016815,
      "grad_norm": 0.6380599876186313,
      "learning_rate": 3.255269674684427e-05,
      "loss": 0.6965,
      "step": 3910
    },
    {
      "epoch": 0.4571461933675852,
      "grad_norm": 1.1241632593541853,
      "learning_rate": 3.2510351479798214e-05,
      "loss": 0.6528,
      "step": 3915
    },
    {
      "epoch": 0.45773003269500234,
      "grad_norm": 0.7377068542020085,
      "learning_rate": 3.2467987532071436e-05,
      "loss": 0.6758,
      "step": 3920
    },
    {
      "epoch": 0.4583138720224194,
      "grad_norm": 0.7636434619576733,
      "learning_rate": 3.242560506161442e-05,
      "loss": 0.6755,
      "step": 3925
    },
    {
      "epoch": 0.45889771134983653,
      "grad_norm": 0.7539143479823989,
      "learning_rate": 3.2383204226446706e-05,
      "loss": 0.6873,
      "step": 3930
    },
    {
      "epoch": 0.4594815506772536,
      "grad_norm": 0.7306998933828304,
      "learning_rate": 3.234078518465628e-05,
      "loss": 0.6913,
      "step": 3935
    },
    {
      "epoch": 0.4600653900046707,
      "grad_norm": 0.6947217093339101,
      "learning_rate": 3.229834809439904e-05,
      "loss": 0.6798,
      "step": 3940
    },
    {
      "epoch": 0.4606492293320878,
      "grad_norm": 0.7803653857617466,
      "learning_rate": 3.225589311389816e-05,
      "loss": 0.6761,
      "step": 3945
    },
    {
      "epoch": 0.4612330686595049,
      "grad_norm": 0.6901357785716413,
      "learning_rate": 3.221342040144352e-05,
      "loss": 0.685,
      "step": 3950
    },
    {
      "epoch": 0.461816907986922,
      "grad_norm": 0.6654140453249453,
      "learning_rate": 3.217093011539111e-05,
      "loss": 0.6895,
      "step": 3955
    },
    {
      "epoch": 0.4624007473143391,
      "grad_norm": 0.7594359234519504,
      "learning_rate": 3.2128422414162454e-05,
      "loss": 0.681,
      "step": 3960
    },
    {
      "epoch": 0.4629845866417562,
      "grad_norm": 0.6334597443860617,
      "learning_rate": 3.2085897456243986e-05,
      "loss": 0.679,
      "step": 3965
    },
    {
      "epoch": 0.4635684259691733,
      "grad_norm": 0.734979838291988,
      "learning_rate": 3.204335540018649e-05,
      "loss": 0.6755,
      "step": 3970
    },
    {
      "epoch": 0.46415226529659037,
      "grad_norm": 0.6136264666954013,
      "learning_rate": 3.200079640460451e-05,
      "loss": 0.68,
      "step": 3975
    },
    {
      "epoch": 0.4647361046240075,
      "grad_norm": 0.6453670043694373,
      "learning_rate": 3.195822062817573e-05,
      "loss": 0.6635,
      "step": 3980
    },
    {
      "epoch": 0.46531994395142456,
      "grad_norm": 0.6362575487106,
      "learning_rate": 3.191562822964041e-05,
      "loss": 0.6996,
      "step": 3985
    },
    {
      "epoch": 0.4659037832788417,
      "grad_norm": 0.6409760600871875,
      "learning_rate": 3.187301936780079e-05,
      "loss": 0.6537,
      "step": 3990
    },
    {
      "epoch": 0.46648762260625876,
      "grad_norm": 0.6559646351695331,
      "learning_rate": 3.183039420152047e-05,
      "loss": 0.6832,
      "step": 3995
    },
    {
      "epoch": 0.4670714619336759,
      "grad_norm": 0.6018024828748533,
      "learning_rate": 3.178775288972386e-05,
      "loss": 0.681,
      "step": 4000
    },
    {
      "epoch": 0.46765530126109295,
      "grad_norm": 0.6377120529644873,
      "learning_rate": 3.174509559139556e-05,
      "loss": 0.685,
      "step": 4005
    },
    {
      "epoch": 0.46823914058851,
      "grad_norm": 0.6400426176086523,
      "learning_rate": 3.170242246557978e-05,
      "loss": 0.6784,
      "step": 4010
    },
    {
      "epoch": 0.46882297991592714,
      "grad_norm": 0.6640252613798415,
      "learning_rate": 3.1659733671379735e-05,
      "loss": 0.6856,
      "step": 4015
    },
    {
      "epoch": 0.4694068192433442,
      "grad_norm": 0.646288274877907,
      "learning_rate": 3.1617029367957053e-05,
      "loss": 0.6579,
      "step": 4020
    },
    {
      "epoch": 0.46999065857076133,
      "grad_norm": 0.6953884425787434,
      "learning_rate": 3.1574309714531195e-05,
      "loss": 0.6812,
      "step": 4025
    },
    {
      "epoch": 0.4705744978981784,
      "grad_norm": 0.6389292862822579,
      "learning_rate": 3.153157487037887e-05,
      "loss": 0.658,
      "step": 4030
    },
    {
      "epoch": 0.4711583372255955,
      "grad_norm": 0.6192373540978041,
      "learning_rate": 3.1488824994833395e-05,
      "loss": 0.6719,
      "step": 4035
    },
    {
      "epoch": 0.4717421765530126,
      "grad_norm": 0.677062843729221,
      "learning_rate": 3.1446060247284134e-05,
      "loss": 0.6748,
      "step": 4040
    },
    {
      "epoch": 0.4723260158804297,
      "grad_norm": 0.7002790776981689,
      "learning_rate": 3.140328078717591e-05,
      "loss": 0.6835,
      "step": 4045
    },
    {
      "epoch": 0.4729098552078468,
      "grad_norm": 0.684084141492704,
      "learning_rate": 3.1360486774008415e-05,
      "loss": 0.6788,
      "step": 4050
    },
    {
      "epoch": 0.4734936945352639,
      "grad_norm": 0.6127438339585026,
      "learning_rate": 3.131767836733556e-05,
      "loss": 0.6837,
      "step": 4055
    },
    {
      "epoch": 0.474077533862681,
      "grad_norm": 0.6533785884118601,
      "learning_rate": 3.127485572676496e-05,
      "loss": 0.6717,
      "step": 4060
    },
    {
      "epoch": 0.4746613731900981,
      "grad_norm": 0.7442708321520219,
      "learning_rate": 3.1232019011957294e-05,
      "loss": 0.6678,
      "step": 4065
    },
    {
      "epoch": 0.47524521251751517,
      "grad_norm": 0.6987027444038157,
      "learning_rate": 3.118916838262568e-05,
      "loss": 0.6608,
      "step": 4070
    },
    {
      "epoch": 0.4758290518449323,
      "grad_norm": 0.6241023108030676,
      "learning_rate": 3.114630399853517e-05,
      "loss": 0.6651,
      "step": 4075
    },
    {
      "epoch": 0.47641289117234936,
      "grad_norm": 0.6189067007303835,
      "learning_rate": 3.1103426019502055e-05,
      "loss": 0.6556,
      "step": 4080
    },
    {
      "epoch": 0.4769967304997665,
      "grad_norm": 0.712436710640221,
      "learning_rate": 3.1060534605393345e-05,
      "loss": 0.6905,
      "step": 4085
    },
    {
      "epoch": 0.47758056982718355,
      "grad_norm": 0.641440082239808,
      "learning_rate": 3.101762991612611e-05,
      "loss": 0.6741,
      "step": 4090
    },
    {
      "epoch": 0.4781644091546007,
      "grad_norm": 0.8062934249889537,
      "learning_rate": 3.0974712111666935e-05,
      "loss": 0.6852,
      "step": 4095
    },
    {
      "epoch": 0.47874824848201775,
      "grad_norm": 0.6820374065368244,
      "learning_rate": 3.09317813520313e-05,
      "loss": 0.6934,
      "step": 4100
    },
    {
      "epoch": 0.47933208780943487,
      "grad_norm": 0.6752506606689288,
      "learning_rate": 3.0888837797283005e-05,
      "loss": 0.6825,
      "step": 4105
    },
    {
      "epoch": 0.47991592713685194,
      "grad_norm": 0.699965080274038,
      "learning_rate": 3.0845881607533524e-05,
      "loss": 0.6767,
      "step": 4110
    },
    {
      "epoch": 0.480499766464269,
      "grad_norm": 0.654159080249834,
      "learning_rate": 3.0802912942941453e-05,
      "loss": 0.683,
      "step": 4115
    },
    {
      "epoch": 0.48108360579168613,
      "grad_norm": 0.6442413472135359,
      "learning_rate": 3.0759931963711913e-05,
      "loss": 0.678,
      "step": 4120
    },
    {
      "epoch": 0.4816674451191032,
      "grad_norm": 0.7381324903332581,
      "learning_rate": 3.071693883009591e-05,
      "loss": 0.683,
      "step": 4125
    },
    {
      "epoch": 0.4822512844465203,
      "grad_norm": 0.6457233216074335,
      "learning_rate": 3.06739337023898e-05,
      "loss": 0.6736,
      "step": 4130
    },
    {
      "epoch": 0.4828351237739374,
      "grad_norm": 0.7359729311119515,
      "learning_rate": 3.0630916740934626e-05,
      "loss": 0.6757,
      "step": 4135
    },
    {
      "epoch": 0.4834189631013545,
      "grad_norm": 0.6233470516611314,
      "learning_rate": 3.058788810611558e-05,
      "loss": 0.67,
      "step": 4140
    },
    {
      "epoch": 0.4840028024287716,
      "grad_norm": 1.0294485166376433,
      "learning_rate": 3.054484795836136e-05,
      "loss": 0.6768,
      "step": 4145
    },
    {
      "epoch": 0.4845866417561887,
      "grad_norm": 0.680402589218942,
      "learning_rate": 3.0501796458143593e-05,
      "loss": 0.674,
      "step": 4150
    },
    {
      "epoch": 0.4851704810836058,
      "grad_norm": 0.6623427781284357,
      "learning_rate": 3.045873376597624e-05,
      "loss": 0.6673,
      "step": 4155
    },
    {
      "epoch": 0.4857543204110229,
      "grad_norm": 0.767286105688504,
      "learning_rate": 3.041566004241498e-05,
      "loss": 0.6651,
      "step": 4160
    },
    {
      "epoch": 0.48633815973843997,
      "grad_norm": 0.6849899087779138,
      "learning_rate": 3.037257544805661e-05,
      "loss": 0.6694,
      "step": 4165
    },
    {
      "epoch": 0.4869219990658571,
      "grad_norm": 0.6409872957590486,
      "learning_rate": 3.0329480143538498e-05,
      "loss": 0.6811,
      "step": 4170
    },
    {
      "epoch": 0.48750583839327416,
      "grad_norm": 0.7215248798470533,
      "learning_rate": 3.0286374289537912e-05,
      "loss": 0.6435,
      "step": 4175
    },
    {
      "epoch": 0.4880896777206913,
      "grad_norm": 0.6092177315893011,
      "learning_rate": 3.0243258046771446e-05,
      "loss": 0.6668,
      "step": 4180
    },
    {
      "epoch": 0.48867351704810835,
      "grad_norm": 0.7112159612723071,
      "learning_rate": 3.0200131575994456e-05,
      "loss": 0.6849,
      "step": 4185
    },
    {
      "epoch": 0.4892573563755255,
      "grad_norm": 0.650423693744085,
      "learning_rate": 3.0156995038000418e-05,
      "loss": 0.6553,
      "step": 4190
    },
    {
      "epoch": 0.48984119570294254,
      "grad_norm": 0.6800090154074253,
      "learning_rate": 3.011384859362034e-05,
      "loss": 0.6785,
      "step": 4195
    },
    {
      "epoch": 0.49042503503035967,
      "grad_norm": 0.7750493391037397,
      "learning_rate": 3.0070692403722162e-05,
      "loss": 0.6877,
      "step": 4200
    },
    {
      "epoch": 0.49100887435777674,
      "grad_norm": 0.652952148206805,
      "learning_rate": 3.002752662921018e-05,
      "loss": 0.6917,
      "step": 4205
    },
    {
      "epoch": 0.49159271368519386,
      "grad_norm": 0.702734786226677,
      "learning_rate": 2.9984351431024394e-05,
      "loss": 0.67,
      "step": 4210
    },
    {
      "epoch": 0.49217655301261093,
      "grad_norm": 0.616359579386879,
      "learning_rate": 2.9941166970139968e-05,
      "loss": 0.6465,
      "step": 4215
    },
    {
      "epoch": 0.492760392340028,
      "grad_norm": 0.6803956080030293,
      "learning_rate": 2.9897973407566583e-05,
      "loss": 0.6648,
      "step": 4220
    },
    {
      "epoch": 0.4933442316674451,
      "grad_norm": 0.7410062068580452,
      "learning_rate": 2.985477090434786e-05,
      "loss": 0.6878,
      "step": 4225
    },
    {
      "epoch": 0.4939280709948622,
      "grad_norm": 0.6690192640617082,
      "learning_rate": 2.9811559621560765e-05,
      "loss": 0.679,
      "step": 4230
    },
    {
      "epoch": 0.4945119103222793,
      "grad_norm": 0.7463974638227667,
      "learning_rate": 2.976833972031498e-05,
      "loss": 0.6542,
      "step": 4235
    },
    {
      "epoch": 0.4950957496496964,
      "grad_norm": 0.636239524473288,
      "learning_rate": 2.9725111361752333e-05,
      "loss": 0.6946,
      "step": 4240
    },
    {
      "epoch": 0.4956795889771135,
      "grad_norm": 0.643160861690113,
      "learning_rate": 2.968187470704618e-05,
      "loss": 0.6665,
      "step": 4245
    },
    {
      "epoch": 0.4962634283045306,
      "grad_norm": 0.6501656010029333,
      "learning_rate": 2.9638629917400806e-05,
      "loss": 0.6911,
      "step": 4250
    },
    {
      "epoch": 0.4968472676319477,
      "grad_norm": 0.6799041381274764,
      "learning_rate": 2.9595377154050836e-05,
      "loss": 0.6907,
      "step": 4255
    },
    {
      "epoch": 0.49743110695936477,
      "grad_norm": 0.6406866621038129,
      "learning_rate": 2.955211657826061e-05,
      "loss": 0.6823,
      "step": 4260
    },
    {
      "epoch": 0.4980149462867819,
      "grad_norm": 0.6161212623768382,
      "learning_rate": 2.9508848351323597e-05,
      "loss": 0.6551,
      "step": 4265
    },
    {
      "epoch": 0.49859878561419896,
      "grad_norm": 0.6815666894559284,
      "learning_rate": 2.9465572634561815e-05,
      "loss": 0.6844,
      "step": 4270
    },
    {
      "epoch": 0.4991826249416161,
      "grad_norm": 0.6442254841664492,
      "learning_rate": 2.9422289589325187e-05,
      "loss": 0.6706,
      "step": 4275
    },
    {
      "epoch": 0.49976646426903315,
      "grad_norm": 0.8310936243096908,
      "learning_rate": 2.9378999376990958e-05,
      "loss": 0.6448,
      "step": 4280
    },
    {
      "epoch": 0.5003503035964503,
      "grad_norm": 0.6760003318405201,
      "learning_rate": 2.9335702158963107e-05,
      "loss": 0.6605,
      "step": 4285
    },
    {
      "epoch": 0.5009341429238674,
      "grad_norm": 0.7025461997484286,
      "learning_rate": 2.929239809667172e-05,
      "loss": 0.642,
      "step": 4290
    },
    {
      "epoch": 0.5015179822512844,
      "grad_norm": 0.664276542414707,
      "learning_rate": 2.9249087351572414e-05,
      "loss": 0.6882,
      "step": 4295
    },
    {
      "epoch": 0.5021018215787015,
      "grad_norm": 0.6645716985768038,
      "learning_rate": 2.9205770085145716e-05,
      "loss": 0.6899,
      "step": 4300
    },
    {
      "epoch": 0.5026856609061187,
      "grad_norm": 0.6880641459644484,
      "learning_rate": 2.916244645889647e-05,
      "loss": 0.6748,
      "step": 4305
    },
    {
      "epoch": 0.5032695002335358,
      "grad_norm": 1.1945610733947678,
      "learning_rate": 2.911911663435322e-05,
      "loss": 0.661,
      "step": 4310
    },
    {
      "epoch": 0.5038533395609528,
      "grad_norm": 0.706990728557796,
      "learning_rate": 2.9075780773067644e-05,
      "loss": 0.6545,
      "step": 4315
    },
    {
      "epoch": 0.5044371788883699,
      "grad_norm": 0.7181341291853678,
      "learning_rate": 2.9032439036613907e-05,
      "loss": 0.692,
      "step": 4320
    },
    {
      "epoch": 0.505021018215787,
      "grad_norm": 0.6447564749525979,
      "learning_rate": 2.8989091586588085e-05,
      "loss": 0.6708,
      "step": 4325
    },
    {
      "epoch": 0.5056048575432041,
      "grad_norm": 0.5977179669644185,
      "learning_rate": 2.894573858460755e-05,
      "loss": 0.6742,
      "step": 4330
    },
    {
      "epoch": 0.5061886968706212,
      "grad_norm": 0.7458347028703832,
      "learning_rate": 2.8902380192310392e-05,
      "loss": 0.6634,
      "step": 4335
    },
    {
      "epoch": 0.5067725361980383,
      "grad_norm": 0.7177340143136662,
      "learning_rate": 2.8859016571354778e-05,
      "loss": 0.6672,
      "step": 4340
    },
    {
      "epoch": 0.5073563755254554,
      "grad_norm": 0.682261699673471,
      "learning_rate": 2.881564788341839e-05,
      "loss": 0.6853,
      "step": 4345
    },
    {
      "epoch": 0.5079402148528724,
      "grad_norm": 0.6182174980938593,
      "learning_rate": 2.877227429019778e-05,
      "loss": 0.6674,
      "step": 4350
    },
    {
      "epoch": 0.5085240541802896,
      "grad_norm": 0.6532096511243414,
      "learning_rate": 2.872889595340781e-05,
      "loss": 0.67,
      "step": 4355
    },
    {
      "epoch": 0.5091078935077067,
      "grad_norm": 0.6181422508422711,
      "learning_rate": 2.8685513034781003e-05,
      "loss": 0.6615,
      "step": 4360
    },
    {
      "epoch": 0.5096917328351238,
      "grad_norm": 0.6266040555229238,
      "learning_rate": 2.864212569606699e-05,
      "loss": 0.6608,
      "step": 4365
    },
    {
      "epoch": 0.5102755721625408,
      "grad_norm": 0.6352722725804308,
      "learning_rate": 2.8598734099031878e-05,
      "loss": 0.6561,
      "step": 4370
    },
    {
      "epoch": 0.510859411489958,
      "grad_norm": 0.6793855189516165,
      "learning_rate": 2.8555338405457628e-05,
      "loss": 0.6854,
      "step": 4375
    },
    {
      "epoch": 0.5114432508173751,
      "grad_norm": 0.6768950418408346,
      "learning_rate": 2.85119387771415e-05,
      "loss": 0.6688,
      "step": 4380
    },
    {
      "epoch": 0.5120270901447922,
      "grad_norm": 0.6580694433254123,
      "learning_rate": 2.8468535375895417e-05,
      "loss": 0.6421,
      "step": 4385
    },
    {
      "epoch": 0.5126109294722092,
      "grad_norm": 0.6538999168432518,
      "learning_rate": 2.8425128363545362e-05,
      "loss": 0.6869,
      "step": 4390
    },
    {
      "epoch": 0.5131947687996263,
      "grad_norm": 0.6158714003319267,
      "learning_rate": 2.8381717901930792e-05,
      "loss": 0.6528,
      "step": 4395
    },
    {
      "epoch": 0.5137786081270435,
      "grad_norm": 0.6279279783568744,
      "learning_rate": 2.8338304152904016e-05,
      "loss": 0.6825,
      "step": 4400
    },
    {
      "epoch": 0.5143624474544606,
      "grad_norm": 0.8185637479398602,
      "learning_rate": 2.8294887278329606e-05,
      "loss": 0.6748,
      "step": 4405
    },
    {
      "epoch": 0.5149462867818776,
      "grad_norm": 0.6541467739492082,
      "learning_rate": 2.825146744008378e-05,
      "loss": 0.6552,
      "step": 4410
    },
    {
      "epoch": 0.5155301261092947,
      "grad_norm": 0.6843236154552048,
      "learning_rate": 2.8208044800053822e-05,
      "loss": 0.7005,
      "step": 4415
    },
    {
      "epoch": 0.5161139654367118,
      "grad_norm": 0.5775959172366985,
      "learning_rate": 2.8164619520137437e-05,
      "loss": 0.6677,
      "step": 4420
    },
    {
      "epoch": 0.516697804764129,
      "grad_norm": 0.6428121987084588,
      "learning_rate": 2.8121191762242188e-05,
      "loss": 0.6664,
      "step": 4425
    },
    {
      "epoch": 0.517281644091546,
      "grad_norm": 0.6205198887681351,
      "learning_rate": 2.8077761688284886e-05,
      "loss": 0.65,
      "step": 4430
    },
    {
      "epoch": 0.5178654834189631,
      "grad_norm": 0.645133941769941,
      "learning_rate": 2.803432946019095e-05,
      "loss": 0.6677,
      "step": 4435
    },
    {
      "epoch": 0.5184493227463802,
      "grad_norm": 0.694500378663462,
      "learning_rate": 2.7990895239893866e-05,
      "loss": 0.6627,
      "step": 4440
    },
    {
      "epoch": 0.5190331620737972,
      "grad_norm": 0.6404349225526806,
      "learning_rate": 2.7947459189334514e-05,
      "loss": 0.6451,
      "step": 4445
    },
    {
      "epoch": 0.5196170014012144,
      "grad_norm": 0.6664652978552327,
      "learning_rate": 2.790402147046062e-05,
      "loss": 0.6718,
      "step": 4450
    },
    {
      "epoch": 0.5202008407286315,
      "grad_norm": 0.6931947237337528,
      "learning_rate": 2.7860582245226114e-05,
      "loss": 0.6566,
      "step": 4455
    },
    {
      "epoch": 0.5207846800560486,
      "grad_norm": 0.6405779834688036,
      "learning_rate": 2.781714167559056e-05,
      "loss": 0.6637,
      "step": 4460
    },
    {
      "epoch": 0.5213685193834656,
      "grad_norm": 0.782585563978562,
      "learning_rate": 2.7773699923518527e-05,
      "loss": 0.6783,
      "step": 4465
    },
    {
      "epoch": 0.5219523587108827,
      "grad_norm": 0.6165660688313139,
      "learning_rate": 2.7730257150978985e-05,
      "loss": 0.6786,
      "step": 4470
    },
    {
      "epoch": 0.5225361980382999,
      "grad_norm": 0.6107830822770479,
      "learning_rate": 2.7686813519944716e-05,
      "loss": 0.6735,
      "step": 4475
    },
    {
      "epoch": 0.523120037365717,
      "grad_norm": 0.6248137517649573,
      "learning_rate": 2.7643369192391705e-05,
      "loss": 0.6603,
      "step": 4480
    },
    {
      "epoch": 0.523703876693134,
      "grad_norm": 0.679269210927074,
      "learning_rate": 2.759992433029852e-05,
      "loss": 0.6714,
      "step": 4485
    },
    {
      "epoch": 0.5242877160205511,
      "grad_norm": 0.65480206508057,
      "learning_rate": 2.7556479095645753e-05,
      "loss": 0.6572,
      "step": 4490
    },
    {
      "epoch": 0.5248715553479683,
      "grad_norm": 0.6333322424967925,
      "learning_rate": 2.7513033650415352e-05,
      "loss": 0.6814,
      "step": 4495
    },
    {
      "epoch": 0.5254553946753854,
      "grad_norm": 0.6752748268520505,
      "learning_rate": 2.7469588156590065e-05,
      "loss": 0.6529,
      "step": 4500
    },
    {
      "epoch": 0.5260392340028024,
      "grad_norm": 0.6352970270986175,
      "learning_rate": 2.742614277615282e-05,
      "loss": 0.6769,
      "step": 4505
    },
    {
      "epoch": 0.5266230733302195,
      "grad_norm": 0.5979789727114955,
      "learning_rate": 2.7382697671086115e-05,
      "loss": 0.6755,
      "step": 4510
    },
    {
      "epoch": 0.5272069126576366,
      "grad_norm": 0.6076973729335945,
      "learning_rate": 2.7339253003371434e-05,
      "loss": 0.6753,
      "step": 4515
    },
    {
      "epoch": 0.5277907519850538,
      "grad_norm": 0.6802597909982014,
      "learning_rate": 2.729580893498862e-05,
      "loss": 0.6814,
      "step": 4520
    },
    {
      "epoch": 0.5283745913124708,
      "grad_norm": 0.6326424153261881,
      "learning_rate": 2.725236562791529e-05,
      "loss": 0.6576,
      "step": 4525
    },
    {
      "epoch": 0.5289584306398879,
      "grad_norm": 0.5895411638479591,
      "learning_rate": 2.7208923244126218e-05,
      "loss": 0.6681,
      "step": 4530
    },
    {
      "epoch": 0.529542269967305,
      "grad_norm": 0.6902118471733315,
      "learning_rate": 2.716548194559273e-05,
      "loss": 0.6884,
      "step": 4535
    },
    {
      "epoch": 0.5301261092947221,
      "grad_norm": 0.6336203964319361,
      "learning_rate": 2.7122041894282113e-05,
      "loss": 0.6796,
      "step": 4540
    },
    {
      "epoch": 0.5307099486221392,
      "grad_norm": 0.646528570657251,
      "learning_rate": 2.707860325215701e-05,
      "loss": 0.687,
      "step": 4545
    },
    {
      "epoch": 0.5312937879495563,
      "grad_norm": 0.6563953698422303,
      "learning_rate": 2.7035166181174786e-05,
      "loss": 0.6717,
      "step": 4550
    },
    {
      "epoch": 0.5318776272769734,
      "grad_norm": 0.6263578982587643,
      "learning_rate": 2.6991730843286985e-05,
      "loss": 0.6684,
      "step": 4555
    },
    {
      "epoch": 0.5324614666043904,
      "grad_norm": 0.7538703227143297,
      "learning_rate": 2.6948297400438654e-05,
      "loss": 0.6919,
      "step": 4560
    },
    {
      "epoch": 0.5330453059318075,
      "grad_norm": 0.6709526573941172,
      "learning_rate": 2.6904866014567792e-05,
      "loss": 0.6812,
      "step": 4565
    },
    {
      "epoch": 0.5336291452592247,
      "grad_norm": 0.7425754597552296,
      "learning_rate": 2.686143684760473e-05,
      "loss": 0.679,
      "step": 4570
    },
    {
      "epoch": 0.5342129845866418,
      "grad_norm": 0.6318974476260896,
      "learning_rate": 2.6818010061471516e-05,
      "loss": 0.6531,
      "step": 4575
    },
    {
      "epoch": 0.5347968239140588,
      "grad_norm": 0.6462920552490208,
      "learning_rate": 2.6774585818081332e-05,
      "loss": 0.6544,
      "step": 4580
    },
    {
      "epoch": 0.5353806632414759,
      "grad_norm": 0.6583779577031856,
      "learning_rate": 2.6731164279337867e-05,
      "loss": 0.6855,
      "step": 4585
    },
    {
      "epoch": 0.535964502568893,
      "grad_norm": 0.66094901945792,
      "learning_rate": 2.668774560713474e-05,
      "loss": 0.6828,
      "step": 4590
    },
    {
      "epoch": 0.5365483418963102,
      "grad_norm": 0.6454191499272093,
      "learning_rate": 2.6644329963354882e-05,
      "loss": 0.6768,
      "step": 4595
    },
    {
      "epoch": 0.5371321812237272,
      "grad_norm": 0.6423029422108348,
      "learning_rate": 2.6600917509869912e-05,
      "loss": 0.6634,
      "step": 4600
    },
    {
      "epoch": 0.5377160205511443,
      "grad_norm": 0.6120074184419095,
      "learning_rate": 2.655750840853958e-05,
      "loss": 0.6514,
      "step": 4605
    },
    {
      "epoch": 0.5382998598785614,
      "grad_norm": 0.6618483496621712,
      "learning_rate": 2.6514102821211117e-05,
      "loss": 0.6827,
      "step": 4610
    },
    {
      "epoch": 0.5388836992059786,
      "grad_norm": 0.6393827695784342,
      "learning_rate": 2.647070090971867e-05,
      "loss": 0.6705,
      "step": 4615
    },
    {
      "epoch": 0.5394675385333956,
      "grad_norm": 0.6889961180224594,
      "learning_rate": 2.6427302835882672e-05,
      "loss": 0.6517,
      "step": 4620
    },
    {
      "epoch": 0.5400513778608127,
      "grad_norm": 0.6716609039557061,
      "learning_rate": 2.6383908761509252e-05,
      "loss": 0.6571,
      "step": 4625
    },
    {
      "epoch": 0.5406352171882298,
      "grad_norm": 0.6487842275728426,
      "learning_rate": 2.634051884838961e-05,
      "loss": 0.6715,
      "step": 4630
    },
    {
      "epoch": 0.541219056515647,
      "grad_norm": 0.6320037420726218,
      "learning_rate": 2.629713325829946e-05,
      "loss": 0.6855,
      "step": 4635
    },
    {
      "epoch": 0.541802895843064,
      "grad_norm": 0.654475506494646,
      "learning_rate": 2.625375215299838e-05,
      "loss": 0.6727,
      "step": 4640
    },
    {
      "epoch": 0.5423867351704811,
      "grad_norm": 0.6258679210045515,
      "learning_rate": 2.6210375694229227e-05,
      "loss": 0.6861,
      "step": 4645
    },
    {
      "epoch": 0.5429705744978982,
      "grad_norm": 0.6658148645412844,
      "learning_rate": 2.6167004043717535e-05,
      "loss": 0.6855,
      "step": 4650
    },
    {
      "epoch": 0.5435544138253152,
      "grad_norm": 0.7529018085571549,
      "learning_rate": 2.6123637363170912e-05,
      "loss": 0.6347,
      "step": 4655
    },
    {
      "epoch": 0.5441382531527323,
      "grad_norm": 0.6507054576235803,
      "learning_rate": 2.6080275814278444e-05,
      "loss": 0.6666,
      "step": 4660
    },
    {
      "epoch": 0.5447220924801495,
      "grad_norm": 0.6127728778558662,
      "learning_rate": 2.6036919558710064e-05,
      "loss": 0.6783,
      "step": 4665
    },
    {
      "epoch": 0.5453059318075666,
      "grad_norm": 0.6683246687451804,
      "learning_rate": 2.599356875811599e-05,
      "loss": 0.6727,
      "step": 4670
    },
    {
      "epoch": 0.5458897711349836,
      "grad_norm": 0.6397245959830973,
      "learning_rate": 2.595022357412609e-05,
      "loss": 0.6412,
      "step": 4675
    },
    {
      "epoch": 0.5464736104624007,
      "grad_norm": 0.7821742087008638,
      "learning_rate": 2.59068841683493e-05,
      "loss": 0.6644,
      "step": 4680
    },
    {
      "epoch": 0.5470574497898179,
      "grad_norm": 0.7160839696281952,
      "learning_rate": 2.586355070237301e-05,
      "loss": 0.6712,
      "step": 4685
    },
    {
      "epoch": 0.547641289117235,
      "grad_norm": 0.6546505519277086,
      "learning_rate": 2.5820223337762438e-05,
      "loss": 0.6484,
      "step": 4690
    },
    {
      "epoch": 0.548225128444652,
      "grad_norm": 0.6836017954976104,
      "learning_rate": 2.5776902236060096e-05,
      "loss": 0.6635,
      "step": 4695
    },
    {
      "epoch": 0.5488089677720691,
      "grad_norm": 0.6193223946781837,
      "learning_rate": 2.5733587558785126e-05,
      "loss": 0.6706,
      "step": 4700
    },
    {
      "epoch": 0.5493928070994862,
      "grad_norm": 0.6870210502329172,
      "learning_rate": 2.569027946743271e-05,
      "loss": 0.6725,
      "step": 4705
    },
    {
      "epoch": 0.5499766464269034,
      "grad_norm": 0.7597886046577483,
      "learning_rate": 2.5646978123473477e-05,
      "loss": 0.6594,
      "step": 4710
    },
    {
      "epoch": 0.5505604857543204,
      "grad_norm": 0.6579081912335516,
      "learning_rate": 2.560368368835291e-05,
      "loss": 0.6626,
      "step": 4715
    },
    {
      "epoch": 0.5511443250817375,
      "grad_norm": 0.6748205385114101,
      "learning_rate": 2.5560396323490725e-05,
      "loss": 0.6691,
      "step": 4720
    },
    {
      "epoch": 0.5517281644091546,
      "grad_norm": 0.6372677695854689,
      "learning_rate": 2.5517116190280284e-05,
      "loss": 0.686,
      "step": 4725
    },
    {
      "epoch": 0.5523120037365717,
      "grad_norm": 0.5944092246162501,
      "learning_rate": 2.547384345008797e-05,
      "loss": 0.6758,
      "step": 4730
    },
    {
      "epoch": 0.5528958430639888,
      "grad_norm": 0.6061343724493072,
      "learning_rate": 2.5430578264252612e-05,
      "loss": 0.6704,
      "step": 4735
    },
    {
      "epoch": 0.5534796823914059,
      "grad_norm": 0.6168180686552578,
      "learning_rate": 2.538732079408489e-05,
      "loss": 0.6666,
      "step": 4740
    },
    {
      "epoch": 0.554063521718823,
      "grad_norm": 0.6591886118078801,
      "learning_rate": 2.534407120086668e-05,
      "loss": 0.6761,
      "step": 4745
    },
    {
      "epoch": 0.5546473610462401,
      "grad_norm": 0.6285893259645317,
      "learning_rate": 2.5300829645850533e-05,
      "loss": 0.6494,
      "step": 4750
    },
    {
      "epoch": 0.5552312003736571,
      "grad_norm": 0.6613463510402504,
      "learning_rate": 2.5257596290258983e-05,
      "loss": 0.6421,
      "step": 4755
    },
    {
      "epoch": 0.5558150397010743,
      "grad_norm": 0.6509470734947815,
      "learning_rate": 2.5214371295284028e-05,
      "loss": 0.6791,
      "step": 4760
    },
    {
      "epoch": 0.5563988790284914,
      "grad_norm": 0.6559471033653244,
      "learning_rate": 2.517115482208649e-05,
      "loss": 0.6499,
      "step": 4765
    },
    {
      "epoch": 0.5569827183559084,
      "grad_norm": 0.6262128494929659,
      "learning_rate": 2.5127947031795397e-05,
      "loss": 0.6598,
      "step": 4770
    },
    {
      "epoch": 0.5575665576833255,
      "grad_norm": 0.6470174794084477,
      "learning_rate": 2.5084748085507432e-05,
      "loss": 0.6661,
      "step": 4775
    },
    {
      "epoch": 0.5581503970107426,
      "grad_norm": 0.7264040252574807,
      "learning_rate": 2.5041558144286282e-05,
      "loss": 0.6742,
      "step": 4780
    },
    {
      "epoch": 0.5587342363381598,
      "grad_norm": 0.7333937929350072,
      "learning_rate": 2.499837736916207e-05,
      "loss": 0.6572,
      "step": 4785
    },
    {
      "epoch": 0.5593180756655768,
      "grad_norm": 0.6754263101679833,
      "learning_rate": 2.495520592113074e-05,
      "loss": 0.6456,
      "step": 4790
    },
    {
      "epoch": 0.5599019149929939,
      "grad_norm": 0.7090304084632133,
      "learning_rate": 2.4912043961153468e-05,
      "loss": 0.6655,
      "step": 4795
    },
    {
      "epoch": 0.560485754320411,
      "grad_norm": 0.7061385294457425,
      "learning_rate": 2.486889165015604e-05,
      "loss": 0.6637,
      "step": 4800
    },
    {
      "epoch": 0.5610695936478282,
      "grad_norm": 0.614318719517407,
      "learning_rate": 2.4825749149028277e-05,
      "loss": 0.6586,
      "step": 4805
    },
    {
      "epoch": 0.5616534329752452,
      "grad_norm": 0.6780896077775943,
      "learning_rate": 2.4782616618623428e-05,
      "loss": 0.6597,
      "step": 4810
    },
    {
      "epoch": 0.5622372723026623,
      "grad_norm": 0.682690271463293,
      "learning_rate": 2.4739494219757554e-05,
      "loss": 0.673,
      "step": 4815
    },
    {
      "epoch": 0.5628211116300794,
      "grad_norm": 0.6042977851704044,
      "learning_rate": 2.4696382113208956e-05,
      "loss": 0.6629,
      "step": 4820
    },
    {
      "epoch": 0.5634049509574965,
      "grad_norm": 0.6523864414349894,
      "learning_rate": 2.465328045971755e-05,
      "loss": 0.6627,
      "step": 4825
    },
    {
      "epoch": 0.5639887902849136,
      "grad_norm": 0.6704225986429544,
      "learning_rate": 2.4610189419984285e-05,
      "loss": 0.6718,
      "step": 4830
    },
    {
      "epoch": 0.5645726296123307,
      "grad_norm": 0.7144111554427477,
      "learning_rate": 2.4567109154670542e-05,
      "loss": 0.6583,
      "step": 4835
    },
    {
      "epoch": 0.5651564689397478,
      "grad_norm": 0.5940084029786278,
      "learning_rate": 2.452403982439751e-05,
      "loss": 0.6861,
      "step": 4840
    },
    {
      "epoch": 0.5657403082671649,
      "grad_norm": 0.6389581252882928,
      "learning_rate": 2.4480981589745632e-05,
      "loss": 0.6443,
      "step": 4845
    },
    {
      "epoch": 0.5663241475945819,
      "grad_norm": 0.6261683415598047,
      "learning_rate": 2.4437934611253972e-05,
      "loss": 0.666,
      "step": 4850
    },
    {
      "epoch": 0.5669079869219991,
      "grad_norm": 0.6293838161623035,
      "learning_rate": 2.4394899049419612e-05,
      "loss": 0.6528,
      "step": 4855
    },
    {
      "epoch": 0.5674918262494162,
      "grad_norm": 0.603682637870287,
      "learning_rate": 2.4351875064697093e-05,
      "loss": 0.6587,
      "step": 4860
    },
    {
      "epoch": 0.5680756655768333,
      "grad_norm": 0.6017431879927584,
      "learning_rate": 2.4308862817497786e-05,
      "loss": 0.6536,
      "step": 4865
    },
    {
      "epoch": 0.5686595049042503,
      "grad_norm": 0.6379759520988977,
      "learning_rate": 2.4265862468189283e-05,
      "loss": 0.6665,
      "step": 4870
    },
    {
      "epoch": 0.5692433442316674,
      "grad_norm": 0.6159240207916252,
      "learning_rate": 2.4222874177094823e-05,
      "loss": 0.6654,
      "step": 4875
    },
    {
      "epoch": 0.5698271835590846,
      "grad_norm": 0.593380408089785,
      "learning_rate": 2.4179898104492705e-05,
      "loss": 0.6483,
      "step": 4880
    },
    {
      "epoch": 0.5704110228865016,
      "grad_norm": 0.6322387205454781,
      "learning_rate": 2.4136934410615646e-05,
      "loss": 0.6616,
      "step": 4885
    },
    {
      "epoch": 0.5709948622139187,
      "grad_norm": 0.6292676873494932,
      "learning_rate": 2.4093983255650227e-05,
      "loss": 0.6547,
      "step": 4890
    },
    {
      "epoch": 0.5715787015413358,
      "grad_norm": 0.5837583585711659,
      "learning_rate": 2.405104479973628e-05,
      "loss": 0.6798,
      "step": 4895
    },
    {
      "epoch": 0.572162540868753,
      "grad_norm": 0.6041134607397431,
      "learning_rate": 2.400811920296627e-05,
      "loss": 0.6531,
      "step": 4900
    },
    {
      "epoch": 0.57274638019617,
      "grad_norm": 0.6464625146228011,
      "learning_rate": 2.396520662538474e-05,
      "loss": 0.6346,
      "step": 4905
    },
    {
      "epoch": 0.5733302195235871,
      "grad_norm": 0.6378859032761719,
      "learning_rate": 2.3922307226987678e-05,
      "loss": 0.6554,
      "step": 4910
    },
    {
      "epoch": 0.5739140588510042,
      "grad_norm": 0.6668773983877149,
      "learning_rate": 2.3879421167721944e-05,
      "loss": 0.6775,
      "step": 4915
    },
    {
      "epoch": 0.5744978981784213,
      "grad_norm": 0.6389338845894582,
      "learning_rate": 2.383654860748466e-05,
      "loss": 0.676,
      "step": 4920
    },
    {
      "epoch": 0.5750817375058384,
      "grad_norm": 0.6268842116797327,
      "learning_rate": 2.379368970612261e-05,
      "loss": 0.6466,
      "step": 4925
    },
    {
      "epoch": 0.5756655768332555,
      "grad_norm": 0.626165018277812,
      "learning_rate": 2.375084462343167e-05,
      "loss": 0.6444,
      "step": 4930
    },
    {
      "epoch": 0.5762494161606726,
      "grad_norm": 0.6373562595855843,
      "learning_rate": 2.370801351915617e-05,
      "loss": 0.6473,
      "step": 4935
    },
    {
      "epoch": 0.5768332554880897,
      "grad_norm": 0.6351844260626782,
      "learning_rate": 2.3665196552988357e-05,
      "loss": 0.6668,
      "step": 4940
    },
    {
      "epoch": 0.5774170948155067,
      "grad_norm": 0.6341326881996405,
      "learning_rate": 2.362239388456773e-05,
      "loss": 0.6732,
      "step": 4945
    },
    {
      "epoch": 0.5780009341429239,
      "grad_norm": 0.6011659795188354,
      "learning_rate": 2.357960567348049e-05,
      "loss": 0.6603,
      "step": 4950
    },
    {
      "epoch": 0.578584773470341,
      "grad_norm": 0.6062672094765592,
      "learning_rate": 2.3536832079258952e-05,
      "loss": 0.6605,
      "step": 4955
    },
    {
      "epoch": 0.5791686127977581,
      "grad_norm": 0.6120030700584078,
      "learning_rate": 2.3494073261380915e-05,
      "loss": 0.6745,
      "step": 4960
    },
    {
      "epoch": 0.5797524521251751,
      "grad_norm": 0.5924738657071491,
      "learning_rate": 2.34513293792691e-05,
      "loss": 0.6622,
      "step": 4965
    },
    {
      "epoch": 0.5803362914525922,
      "grad_norm": 0.651965227102999,
      "learning_rate": 2.340860059229052e-05,
      "loss": 0.6418,
      "step": 4970
    },
    {
      "epoch": 0.5809201307800094,
      "grad_norm": 0.6560128763326548,
      "learning_rate": 2.3365887059755925e-05,
      "loss": 0.6758,
      "step": 4975
    },
    {
      "epoch": 0.5815039701074264,
      "grad_norm": 0.6506643684559978,
      "learning_rate": 2.3323188940919188e-05,
      "loss": 0.6533,
      "step": 4980
    },
    {
      "epoch": 0.5820878094348435,
      "grad_norm": 0.6835264310080673,
      "learning_rate": 2.328050639497671e-05,
      "loss": 0.6647,
      "step": 4985
    },
    {
      "epoch": 0.5826716487622606,
      "grad_norm": 0.5988300708192568,
      "learning_rate": 2.3237839581066828e-05,
      "loss": 0.6537,
      "step": 4990
    },
    {
      "epoch": 0.5832554880896778,
      "grad_norm": 0.6750579550887138,
      "learning_rate": 2.3195188658269224e-05,
      "loss": 0.6486,
      "step": 4995
    },
    {
      "epoch": 0.5838393274170948,
      "grad_norm": 0.6440448351107685,
      "learning_rate": 2.3152553785604336e-05,
      "loss": 0.6592,
      "step": 5000
    },
    {
      "epoch": 0.5844231667445119,
      "grad_norm": 0.731759601804783,
      "learning_rate": 2.3109935122032754e-05,
      "loss": 0.6466,
      "step": 5005
    },
    {
      "epoch": 0.585007006071929,
      "grad_norm": 0.6959499030612664,
      "learning_rate": 2.3067332826454647e-05,
      "loss": 0.6636,
      "step": 5010
    },
    {
      "epoch": 0.5855908453993461,
      "grad_norm": 0.6113554156310252,
      "learning_rate": 2.3024747057709132e-05,
      "loss": 0.6763,
      "step": 5015
    },
    {
      "epoch": 0.5861746847267632,
      "grad_norm": 0.6909357785524548,
      "learning_rate": 2.2982177974573733e-05,
      "loss": 0.6683,
      "step": 5020
    },
    {
      "epoch": 0.5867585240541803,
      "grad_norm": 0.6298425983174408,
      "learning_rate": 2.2939625735763743e-05,
      "loss": 0.6535,
      "step": 5025
    },
    {
      "epoch": 0.5873423633815974,
      "grad_norm": 0.7109872764357104,
      "learning_rate": 2.2897090499931674e-05,
      "loss": 0.6424,
      "step": 5030
    },
    {
      "epoch": 0.5879262027090145,
      "grad_norm": 0.7580889572674745,
      "learning_rate": 2.285457242566662e-05,
      "loss": 0.6374,
      "step": 5035
    },
    {
      "epoch": 0.5885100420364315,
      "grad_norm": 0.7017847671946715,
      "learning_rate": 2.2812071671493713e-05,
      "loss": 0.6529,
      "step": 5040
    },
    {
      "epoch": 0.5890938813638487,
      "grad_norm": 0.6090406210084096,
      "learning_rate": 2.2769588395873482e-05,
      "loss": 0.6449,
      "step": 5045
    },
    {
      "epoch": 0.5896777206912658,
      "grad_norm": 0.6403885858292363,
      "learning_rate": 2.272712275720132e-05,
      "loss": 0.6661,
      "step": 5050
    },
    {
      "epoch": 0.5902615600186829,
      "grad_norm": 0.6578980666805756,
      "learning_rate": 2.268467491380683e-05,
      "loss": 0.6579,
      "step": 5055
    },
    {
      "epoch": 0.5908453993460999,
      "grad_norm": 0.5999401661047145,
      "learning_rate": 2.264224502395329e-05,
      "loss": 0.6603,
      "step": 5060
    },
    {
      "epoch": 0.591429238673517,
      "grad_norm": 0.6338741234363249,
      "learning_rate": 2.2599833245837032e-05,
      "loss": 0.6787,
      "step": 5065
    },
    {
      "epoch": 0.5920130780009342,
      "grad_norm": 0.74795467731577,
      "learning_rate": 2.2557439737586856e-05,
      "loss": 0.6722,
      "step": 5070
    },
    {
      "epoch": 0.5925969173283513,
      "grad_norm": 0.7217752543711582,
      "learning_rate": 2.2515064657263447e-05,
      "loss": 0.6498,
      "step": 5075
    },
    {
      "epoch": 0.5931807566557683,
      "grad_norm": 0.7161765238355562,
      "learning_rate": 2.2472708162858792e-05,
      "loss": 0.6576,
      "step": 5080
    },
    {
      "epoch": 0.5937645959831854,
      "grad_norm": 0.6535890562908294,
      "learning_rate": 2.2430370412295566e-05,
      "loss": 0.6714,
      "step": 5085
    },
    {
      "epoch": 0.5943484353106026,
      "grad_norm": 0.6710772968914349,
      "learning_rate": 2.2388051563426577e-05,
      "loss": 0.6899,
      "step": 5090
    },
    {
      "epoch": 0.5949322746380196,
      "grad_norm": 0.6681349138065166,
      "learning_rate": 2.2345751774034135e-05,
      "loss": 0.6558,
      "step": 5095
    },
    {
      "epoch": 0.5955161139654367,
      "grad_norm": 0.637682685332637,
      "learning_rate": 2.230347120182951e-05,
      "loss": 0.6689,
      "step": 5100
    },
    {
      "epoch": 0.5960999532928538,
      "grad_norm": 0.6245322541135276,
      "learning_rate": 2.226121000445232e-05,
      "loss": 0.6533,
      "step": 5105
    },
    {
      "epoch": 0.5966837926202709,
      "grad_norm": 0.6587924015023942,
      "learning_rate": 2.2218968339469932e-05,
      "loss": 0.6437,
      "step": 5110
    },
    {
      "epoch": 0.597267631947688,
      "grad_norm": 0.6379201786043399,
      "learning_rate": 2.2176746364376904e-05,
      "loss": 0.6567,
      "step": 5115
    },
    {
      "epoch": 0.5978514712751051,
      "grad_norm": 0.7123489421996893,
      "learning_rate": 2.2134544236594374e-05,
      "loss": 0.6382,
      "step": 5120
    },
    {
      "epoch": 0.5984353106025222,
      "grad_norm": 0.7171028751940878,
      "learning_rate": 2.2092362113469474e-05,
      "loss": 0.6628,
      "step": 5125
    },
    {
      "epoch": 0.5990191499299393,
      "grad_norm": 0.6450226856301006,
      "learning_rate": 2.2050200152274763e-05,
      "loss": 0.6756,
      "step": 5130
    },
    {
      "epoch": 0.5996029892573563,
      "grad_norm": 0.6323784574000388,
      "learning_rate": 2.2008058510207635e-05,
      "loss": 0.6743,
      "step": 5135
    },
    {
      "epoch": 0.6001868285847735,
      "grad_norm": 0.5909602763814854,
      "learning_rate": 2.1965937344389692e-05,
      "loss": 0.6513,
      "step": 5140
    },
    {
      "epoch": 0.6007706679121906,
      "grad_norm": 0.6395839042983865,
      "learning_rate": 2.1923836811866227e-05,
      "loss": 0.6534,
      "step": 5145
    },
    {
      "epoch": 0.6013545072396077,
      "grad_norm": 0.6353994749336142,
      "learning_rate": 2.188175706960559e-05,
      "loss": 0.66,
      "step": 5150
    },
    {
      "epoch": 0.6019383465670247,
      "grad_norm": 0.5922251888014807,
      "learning_rate": 2.1839698274498616e-05,
      "loss": 0.6808,
      "step": 5155
    },
    {
      "epoch": 0.6025221858944418,
      "grad_norm": 0.6299887546972825,
      "learning_rate": 2.1797660583358032e-05,
      "loss": 0.658,
      "step": 5160
    },
    {
      "epoch": 0.603106025221859,
      "grad_norm": 0.6531078824421405,
      "learning_rate": 2.1755644152917903e-05,
      "loss": 0.6481,
      "step": 5165
    },
    {
      "epoch": 0.6036898645492761,
      "grad_norm": 0.6461278007928728,
      "learning_rate": 2.1713649139833e-05,
      "loss": 0.6719,
      "step": 5170
    },
    {
      "epoch": 0.6042737038766931,
      "grad_norm": 0.6223291663451023,
      "learning_rate": 2.1671675700678257e-05,
      "loss": 0.6601,
      "step": 5175
    },
    {
      "epoch": 0.6048575432041102,
      "grad_norm": 0.6357576147483377,
      "learning_rate": 2.1629723991948176e-05,
      "loss": 0.6618,
      "step": 5180
    },
    {
      "epoch": 0.6054413825315274,
      "grad_norm": 0.6059467007562491,
      "learning_rate": 2.1587794170056213e-05,
      "loss": 0.6642,
      "step": 5185
    },
    {
      "epoch": 0.6060252218589445,
      "grad_norm": 0.6095500305300035,
      "learning_rate": 2.154588639133425e-05,
      "loss": 0.6722,
      "step": 5190
    },
    {
      "epoch": 0.6066090611863615,
      "grad_norm": 0.6726290914535656,
      "learning_rate": 2.1504000812031966e-05,
      "loss": 0.6659,
      "step": 5195
    },
    {
      "epoch": 0.6071929005137786,
      "grad_norm": 0.5841342154320484,
      "learning_rate": 2.1462137588316268e-05,
      "loss": 0.6404,
      "step": 5200
    },
    {
      "epoch": 0.6077767398411957,
      "grad_norm": 0.7123498891125715,
      "learning_rate": 2.142029687627074e-05,
      "loss": 0.6489,
      "step": 5205
    },
    {
      "epoch": 0.6083605791686127,
      "grad_norm": 0.6913002613908555,
      "learning_rate": 2.1378478831895e-05,
      "loss": 0.6436,
      "step": 5210
    },
    {
      "epoch": 0.6089444184960299,
      "grad_norm": 0.6997647280613319,
      "learning_rate": 2.133668361110417e-05,
      "loss": 0.6667,
      "step": 5215
    },
    {
      "epoch": 0.609528257823447,
      "grad_norm": 0.6158618256900755,
      "learning_rate": 2.129491136972826e-05,
      "loss": 0.6378,
      "step": 5220
    },
    {
      "epoch": 0.6101120971508641,
      "grad_norm": 0.6547526608685518,
      "learning_rate": 2.125316226351163e-05,
      "loss": 0.6703,
      "step": 5225
    },
    {
      "epoch": 0.6106959364782811,
      "grad_norm": 0.6391213550824983,
      "learning_rate": 2.1211436448112356e-05,
      "loss": 0.6578,
      "step": 5230
    },
    {
      "epoch": 0.6112797758056983,
      "grad_norm": 0.6757603390258218,
      "learning_rate": 2.1169734079101684e-05,
      "loss": 0.6635,
      "step": 5235
    },
    {
      "epoch": 0.6118636151331154,
      "grad_norm": 0.6940231794284659,
      "learning_rate": 2.1128055311963453e-05,
      "loss": 0.6587,
      "step": 5240
    },
    {
      "epoch": 0.6124474544605325,
      "grad_norm": 0.6946228292627638,
      "learning_rate": 2.1086400302093483e-05,
      "loss": 0.6635,
      "step": 5245
    },
    {
      "epoch": 0.6130312937879495,
      "grad_norm": 0.6161808239430036,
      "learning_rate": 2.104476920479905e-05,
      "loss": 0.651,
      "step": 5250
    },
    {
      "epoch": 0.6136151331153666,
      "grad_norm": 0.6427474786201127,
      "learning_rate": 2.1003162175298234e-05,
      "loss": 0.642,
      "step": 5255
    },
    {
      "epoch": 0.6141989724427838,
      "grad_norm": 0.6308918177017456,
      "learning_rate": 2.0961579368719407e-05,
      "loss": 0.6604,
      "step": 5260
    },
    {
      "epoch": 0.6147828117702009,
      "grad_norm": 0.6229236551665738,
      "learning_rate": 2.0920020940100626e-05,
      "loss": 0.6675,
      "step": 5265
    },
    {
      "epoch": 0.6153666510976179,
      "grad_norm": 0.6268464665703455,
      "learning_rate": 2.087848704438905e-05,
      "loss": 0.6606,
      "step": 5270
    },
    {
      "epoch": 0.615950490425035,
      "grad_norm": 0.6422041257326545,
      "learning_rate": 2.0836977836440364e-05,
      "loss": 0.6415,
      "step": 5275
    },
    {
      "epoch": 0.6165343297524521,
      "grad_norm": 0.6479209627639781,
      "learning_rate": 2.0795493471018222e-05,
      "loss": 0.6704,
      "step": 5280
    },
    {
      "epoch": 0.6171181690798693,
      "grad_norm": 0.6163247141093213,
      "learning_rate": 2.075403410279364e-05,
      "loss": 0.6419,
      "step": 5285
    },
    {
      "epoch": 0.6177020084072863,
      "grad_norm": 0.6241956989559475,
      "learning_rate": 2.0712599886344447e-05,
      "loss": 0.6468,
      "step": 5290
    },
    {
      "epoch": 0.6182858477347034,
      "grad_norm": 0.7656906484840937,
      "learning_rate": 2.067119097615468e-05,
      "loss": 0.6651,
      "step": 5295
    },
    {
      "epoch": 0.6188696870621205,
      "grad_norm": 0.6965465049861614,
      "learning_rate": 2.0629807526614037e-05,
      "loss": 0.67,
      "step": 5300
    },
    {
      "epoch": 0.6194535263895375,
      "grad_norm": 0.6023945687060536,
      "learning_rate": 2.0588449692017287e-05,
      "loss": 0.6507,
      "step": 5305
    },
    {
      "epoch": 0.6200373657169547,
      "grad_norm": 0.6326497518909883,
      "learning_rate": 2.054711762656369e-05,
      "loss": 0.6695,
      "step": 5310
    },
    {
      "epoch": 0.6206212050443718,
      "grad_norm": 0.6310767137058264,
      "learning_rate": 2.0505811484356424e-05,
      "loss": 0.6797,
      "step": 5315
    },
    {
      "epoch": 0.6212050443717889,
      "grad_norm": 0.6906028300828547,
      "learning_rate": 2.0464531419402026e-05,
      "loss": 0.651,
      "step": 5320
    },
    {
      "epoch": 0.6217888836992059,
      "grad_norm": 0.6044802850120902,
      "learning_rate": 2.0423277585609806e-05,
      "loss": 0.6576,
      "step": 5325
    },
    {
      "epoch": 0.622372723026623,
      "grad_norm": 0.6339515721943146,
      "learning_rate": 2.038205013679127e-05,
      "loss": 0.6633,
      "step": 5330
    },
    {
      "epoch": 0.6229565623540402,
      "grad_norm": 0.6359485528317174,
      "learning_rate": 2.034084922665953e-05,
      "loss": 0.645,
      "step": 5335
    },
    {
      "epoch": 0.6235404016814573,
      "grad_norm": 0.6073123010252469,
      "learning_rate": 2.0299675008828783e-05,
      "loss": 0.6331,
      "step": 5340
    },
    {
      "epoch": 0.6241242410088743,
      "grad_norm": 0.6176061294859415,
      "learning_rate": 2.025852763681369e-05,
      "loss": 0.6403,
      "step": 5345
    },
    {
      "epoch": 0.6247080803362914,
      "grad_norm": 0.664866798044163,
      "learning_rate": 2.021740726402882e-05,
      "loss": 0.655,
      "step": 5350
    },
    {
      "epoch": 0.6252919196637086,
      "grad_norm": 0.6086215680093997,
      "learning_rate": 2.0176314043788077e-05,
      "loss": 0.6611,
      "step": 5355
    },
    {
      "epoch": 0.6258757589911257,
      "grad_norm": 0.7004052612104904,
      "learning_rate": 2.0135248129304124e-05,
      "loss": 0.6465,
      "step": 5360
    },
    {
      "epoch": 0.6264595983185427,
      "grad_norm": 0.6076350077833853,
      "learning_rate": 2.009420967368784e-05,
      "loss": 0.6382,
      "step": 5365
    },
    {
      "epoch": 0.6270434376459598,
      "grad_norm": 0.5881892530834505,
      "learning_rate": 2.00531988299477e-05,
      "loss": 0.6648,
      "step": 5370
    },
    {
      "epoch": 0.627627276973377,
      "grad_norm": 0.6333360202885088,
      "learning_rate": 2.0012215750989242e-05,
      "loss": 0.6516,
      "step": 5375
    },
    {
      "epoch": 0.6282111163007941,
      "grad_norm": 0.62973394403979,
      "learning_rate": 1.997126058961448e-05,
      "loss": 0.6567,
      "step": 5380
    },
    {
      "epoch": 0.6287949556282111,
      "grad_norm": 0.6063915894035368,
      "learning_rate": 1.9930333498521354e-05,
      "loss": 0.6428,
      "step": 5385
    },
    {
      "epoch": 0.6293787949556282,
      "grad_norm": 0.6408961647702774,
      "learning_rate": 1.9889434630303118e-05,
      "loss": 0.6582,
      "step": 5390
    },
    {
      "epoch": 0.6299626342830453,
      "grad_norm": 0.6036349823080569,
      "learning_rate": 1.9848564137447823e-05,
      "loss": 0.6557,
      "step": 5395
    },
    {
      "epoch": 0.6305464736104625,
      "grad_norm": 0.5919332703394341,
      "learning_rate": 1.9807722172337724e-05,
      "loss": 0.6487,
      "step": 5400
    },
    {
      "epoch": 0.6311303129378795,
      "grad_norm": 0.6036747835371132,
      "learning_rate": 1.9766908887248697e-05,
      "loss": 0.6521,
      "step": 5405
    },
    {
      "epoch": 0.6317141522652966,
      "grad_norm": 0.6212050444795796,
      "learning_rate": 1.9726124434349706e-05,
      "loss": 0.6475,
      "step": 5410
    },
    {
      "epoch": 0.6322979915927137,
      "grad_norm": 0.6262816679505311,
      "learning_rate": 1.9685368965702204e-05,
      "loss": 0.6697,
      "step": 5415
    },
    {
      "epoch": 0.6328818309201307,
      "grad_norm": 0.6124621585414037,
      "learning_rate": 1.9644642633259575e-05,
      "loss": 0.6302,
      "step": 5420
    },
    {
      "epoch": 0.6334656702475479,
      "grad_norm": 0.6770338916705769,
      "learning_rate": 1.960394558886659e-05,
      "loss": 0.6435,
      "step": 5425
    },
    {
      "epoch": 0.634049509574965,
      "grad_norm": 0.6501085864358357,
      "learning_rate": 1.95632779842588e-05,
      "loss": 0.6522,
      "step": 5430
    },
    {
      "epoch": 0.6346333489023821,
      "grad_norm": 0.6130740281906146,
      "learning_rate": 1.9522639971062008e-05,
      "loss": 0.6689,
      "step": 5435
    },
    {
      "epoch": 0.6352171882297991,
      "grad_norm": 0.5804300738072693,
      "learning_rate": 1.948203170079168e-05,
      "loss": 0.6609,
      "step": 5440
    },
    {
      "epoch": 0.6358010275572162,
      "grad_norm": 0.5788490909752783,
      "learning_rate": 1.9441453324852387e-05,
      "loss": 0.6353,
      "step": 5445
    },
    {
      "epoch": 0.6363848668846334,
      "grad_norm": 0.6615239820449326,
      "learning_rate": 1.9400904994537257e-05,
      "loss": 0.6512,
      "step": 5450
    },
    {
      "epoch": 0.6369687062120505,
      "grad_norm": 0.60774343414679,
      "learning_rate": 1.936038686102736e-05,
      "loss": 0.6441,
      "step": 5455
    },
    {
      "epoch": 0.6375525455394675,
      "grad_norm": 0.602791772845411,
      "learning_rate": 1.931989907539123e-05,
      "loss": 0.6603,
      "step": 5460
    },
    {
      "epoch": 0.6381363848668846,
      "grad_norm": 0.6326090876764604,
      "learning_rate": 1.92794417885842e-05,
      "loss": 0.6654,
      "step": 5465
    },
    {
      "epoch": 0.6387202241943017,
      "grad_norm": 0.643694166081535,
      "learning_rate": 1.9239015151447927e-05,
      "loss": 0.65,
      "step": 5470
    },
    {
      "epoch": 0.6393040635217189,
      "grad_norm": 0.6786655863886062,
      "learning_rate": 1.919861931470978e-05,
      "loss": 0.6576,
      "step": 5475
    },
    {
      "epoch": 0.6398879028491359,
      "grad_norm": 0.6106055689740919,
      "learning_rate": 1.9158254428982293e-05,
      "loss": 0.6552,
      "step": 5480
    },
    {
      "epoch": 0.640471742176553,
      "grad_norm": 0.6007153329631955,
      "learning_rate": 1.9117920644762594e-05,
      "loss": 0.6712,
      "step": 5485
    },
    {
      "epoch": 0.6410555815039701,
      "grad_norm": 0.6524003118058777,
      "learning_rate": 1.907761811243186e-05,
      "loss": 0.6408,
      "step": 5490
    },
    {
      "epoch": 0.6416394208313873,
      "grad_norm": 0.6415758998316752,
      "learning_rate": 1.9037346982254755e-05,
      "loss": 0.6514,
      "step": 5495
    },
    {
      "epoch": 0.6422232601588043,
      "grad_norm": 0.6295681316621072,
      "learning_rate": 1.8997107404378846e-05,
      "loss": 0.6555,
      "step": 5500
    },
    {
      "epoch": 0.6428070994862214,
      "grad_norm": 0.6100423766821667,
      "learning_rate": 1.8956899528834065e-05,
      "loss": 0.6378,
      "step": 5505
    },
    {
      "epoch": 0.6433909388136385,
      "grad_norm": 0.6450917653118526,
      "learning_rate": 1.8916723505532157e-05,
      "loss": 0.6454,
      "step": 5510
    },
    {
      "epoch": 0.6439747781410555,
      "grad_norm": 0.6558351860092898,
      "learning_rate": 1.8876579484266094e-05,
      "loss": 0.64,
      "step": 5515
    },
    {
      "epoch": 0.6445586174684726,
      "grad_norm": 0.631323811726284,
      "learning_rate": 1.8836467614709535e-05,
      "loss": 0.659,
      "step": 5520
    },
    {
      "epoch": 0.6451424567958898,
      "grad_norm": 0.6153787346866092,
      "learning_rate": 1.8796388046416253e-05,
      "loss": 0.6619,
      "step": 5525
    },
    {
      "epoch": 0.6457262961233069,
      "grad_norm": 0.6176755770472118,
      "learning_rate": 1.875634092881963e-05,
      "loss": 0.6552,
      "step": 5530
    },
    {
      "epoch": 0.6463101354507239,
      "grad_norm": 0.6517515108908513,
      "learning_rate": 1.8716326411232016e-05,
      "loss": 0.6529,
      "step": 5535
    },
    {
      "epoch": 0.646893974778141,
      "grad_norm": 0.6320389903656185,
      "learning_rate": 1.8676344642844217e-05,
      "loss": 0.6419,
      "step": 5540
    },
    {
      "epoch": 0.6474778141055582,
      "grad_norm": 0.6577567743805603,
      "learning_rate": 1.8636395772724952e-05,
      "loss": 0.6517,
      "step": 5545
    },
    {
      "epoch": 0.6480616534329753,
      "grad_norm": 0.5779409429803866,
      "learning_rate": 1.8596479949820273e-05,
      "loss": 0.6516,
      "step": 5550
    },
    {
      "epoch": 0.6486454927603923,
      "grad_norm": 0.5982564290583605,
      "learning_rate": 1.8556597322953035e-05,
      "loss": 0.6628,
      "step": 5555
    },
    {
      "epoch": 0.6492293320878094,
      "grad_norm": 0.6033275354473104,
      "learning_rate": 1.8516748040822295e-05,
      "loss": 0.6462,
      "step": 5560
    },
    {
      "epoch": 0.6498131714152265,
      "grad_norm": 0.7478615750937032,
      "learning_rate": 1.847693225200281e-05,
      "loss": 0.652,
      "step": 5565
    },
    {
      "epoch": 0.6503970107426437,
      "grad_norm": 0.6028133177899443,
      "learning_rate": 1.843715010494445e-05,
      "loss": 0.6554,
      "step": 5570
    },
    {
      "epoch": 0.6509808500700607,
      "grad_norm": 0.6335265470082463,
      "learning_rate": 1.839740174797166e-05,
      "loss": 0.6683,
      "step": 5575
    },
    {
      "epoch": 0.6515646893974778,
      "grad_norm": 0.6384594597330329,
      "learning_rate": 1.8357687329282896e-05,
      "loss": 0.6583,
      "step": 5580
    },
    {
      "epoch": 0.6521485287248949,
      "grad_norm": 0.6634517144325908,
      "learning_rate": 1.831800699695008e-05,
      "loss": 0.6518,
      "step": 5585
    },
    {
      "epoch": 0.652732368052312,
      "grad_norm": 0.6324345938898167,
      "learning_rate": 1.827836089891805e-05,
      "loss": 0.6595,
      "step": 5590
    },
    {
      "epoch": 0.6533162073797291,
      "grad_norm": 0.61649113535426,
      "learning_rate": 1.823874918300399e-05,
      "loss": 0.6515,
      "step": 5595
    },
    {
      "epoch": 0.6539000467071462,
      "grad_norm": 0.5897384254074928,
      "learning_rate": 1.8199171996896912e-05,
      "loss": 0.6517,
      "step": 5600
    },
    {
      "epoch": 0.6544838860345633,
      "grad_norm": 0.6677989875296673,
      "learning_rate": 1.8159629488157082e-05,
      "loss": 0.6698,
      "step": 5605
    },
    {
      "epoch": 0.6550677253619804,
      "grad_norm": 0.6455168459371002,
      "learning_rate": 1.8120121804215466e-05,
      "loss": 0.6537,
      "step": 5610
    },
    {
      "epoch": 0.6556515646893974,
      "grad_norm": 0.6397653850550866,
      "learning_rate": 1.8080649092373187e-05,
      "loss": 0.6584,
      "step": 5615
    },
    {
      "epoch": 0.6562354040168146,
      "grad_norm": 0.626530275084573,
      "learning_rate": 1.8041211499800992e-05,
      "loss": 0.6483,
      "step": 5620
    },
    {
      "epoch": 0.6568192433442317,
      "grad_norm": 0.6227195752834476,
      "learning_rate": 1.8001809173538676e-05,
      "loss": 0.6449,
      "step": 5625
    },
    {
      "epoch": 0.6574030826716487,
      "grad_norm": 0.6115177962874717,
      "learning_rate": 1.796244226049455e-05,
      "loss": 0.6541,
      "step": 5630
    },
    {
      "epoch": 0.6579869219990658,
      "grad_norm": 0.6110717594233479,
      "learning_rate": 1.792311090744489e-05,
      "loss": 0.6234,
      "step": 5635
    },
    {
      "epoch": 0.658570761326483,
      "grad_norm": 0.6345530467904902,
      "learning_rate": 1.7883815261033393e-05,
      "loss": 0.6517,
      "step": 5640
    },
    {
      "epoch": 0.6591546006539001,
      "grad_norm": 0.6059373392098923,
      "learning_rate": 1.7844555467770624e-05,
      "loss": 0.6655,
      "step": 5645
    },
    {
      "epoch": 0.6597384399813171,
      "grad_norm": 0.5919917566253382,
      "learning_rate": 1.7805331674033466e-05,
      "loss": 0.6533,
      "step": 5650
    },
    {
      "epoch": 0.6603222793087342,
      "grad_norm": 0.6500691097454692,
      "learning_rate": 1.776614402606459e-05,
      "loss": 0.6516,
      "step": 5655
    },
    {
      "epoch": 0.6609061186361513,
      "grad_norm": 0.6554113582331242,
      "learning_rate": 1.7726992669971904e-05,
      "loss": 0.6513,
      "step": 5660
    },
    {
      "epoch": 0.6614899579635685,
      "grad_norm": 0.587579022092992,
      "learning_rate": 1.768787775172799e-05,
      "loss": 0.6541,
      "step": 5665
    },
    {
      "epoch": 0.6620737972909855,
      "grad_norm": 0.6461208021423955,
      "learning_rate": 1.7648799417169588e-05,
      "loss": 0.6536,
      "step": 5670
    },
    {
      "epoch": 0.6626576366184026,
      "grad_norm": 0.6446174965711384,
      "learning_rate": 1.7609757811997023e-05,
      "loss": 0.6501,
      "step": 5675
    },
    {
      "epoch": 0.6632414759458197,
      "grad_norm": 0.6563309768757624,
      "learning_rate": 1.75707530817737e-05,
      "loss": 0.6492,
      "step": 5680
    },
    {
      "epoch": 0.6638253152732368,
      "grad_norm": 0.6207469875080636,
      "learning_rate": 1.753178537192551e-05,
      "loss": 0.6533,
      "step": 5685
    },
    {
      "epoch": 0.6644091546006539,
      "grad_norm": 0.6369501224014037,
      "learning_rate": 1.7492854827740353e-05,
      "loss": 0.6596,
      "step": 5690
    },
    {
      "epoch": 0.664992993928071,
      "grad_norm": 0.6136259565703345,
      "learning_rate": 1.7453961594367528e-05,
      "loss": 0.6519,
      "step": 5695
    },
    {
      "epoch": 0.6655768332554881,
      "grad_norm": 0.6684512394811364,
      "learning_rate": 1.741510581681724e-05,
      "loss": 0.6478,
      "step": 5700
    },
    {
      "epoch": 0.6661606725829052,
      "grad_norm": 0.6889730982477917,
      "learning_rate": 1.737628763996005e-05,
      "loss": 0.6663,
      "step": 5705
    },
    {
      "epoch": 0.6667445119103222,
      "grad_norm": 0.6993773876386039,
      "learning_rate": 1.7337507208526295e-05,
      "loss": 0.6537,
      "step": 5710
    },
    {
      "epoch": 0.6673283512377394,
      "grad_norm": 0.5948998317909232,
      "learning_rate": 1.729876466710561e-05,
      "loss": 0.6525,
      "step": 5715
    },
    {
      "epoch": 0.6679121905651565,
      "grad_norm": 0.6349196689747608,
      "learning_rate": 1.726006016014637e-05,
      "loss": 0.6697,
      "step": 5720
    },
    {
      "epoch": 0.6684960298925736,
      "grad_norm": 0.6247396476759942,
      "learning_rate": 1.7221393831955102e-05,
      "loss": 0.6517,
      "step": 5725
    },
    {
      "epoch": 0.6690798692199906,
      "grad_norm": 0.7102052156590236,
      "learning_rate": 1.718276582669602e-05,
      "loss": 0.6408,
      "step": 5730
    },
    {
      "epoch": 0.6696637085474078,
      "grad_norm": 0.6098663239917782,
      "learning_rate": 1.7144176288390448e-05,
      "loss": 0.6411,
      "step": 5735
    },
    {
      "epoch": 0.6702475478748249,
      "grad_norm": 0.6236060967217535,
      "learning_rate": 1.7105625360916276e-05,
      "loss": 0.6614,
      "step": 5740
    },
    {
      "epoch": 0.6708313872022419,
      "grad_norm": 0.6514443423723102,
      "learning_rate": 1.7067113188007457e-05,
      "loss": 0.6391,
      "step": 5745
    },
    {
      "epoch": 0.671415226529659,
      "grad_norm": 0.6145992521310542,
      "learning_rate": 1.7028639913253426e-05,
      "loss": 0.6526,
      "step": 5750
    },
    {
      "epoch": 0.6719990658570761,
      "grad_norm": 0.6392156062042794,
      "learning_rate": 1.6990205680098612e-05,
      "loss": 0.6613,
      "step": 5755
    },
    {
      "epoch": 0.6725829051844933,
      "grad_norm": 0.6093115717729776,
      "learning_rate": 1.695181063184187e-05,
      "loss": 0.6597,
      "step": 5760
    },
    {
      "epoch": 0.6731667445119103,
      "grad_norm": 0.6158268949318265,
      "learning_rate": 1.6913454911635954e-05,
      "loss": 0.6454,
      "step": 5765
    },
    {
      "epoch": 0.6737505838393274,
      "grad_norm": 0.6295476392889442,
      "learning_rate": 1.6875138662486997e-05,
      "loss": 0.6408,
      "step": 5770
    },
    {
      "epoch": 0.6743344231667445,
      "grad_norm": 0.6754149318261963,
      "learning_rate": 1.6836862027253963e-05,
      "loss": 0.6345,
      "step": 5775
    },
    {
      "epoch": 0.6749182624941616,
      "grad_norm": 0.7471938496073851,
      "learning_rate": 1.6798625148648113e-05,
      "loss": 0.6557,
      "step": 5780
    },
    {
      "epoch": 0.6755021018215787,
      "grad_norm": 0.6355574202574713,
      "learning_rate": 1.6760428169232483e-05,
      "loss": 0.6365,
      "step": 5785
    },
    {
      "epoch": 0.6760859411489958,
      "grad_norm": 0.5835350863392492,
      "learning_rate": 1.672227123142136e-05,
      "loss": 0.6575,
      "step": 5790
    },
    {
      "epoch": 0.6766697804764129,
      "grad_norm": 0.5942137459790245,
      "learning_rate": 1.668415447747971e-05,
      "loss": 0.6326,
      "step": 5795
    },
    {
      "epoch": 0.67725361980383,
      "grad_norm": 0.6282690457346377,
      "learning_rate": 1.6646078049522706e-05,
      "loss": 0.6383,
      "step": 5800
    },
    {
      "epoch": 0.677837459131247,
      "grad_norm": 0.6219412563102987,
      "learning_rate": 1.660804208951516e-05,
      "loss": 0.6519,
      "step": 5805
    },
    {
      "epoch": 0.6784212984586642,
      "grad_norm": 0.5701155156677662,
      "learning_rate": 1.6570046739270988e-05,
      "loss": 0.6519,
      "step": 5810
    },
    {
      "epoch": 0.6790051377860813,
      "grad_norm": 0.5878066897687751,
      "learning_rate": 1.6532092140452725e-05,
      "loss": 0.654,
      "step": 5815
    },
    {
      "epoch": 0.6795889771134984,
      "grad_norm": 0.5908028121861336,
      "learning_rate": 1.649417843457094e-05,
      "loss": 0.6373,
      "step": 5820
    },
    {
      "epoch": 0.6801728164409154,
      "grad_norm": 0.639959083744787,
      "learning_rate": 1.6456305762983742e-05,
      "loss": 0.6553,
      "step": 5825
    },
    {
      "epoch": 0.6807566557683326,
      "grad_norm": 0.5986487080483318,
      "learning_rate": 1.6418474266896257e-05,
      "loss": 0.6427,
      "step": 5830
    },
    {
      "epoch": 0.6813404950957497,
      "grad_norm": 0.6435561857144427,
      "learning_rate": 1.6380684087360088e-05,
      "loss": 0.6319,
      "step": 5835
    },
    {
      "epoch": 0.6819243344231667,
      "grad_norm": 0.6281643119655214,
      "learning_rate": 1.6342935365272785e-05,
      "loss": 0.6595,
      "step": 5840
    },
    {
      "epoch": 0.6825081737505838,
      "grad_norm": 0.62328606989937,
      "learning_rate": 1.6305228241377347e-05,
      "loss": 0.6337,
      "step": 5845
    },
    {
      "epoch": 0.6830920130780009,
      "grad_norm": 0.6131419563564767,
      "learning_rate": 1.6267562856261638e-05,
      "loss": 0.6455,
      "step": 5850
    },
    {
      "epoch": 0.6836758524054181,
      "grad_norm": 0.6126007307298542,
      "learning_rate": 1.6229939350357952e-05,
      "loss": 0.6423,
      "step": 5855
    },
    {
      "epoch": 0.6842596917328351,
      "grad_norm": 0.6039540770428432,
      "learning_rate": 1.6192357863942415e-05,
      "loss": 0.6459,
      "step": 5860
    },
    {
      "epoch": 0.6848435310602522,
      "grad_norm": 0.6406333234122924,
      "learning_rate": 1.615481853713448e-05,
      "loss": 0.6331,
      "step": 5865
    },
    {
      "epoch": 0.6854273703876693,
      "grad_norm": 0.6561121020637503,
      "learning_rate": 1.6117321509896422e-05,
      "loss": 0.6431,
      "step": 5870
    },
    {
      "epoch": 0.6860112097150864,
      "grad_norm": 0.6034665695981549,
      "learning_rate": 1.60798669220328e-05,
      "loss": 0.6404,
      "step": 5875
    },
    {
      "epoch": 0.6865950490425035,
      "grad_norm": 0.6602912607998124,
      "learning_rate": 1.6042454913189946e-05,
      "loss": 0.6735,
      "step": 5880
    },
    {
      "epoch": 0.6871788883699206,
      "grad_norm": 0.6492996294271381,
      "learning_rate": 1.600508562285544e-05,
      "loss": 0.6708,
      "step": 5885
    },
    {
      "epoch": 0.6877627276973377,
      "grad_norm": 0.6018342905291776,
      "learning_rate": 1.5967759190357585e-05,
      "loss": 0.6361,
      "step": 5890
    },
    {
      "epoch": 0.6883465670247548,
      "grad_norm": 0.6329922232888995,
      "learning_rate": 1.5930475754864898e-05,
      "loss": 0.6468,
      "step": 5895
    },
    {
      "epoch": 0.6889304063521718,
      "grad_norm": 0.6525189222677755,
      "learning_rate": 1.5893235455385575e-05,
      "loss": 0.6601,
      "step": 5900
    },
    {
      "epoch": 0.689514245679589,
      "grad_norm": 0.5877002885557084,
      "learning_rate": 1.5856038430766994e-05,
      "loss": 0.6493,
      "step": 5905
    },
    {
      "epoch": 0.6900980850070061,
      "grad_norm": 0.6163486286664249,
      "learning_rate": 1.5818884819695184e-05,
      "loss": 0.6414,
      "step": 5910
    },
    {
      "epoch": 0.6906819243344232,
      "grad_norm": 0.6686532667952824,
      "learning_rate": 1.5781774760694304e-05,
      "loss": 0.6307,
      "step": 5915
    },
    {
      "epoch": 0.6912657636618402,
      "grad_norm": 0.6422509284417167,
      "learning_rate": 1.5744708392126138e-05,
      "loss": 0.6431,
      "step": 5920
    },
    {
      "epoch": 0.6918496029892574,
      "grad_norm": 0.6414099958899228,
      "learning_rate": 1.5707685852189573e-05,
      "loss": 0.6535,
      "step": 5925
    },
    {
      "epoch": 0.6924334423166745,
      "grad_norm": 0.6286824558971477,
      "learning_rate": 1.5670707278920084e-05,
      "loss": 0.652,
      "step": 5930
    },
    {
      "epoch": 0.6930172816440916,
      "grad_norm": 0.617985919524731,
      "learning_rate": 1.563377281018922e-05,
      "loss": 0.6433,
      "step": 5935
    },
    {
      "epoch": 0.6936011209715086,
      "grad_norm": 0.6398079036319524,
      "learning_rate": 1.5596882583704092e-05,
      "loss": 0.6691,
      "step": 5940
    },
    {
      "epoch": 0.6941849602989257,
      "grad_norm": 0.587760118379386,
      "learning_rate": 1.5560036737006856e-05,
      "loss": 0.646,
      "step": 5945
    },
    {
      "epoch": 0.6947687996263429,
      "grad_norm": 0.6269915871686259,
      "learning_rate": 1.5523235407474195e-05,
      "loss": 0.6506,
      "step": 5950
    },
    {
      "epoch": 0.6953526389537599,
      "grad_norm": 0.6653984631772404,
      "learning_rate": 1.5486478732316827e-05,
      "loss": 0.668,
      "step": 5955
    },
    {
      "epoch": 0.695936478281177,
      "grad_norm": 0.606714091384374,
      "learning_rate": 1.5449766848578968e-05,
      "loss": 0.6463,
      "step": 5960
    },
    {
      "epoch": 0.6965203176085941,
      "grad_norm": 0.6520045148882592,
      "learning_rate": 1.541309989313784e-05,
      "loss": 0.6675,
      "step": 5965
    },
    {
      "epoch": 0.6971041569360112,
      "grad_norm": 0.6604691030846023,
      "learning_rate": 1.5376478002703154e-05,
      "loss": 0.6539,
      "step": 5970
    },
    {
      "epoch": 0.6976879962634283,
      "grad_norm": 0.6256562528791287,
      "learning_rate": 1.5339901313816584e-05,
      "loss": 0.6391,
      "step": 5975
    },
    {
      "epoch": 0.6982718355908454,
      "grad_norm": 0.6131593198270057,
      "learning_rate": 1.5303369962851298e-05,
      "loss": 0.6588,
      "step": 5980
    },
    {
      "epoch": 0.6988556749182625,
      "grad_norm": 0.5802257376801692,
      "learning_rate": 1.5266884086011406e-05,
      "loss": 0.6542,
      "step": 5985
    },
    {
      "epoch": 0.6994395142456796,
      "grad_norm": 0.5816165522921771,
      "learning_rate": 1.5230443819331492e-05,
      "loss": 0.6431,
      "step": 5990
    },
    {
      "epoch": 0.7000233535730966,
      "grad_norm": 0.612328598266228,
      "learning_rate": 1.5194049298676061e-05,
      "loss": 0.6281,
      "step": 5995
    },
    {
      "epoch": 0.7006071929005138,
      "grad_norm": 0.6653597780756229,
      "learning_rate": 1.515770065973907e-05,
      "loss": 0.6431,
      "step": 6000
    },
    {
      "epoch": 0.7011910322279309,
      "grad_norm": 0.6376102143697321,
      "learning_rate": 1.5121398038043421e-05,
      "loss": 0.6573,
      "step": 6005
    },
    {
      "epoch": 0.701774871555348,
      "grad_norm": 0.636891782596444,
      "learning_rate": 1.5085141568940419e-05,
      "loss": 0.6403,
      "step": 6010
    },
    {
      "epoch": 0.702358710882765,
      "grad_norm": 0.6134843917603902,
      "learning_rate": 1.5048931387609321e-05,
      "loss": 0.6372,
      "step": 6015
    },
    {
      "epoch": 0.7029425502101821,
      "grad_norm": 0.6111357219189175,
      "learning_rate": 1.501276762905679e-05,
      "loss": 0.6522,
      "step": 6020
    },
    {
      "epoch": 0.7035263895375993,
      "grad_norm": 0.7624771516374586,
      "learning_rate": 1.4976650428116401e-05,
      "loss": 0.6591,
      "step": 6025
    },
    {
      "epoch": 0.7041102288650164,
      "grad_norm": 0.6082248979619495,
      "learning_rate": 1.4940579919448147e-05,
      "loss": 0.6437,
      "step": 6030
    },
    {
      "epoch": 0.7046940681924334,
      "grad_norm": 0.6060066653601676,
      "learning_rate": 1.4904556237537936e-05,
      "loss": 0.6816,
      "step": 6035
    },
    {
      "epoch": 0.7052779075198505,
      "grad_norm": 0.6428653416363093,
      "learning_rate": 1.4868579516697079e-05,
      "loss": 0.6505,
      "step": 6040
    },
    {
      "epoch": 0.7058617468472677,
      "grad_norm": 0.6196446538185576,
      "learning_rate": 1.4832649891061811e-05,
      "loss": 0.6413,
      "step": 6045
    },
    {
      "epoch": 0.7064455861746848,
      "grad_norm": 0.6370871328272835,
      "learning_rate": 1.4796767494592757e-05,
      "loss": 0.6458,
      "step": 6050
    },
    {
      "epoch": 0.7070294255021018,
      "grad_norm": 0.5896264915560131,
      "learning_rate": 1.4760932461074467e-05,
      "loss": 0.6409,
      "step": 6055
    },
    {
      "epoch": 0.7076132648295189,
      "grad_norm": 0.6123918490122225,
      "learning_rate": 1.4725144924114891e-05,
      "loss": 0.6356,
      "step": 6060
    },
    {
      "epoch": 0.708197104156936,
      "grad_norm": 0.6159099756196177,
      "learning_rate": 1.4689405017144908e-05,
      "loss": 0.6396,
      "step": 6065
    },
    {
      "epoch": 0.708780943484353,
      "grad_norm": 0.7028868922003575,
      "learning_rate": 1.4653712873417796e-05,
      "loss": 0.6572,
      "step": 6070
    },
    {
      "epoch": 0.7093647828117702,
      "grad_norm": 0.5920818715762003,
      "learning_rate": 1.4618068626008755e-05,
      "loss": 0.6319,
      "step": 6075
    },
    {
      "epoch": 0.7099486221391873,
      "grad_norm": 0.5995994181370015,
      "learning_rate": 1.4582472407814419e-05,
      "loss": 0.643,
      "step": 6080
    },
    {
      "epoch": 0.7105324614666044,
      "grad_norm": 0.5860343193735567,
      "learning_rate": 1.4546924351552333e-05,
      "loss": 0.6545,
      "step": 6085
    },
    {
      "epoch": 0.7111163007940214,
      "grad_norm": 0.6128351666184559,
      "learning_rate": 1.4511424589760486e-05,
      "loss": 0.6349,
      "step": 6090
    },
    {
      "epoch": 0.7117001401214386,
      "grad_norm": 0.6252244905566473,
      "learning_rate": 1.4475973254796799e-05,
      "loss": 0.6648,
      "step": 6095
    },
    {
      "epoch": 0.7122839794488557,
      "grad_norm": 0.6046517958913106,
      "learning_rate": 1.4440570478838645e-05,
      "loss": 0.6541,
      "step": 6100
    },
    {
      "epoch": 0.7128678187762728,
      "grad_norm": 0.6371397956094005,
      "learning_rate": 1.440521639388233e-05,
      "loss": 0.6442,
      "step": 6105
    },
    {
      "epoch": 0.7134516581036898,
      "grad_norm": 0.6334205971437344,
      "learning_rate": 1.436991113174265e-05,
      "loss": 0.6568,
      "step": 6110
    },
    {
      "epoch": 0.714035497431107,
      "grad_norm": 0.6136702164991507,
      "learning_rate": 1.4334654824052351e-05,
      "loss": 0.6356,
      "step": 6115
    },
    {
      "epoch": 0.7146193367585241,
      "grad_norm": 0.5740255870328927,
      "learning_rate": 1.429944760226164e-05,
      "loss": 0.6554,
      "step": 6120
    },
    {
      "epoch": 0.7152031760859412,
      "grad_norm": 0.647412850303488,
      "learning_rate": 1.4264289597637741e-05,
      "loss": 0.6594,
      "step": 6125
    },
    {
      "epoch": 0.7157870154133582,
      "grad_norm": 0.6023144532026925,
      "learning_rate": 1.4229180941264364e-05,
      "loss": 0.6346,
      "step": 6130
    },
    {
      "epoch": 0.7163708547407753,
      "grad_norm": 0.6566751465495958,
      "learning_rate": 1.4194121764041224e-05,
      "loss": 0.6396,
      "step": 6135
    },
    {
      "epoch": 0.7169546940681925,
      "grad_norm": 0.6297042271423003,
      "learning_rate": 1.4159112196683564e-05,
      "loss": 0.6377,
      "step": 6140
    },
    {
      "epoch": 0.7175385333956096,
      "grad_norm": 0.6734484611856958,
      "learning_rate": 1.4124152369721655e-05,
      "loss": 0.6537,
      "step": 6145
    },
    {
      "epoch": 0.7181223727230266,
      "grad_norm": 0.6317487967098724,
      "learning_rate": 1.408924241350032e-05,
      "loss": 0.6209,
      "step": 6150
    },
    {
      "epoch": 0.7187062120504437,
      "grad_norm": 0.5866856203616632,
      "learning_rate": 1.4054382458178439e-05,
      "loss": 0.6421,
      "step": 6155
    },
    {
      "epoch": 0.7192900513778608,
      "grad_norm": 0.68949122971027,
      "learning_rate": 1.4019572633728473e-05,
      "loss": 0.6525,
      "step": 6160
    },
    {
      "epoch": 0.7198738907052779,
      "grad_norm": 0.6472560827371897,
      "learning_rate": 1.3984813069935967e-05,
      "loss": 0.6473,
      "step": 6165
    },
    {
      "epoch": 0.720457730032695,
      "grad_norm": 0.6070589006805013,
      "learning_rate": 1.395010389639908e-05,
      "loss": 0.6574,
      "step": 6170
    },
    {
      "epoch": 0.7210415693601121,
      "grad_norm": 0.5650663505862649,
      "learning_rate": 1.391544524252808e-05,
      "loss": 0.6402,
      "step": 6175
    },
    {
      "epoch": 0.7216254086875292,
      "grad_norm": 0.6390461835721468,
      "learning_rate": 1.388083723754491e-05,
      "loss": 0.6494,
      "step": 6180
    },
    {
      "epoch": 0.7222092480149462,
      "grad_norm": 0.6103399495927149,
      "learning_rate": 1.384628001048264e-05,
      "loss": 0.6418,
      "step": 6185
    },
    {
      "epoch": 0.7227930873423634,
      "grad_norm": 0.6954938172005755,
      "learning_rate": 1.381177369018503e-05,
      "loss": 0.6406,
      "step": 6190
    },
    {
      "epoch": 0.7233769266697805,
      "grad_norm": 0.6218535372380833,
      "learning_rate": 1.377731840530604e-05,
      "loss": 0.6432,
      "step": 6195
    },
    {
      "epoch": 0.7239607659971976,
      "grad_norm": 0.6089100037812815,
      "learning_rate": 1.374291428430935e-05,
      "loss": 0.6515,
      "step": 6200
    },
    {
      "epoch": 0.7245446053246146,
      "grad_norm": 0.6572788470504004,
      "learning_rate": 1.3708561455467872e-05,
      "loss": 0.646,
      "step": 6205
    },
    {
      "epoch": 0.7251284446520317,
      "grad_norm": 0.5960825154712381,
      "learning_rate": 1.3674260046863285e-05,
      "loss": 0.6362,
      "step": 6210
    },
    {
      "epoch": 0.7257122839794489,
      "grad_norm": 0.5993510671824555,
      "learning_rate": 1.3640010186385552e-05,
      "loss": 0.6382,
      "step": 6215
    },
    {
      "epoch": 0.726296123306866,
      "grad_norm": 0.6337346841685323,
      "learning_rate": 1.3605812001732444e-05,
      "loss": 0.6531,
      "step": 6220
    },
    {
      "epoch": 0.726879962634283,
      "grad_norm": 0.6349038847860046,
      "learning_rate": 1.3571665620409064e-05,
      "loss": 0.6488,
      "step": 6225
    },
    {
      "epoch": 0.7274638019617001,
      "grad_norm": 0.6294965655367071,
      "learning_rate": 1.3537571169727359e-05,
      "loss": 0.6365,
      "step": 6230
    },
    {
      "epoch": 0.7280476412891173,
      "grad_norm": 0.6201172499902672,
      "learning_rate": 1.3503528776805676e-05,
      "loss": 0.6295,
      "step": 6235
    },
    {
      "epoch": 0.7286314806165344,
      "grad_norm": 0.6110861537928787,
      "learning_rate": 1.3469538568568255e-05,
      "loss": 0.6284,
      "step": 6240
    },
    {
      "epoch": 0.7292153199439514,
      "grad_norm": 0.6215210859610367,
      "learning_rate": 1.3435600671744768e-05,
      "loss": 0.6274,
      "step": 6245
    },
    {
      "epoch": 0.7297991592713685,
      "grad_norm": 0.5847702315380873,
      "learning_rate": 1.3401715212869864e-05,
      "loss": 0.6208,
      "step": 6250
    },
    {
      "epoch": 0.7303829985987856,
      "grad_norm": 0.5828875582378416,
      "learning_rate": 1.3367882318282666e-05,
      "loss": 0.6475,
      "step": 6255
    },
    {
      "epoch": 0.7309668379262028,
      "grad_norm": 0.6127808516375031,
      "learning_rate": 1.3334102114126314e-05,
      "loss": 0.6504,
      "step": 6260
    },
    {
      "epoch": 0.7315506772536198,
      "grad_norm": 0.6671099859763688,
      "learning_rate": 1.330037472634752e-05,
      "loss": 0.6512,
      "step": 6265
    },
    {
      "epoch": 0.7321345165810369,
      "grad_norm": 0.6142444220893487,
      "learning_rate": 1.3266700280696042e-05,
      "loss": 0.6318,
      "step": 6270
    },
    {
      "epoch": 0.732718355908454,
      "grad_norm": 0.5938810178983895,
      "learning_rate": 1.3233078902724266e-05,
      "loss": 0.6568,
      "step": 6275
    },
    {
      "epoch": 0.733302195235871,
      "grad_norm": 0.70988806135586,
      "learning_rate": 1.3199510717786714e-05,
      "loss": 0.6521,
      "step": 6280
    },
    {
      "epoch": 0.7338860345632882,
      "grad_norm": 0.6512938097399694,
      "learning_rate": 1.3165995851039591e-05,
      "loss": 0.6713,
      "step": 6285
    },
    {
      "epoch": 0.7344698738907053,
      "grad_norm": 0.6601449949865233,
      "learning_rate": 1.3132534427440301e-05,
      "loss": 0.6417,
      "step": 6290
    },
    {
      "epoch": 0.7350537132181224,
      "grad_norm": 0.6701809451404614,
      "learning_rate": 1.309912657174699e-05,
      "loss": 0.6483,
      "step": 6295
    },
    {
      "epoch": 0.7356375525455394,
      "grad_norm": 0.6158604399069405,
      "learning_rate": 1.3065772408518085e-05,
      "loss": 0.6363,
      "step": 6300
    },
    {
      "epoch": 0.7362213918729565,
      "grad_norm": 0.6476859953305574,
      "learning_rate": 1.3032472062111823e-05,
      "loss": 0.6379,
      "step": 6305
    },
    {
      "epoch": 0.7368052312003737,
      "grad_norm": 0.6658408876225623,
      "learning_rate": 1.2999225656685781e-05,
      "loss": 0.6441,
      "step": 6310
    },
    {
      "epoch": 0.7373890705277908,
      "grad_norm": 0.6288192770121708,
      "learning_rate": 1.2966033316196435e-05,
      "loss": 0.6526,
      "step": 6315
    },
    {
      "epoch": 0.7379729098552078,
      "grad_norm": 0.6007763475196312,
      "learning_rate": 1.2932895164398684e-05,
      "loss": 0.6462,
      "step": 6320
    },
    {
      "epoch": 0.7385567491826249,
      "grad_norm": 0.5998562845562518,
      "learning_rate": 1.2899811324845373e-05,
      "loss": 0.6447,
      "step": 6325
    },
    {
      "epoch": 0.739140588510042,
      "grad_norm": 0.6066992473051736,
      "learning_rate": 1.2866781920886873e-05,
      "loss": 0.6599,
      "step": 6330
    },
    {
      "epoch": 0.7397244278374592,
      "grad_norm": 0.5610174159935682,
      "learning_rate": 1.2833807075670564e-05,
      "loss": 0.6404,
      "step": 6335
    },
    {
      "epoch": 0.7403082671648762,
      "grad_norm": 0.6733209472989998,
      "learning_rate": 1.2800886912140433e-05,
      "loss": 0.6426,
      "step": 6340
    },
    {
      "epoch": 0.7408921064922933,
      "grad_norm": 0.6339702252792792,
      "learning_rate": 1.2768021553036596e-05,
      "loss": 0.6278,
      "step": 6345
    },
    {
      "epoch": 0.7414759458197104,
      "grad_norm": 0.6258093250705813,
      "learning_rate": 1.2735211120894813e-05,
      "loss": 0.647,
      "step": 6350
    },
    {
      "epoch": 0.7420597851471276,
      "grad_norm": 0.5868680496778399,
      "learning_rate": 1.2702455738046068e-05,
      "loss": 0.6468,
      "step": 6355
    },
    {
      "epoch": 0.7426436244745446,
      "grad_norm": 0.7012725486888974,
      "learning_rate": 1.2669755526616093e-05,
      "loss": 0.6573,
      "step": 6360
    },
    {
      "epoch": 0.7432274638019617,
      "grad_norm": 0.6943371402211006,
      "learning_rate": 1.2637110608524916e-05,
      "loss": 0.6213,
      "step": 6365
    },
    {
      "epoch": 0.7438113031293788,
      "grad_norm": 0.6618196344032842,
      "learning_rate": 1.2604521105486417e-05,
      "loss": 0.6397,
      "step": 6370
    },
    {
      "epoch": 0.7443951424567959,
      "grad_norm": 0.5761032360591999,
      "learning_rate": 1.2571987139007856e-05,
      "loss": 0.6417,
      "step": 6375
    },
    {
      "epoch": 0.744978981784213,
      "grad_norm": 0.6296066629510068,
      "learning_rate": 1.253950883038944e-05,
      "loss": 0.6506,
      "step": 6380
    },
    {
      "epoch": 0.7455628211116301,
      "grad_norm": 0.6262153811941109,
      "learning_rate": 1.2507086300723846e-05,
      "loss": 0.6532,
      "step": 6385
    },
    {
      "epoch": 0.7461466604390472,
      "grad_norm": 0.6605485302237062,
      "learning_rate": 1.2474719670895796e-05,
      "loss": 0.6458,
      "step": 6390
    },
    {
      "epoch": 0.7467304997664642,
      "grad_norm": 0.6302511565958615,
      "learning_rate": 1.2442409061581587e-05,
      "loss": 0.6262,
      "step": 6395
    },
    {
      "epoch": 0.7473143390938813,
      "grad_norm": 0.6287357429748764,
      "learning_rate": 1.2410154593248657e-05,
      "loss": 0.6248,
      "step": 6400
    },
    {
      "epoch": 0.7478981784212985,
      "grad_norm": 0.5949685378563663,
      "learning_rate": 1.2377956386155114e-05,
      "loss": 0.6403,
      "step": 6405
    },
    {
      "epoch": 0.7484820177487156,
      "grad_norm": 0.6462039582391939,
      "learning_rate": 1.2345814560349316e-05,
      "loss": 0.6557,
      "step": 6410
    },
    {
      "epoch": 0.7490658570761326,
      "grad_norm": 0.7239013066491163,
      "learning_rate": 1.231372923566939e-05,
      "loss": 0.6426,
      "step": 6415
    },
    {
      "epoch": 0.7496496964035497,
      "grad_norm": 0.6795140306032631,
      "learning_rate": 1.2281700531742818e-05,
      "loss": 0.6493,
      "step": 6420
    },
    {
      "epoch": 0.7502335357309668,
      "grad_norm": 0.6152699940480184,
      "learning_rate": 1.2249728567985966e-05,
      "loss": 0.6507,
      "step": 6425
    },
    {
      "epoch": 0.750817375058384,
      "grad_norm": 0.6604449508028087,
      "learning_rate": 1.2217813463603664e-05,
      "loss": 0.6467,
      "step": 6430
    },
    {
      "epoch": 0.751401214385801,
      "grad_norm": 0.5787590414167918,
      "learning_rate": 1.2185955337588727e-05,
      "loss": 0.6323,
      "step": 6435
    },
    {
      "epoch": 0.7519850537132181,
      "grad_norm": 0.6562834320938398,
      "learning_rate": 1.2154154308721546e-05,
      "loss": 0.6406,
      "step": 6440
    },
    {
      "epoch": 0.7525688930406352,
      "grad_norm": 0.5899101687555925,
      "learning_rate": 1.2122410495569623e-05,
      "loss": 0.6386,
      "step": 6445
    },
    {
      "epoch": 0.7531527323680524,
      "grad_norm": 0.6351186664661537,
      "learning_rate": 1.2090724016487137e-05,
      "loss": 0.66,
      "step": 6450
    },
    {
      "epoch": 0.7537365716954694,
      "grad_norm": 0.61481417247934,
      "learning_rate": 1.2059094989614503e-05,
      "loss": 0.639,
      "step": 6455
    },
    {
      "epoch": 0.7543204110228865,
      "grad_norm": 0.6730266072773823,
      "learning_rate": 1.2027523532877928e-05,
      "loss": 0.6327,
      "step": 6460
    },
    {
      "epoch": 0.7549042503503036,
      "grad_norm": 0.6479664121197497,
      "learning_rate": 1.1996009763988974e-05,
      "loss": 0.6297,
      "step": 6465
    },
    {
      "epoch": 0.7554880896777207,
      "grad_norm": 0.6349758804122987,
      "learning_rate": 1.1964553800444123e-05,
      "loss": 0.6459,
      "step": 6470
    },
    {
      "epoch": 0.7560719290051378,
      "grad_norm": 0.605193746860756,
      "learning_rate": 1.1933155759524332e-05,
      "loss": 0.6374,
      "step": 6475
    },
    {
      "epoch": 0.7566557683325549,
      "grad_norm": 0.6774832969822996,
      "learning_rate": 1.1901815758294589e-05,
      "loss": 0.6334,
      "step": 6480
    },
    {
      "epoch": 0.757239607659972,
      "grad_norm": 0.672744571091384,
      "learning_rate": 1.18705339136035e-05,
      "loss": 0.6567,
      "step": 6485
    },
    {
      "epoch": 0.757823446987389,
      "grad_norm": 0.629538825683775,
      "learning_rate": 1.1839310342082835e-05,
      "loss": 0.6678,
      "step": 6490
    },
    {
      "epoch": 0.7584072863148061,
      "grad_norm": 0.613775052214992,
      "learning_rate": 1.1808145160147092e-05,
      "loss": 0.6166,
      "step": 6495
    },
    {
      "epoch": 0.7589911256422233,
      "grad_norm": 0.5753134401277333,
      "learning_rate": 1.1777038483993066e-05,
      "loss": 0.6349,
      "step": 6500
    },
    {
      "epoch": 0.7595749649696404,
      "grad_norm": 0.6226123133457339,
      "learning_rate": 1.1745990429599439e-05,
      "loss": 0.6567,
      "step": 6505
    },
    {
      "epoch": 0.7601588042970574,
      "grad_norm": 0.6287406461309847,
      "learning_rate": 1.1715001112726304e-05,
      "loss": 0.6086,
      "step": 6510
    },
    {
      "epoch": 0.7607426436244745,
      "grad_norm": 0.6065648011677031,
      "learning_rate": 1.1684070648914763e-05,
      "loss": 0.65,
      "step": 6515
    },
    {
      "epoch": 0.7613264829518916,
      "grad_norm": 0.5720273238666315,
      "learning_rate": 1.1653199153486488e-05,
      "loss": 0.6336,
      "step": 6520
    },
    {
      "epoch": 0.7619103222793088,
      "grad_norm": 0.6588805705393938,
      "learning_rate": 1.1622386741543295e-05,
      "loss": 0.6333,
      "step": 6525
    },
    {
      "epoch": 0.7624941616067258,
      "grad_norm": 0.6299712032540549,
      "learning_rate": 1.1591633527966713e-05,
      "loss": 0.6455,
      "step": 6530
    },
    {
      "epoch": 0.7630780009341429,
      "grad_norm": 0.6220052731578186,
      "learning_rate": 1.1560939627417555e-05,
      "loss": 0.6504,
      "step": 6535
    },
    {
      "epoch": 0.76366184026156,
      "grad_norm": 0.6343636477004547,
      "learning_rate": 1.1530305154335482e-05,
      "loss": 0.6319,
      "step": 6540
    },
    {
      "epoch": 0.7642456795889772,
      "grad_norm": 0.6165498750966297,
      "learning_rate": 1.1499730222938595e-05,
      "loss": 0.6418,
      "step": 6545
    },
    {
      "epoch": 0.7648295189163942,
      "grad_norm": 0.598828343635059,
      "learning_rate": 1.1469214947222993e-05,
      "loss": 0.6348,
      "step": 6550
    },
    {
      "epoch": 0.7654133582438113,
      "grad_norm": 0.6161720451502942,
      "learning_rate": 1.1438759440962353e-05,
      "loss": 0.6231,
      "step": 6555
    },
    {
      "epoch": 0.7659971975712284,
      "grad_norm": 0.5912844516303455,
      "learning_rate": 1.1408363817707523e-05,
      "loss": 0.6439,
      "step": 6560
    },
    {
      "epoch": 0.7665810368986455,
      "grad_norm": 0.686397942467021,
      "learning_rate": 1.1378028190786045e-05,
      "loss": 0.632,
      "step": 6565
    },
    {
      "epoch": 0.7671648762260626,
      "grad_norm": 0.598527869533545,
      "learning_rate": 1.134775267330181e-05,
      "loss": 0.621,
      "step": 6570
    },
    {
      "epoch": 0.7677487155534797,
      "grad_norm": 0.6459305188029775,
      "learning_rate": 1.1317537378134568e-05,
      "loss": 0.6497,
      "step": 6575
    },
    {
      "epoch": 0.7683325548808968,
      "grad_norm": 0.5997827134823882,
      "learning_rate": 1.1287382417939555e-05,
      "loss": 0.6491,
      "step": 6580
    },
    {
      "epoch": 0.7689163942083139,
      "grad_norm": 0.63181338212674,
      "learning_rate": 1.1257287905147035e-05,
      "loss": 0.6316,
      "step": 6585
    },
    {
      "epoch": 0.7695002335357309,
      "grad_norm": 0.5691139530472041,
      "learning_rate": 1.1227253951961911e-05,
      "loss": 0.6194,
      "step": 6590
    },
    {
      "epoch": 0.7700840728631481,
      "grad_norm": 0.571434056270116,
      "learning_rate": 1.1197280670363297e-05,
      "loss": 0.6367,
      "step": 6595
    },
    {
      "epoch": 0.7706679121905652,
      "grad_norm": 0.5876708801749873,
      "learning_rate": 1.1167368172104084e-05,
      "loss": 0.6393,
      "step": 6600
    },
    {
      "epoch": 0.7712517515179822,
      "grad_norm": 0.6010005050901622,
      "learning_rate": 1.1137516568710548e-05,
      "loss": 0.6448,
      "step": 6605
    },
    {
      "epoch": 0.7718355908453993,
      "grad_norm": 0.580336564305556,
      "learning_rate": 1.1107725971481923e-05,
      "loss": 0.638,
      "step": 6610
    },
    {
      "epoch": 0.7724194301728164,
      "grad_norm": 0.5690526195490969,
      "learning_rate": 1.107799649148998e-05,
      "loss": 0.6273,
      "step": 6615
    },
    {
      "epoch": 0.7730032695002336,
      "grad_norm": 0.621848022577463,
      "learning_rate": 1.1048328239578631e-05,
      "loss": 0.6396,
      "step": 6620
    },
    {
      "epoch": 0.7735871088276506,
      "grad_norm": 0.590747044398145,
      "learning_rate": 1.1018721326363493e-05,
      "loss": 0.6278,
      "step": 6625
    },
    {
      "epoch": 0.7741709481550677,
      "grad_norm": 0.632179461583809,
      "learning_rate": 1.0989175862231488e-05,
      "loss": 0.6501,
      "step": 6630
    },
    {
      "epoch": 0.7747547874824848,
      "grad_norm": 0.5798177631629294,
      "learning_rate": 1.095969195734044e-05,
      "loss": 0.6519,
      "step": 6635
    },
    {
      "epoch": 0.775338626809902,
      "grad_norm": 0.5641917730026553,
      "learning_rate": 1.0930269721618641e-05,
      "loss": 0.6107,
      "step": 6640
    },
    {
      "epoch": 0.775922466137319,
      "grad_norm": 0.593753176024571,
      "learning_rate": 1.0900909264764463e-05,
      "loss": 0.6262,
      "step": 6645
    },
    {
      "epoch": 0.7765063054647361,
      "grad_norm": 0.6176877432973589,
      "learning_rate": 1.0871610696245941e-05,
      "loss": 0.6575,
      "step": 6650
    },
    {
      "epoch": 0.7770901447921532,
      "grad_norm": 0.6220895199951411,
      "learning_rate": 1.0842374125300364e-05,
      "loss": 0.647,
      "step": 6655
    },
    {
      "epoch": 0.7776739841195703,
      "grad_norm": 0.6514844978329911,
      "learning_rate": 1.081319966093386e-05,
      "loss": 0.6653,
      "step": 6660
    },
    {
      "epoch": 0.7782578234469874,
      "grad_norm": 0.6229635390512143,
      "learning_rate": 1.0784087411921e-05,
      "loss": 0.6207,
      "step": 6665
    },
    {
      "epoch": 0.7788416627744045,
      "grad_norm": 0.5906786528297869,
      "learning_rate": 1.0755037486804411e-05,
      "loss": 0.645,
      "step": 6670
    },
    {
      "epoch": 0.7794255021018216,
      "grad_norm": 0.5790238518612034,
      "learning_rate": 1.0726049993894324e-05,
      "loss": 0.6283,
      "step": 6675
    },
    {
      "epoch": 0.7800093414292387,
      "grad_norm": 0.6137457769476979,
      "learning_rate": 1.0697125041268207e-05,
      "loss": 0.6278,
      "step": 6680
    },
    {
      "epoch": 0.7805931807566557,
      "grad_norm": 0.6070225802535901,
      "learning_rate": 1.0668262736770356e-05,
      "loss": 0.6306,
      "step": 6685
    },
    {
      "epoch": 0.7811770200840729,
      "grad_norm": 0.594752473424898,
      "learning_rate": 1.0639463188011476e-05,
      "loss": 0.654,
      "step": 6690
    },
    {
      "epoch": 0.78176085941149,
      "grad_norm": 0.6022443205432915,
      "learning_rate": 1.0610726502368303e-05,
      "loss": 0.6491,
      "step": 6695
    },
    {
      "epoch": 0.7823446987389071,
      "grad_norm": 0.6273411095037073,
      "learning_rate": 1.0582052786983194e-05,
      "loss": 0.6408,
      "step": 6700
    },
    {
      "epoch": 0.7829285380663241,
      "grad_norm": 0.599000533291735,
      "learning_rate": 1.0553442148763725e-05,
      "loss": 0.6626,
      "step": 6705
    },
    {
      "epoch": 0.7835123773937412,
      "grad_norm": 0.6393108507284879,
      "learning_rate": 1.0524894694382284e-05,
      "loss": 0.6339,
      "step": 6710
    },
    {
      "epoch": 0.7840962167211584,
      "grad_norm": 0.6143401990401224,
      "learning_rate": 1.0496410530275694e-05,
      "loss": 0.638,
      "step": 6715
    },
    {
      "epoch": 0.7846800560485754,
      "grad_norm": 0.6058792735537258,
      "learning_rate": 1.0467989762644803e-05,
      "loss": 0.6271,
      "step": 6720
    },
    {
      "epoch": 0.7852638953759925,
      "grad_norm": 0.6178694094145576,
      "learning_rate": 1.0439632497454093e-05,
      "loss": 0.6419,
      "step": 6725
    },
    {
      "epoch": 0.7858477347034096,
      "grad_norm": 0.5953596115650422,
      "learning_rate": 1.0411338840431278e-05,
      "loss": 0.6402,
      "step": 6730
    },
    {
      "epoch": 0.7864315740308268,
      "grad_norm": 0.5971529371806052,
      "learning_rate": 1.0383108897066915e-05,
      "loss": 0.6399,
      "step": 6735
    },
    {
      "epoch": 0.7870154133582438,
      "grad_norm": 0.5995025251220168,
      "learning_rate": 1.035494277261401e-05,
      "loss": 0.6103,
      "step": 6740
    },
    {
      "epoch": 0.7875992526856609,
      "grad_norm": 0.6046302699367826,
      "learning_rate": 1.0326840572087633e-05,
      "loss": 0.6261,
      "step": 6745
    },
    {
      "epoch": 0.788183092013078,
      "grad_norm": 0.5778379971801313,
      "learning_rate": 1.0298802400264502e-05,
      "loss": 0.6292,
      "step": 6750
    },
    {
      "epoch": 0.7887669313404951,
      "grad_norm": 0.6248841480809375,
      "learning_rate": 1.0270828361682628e-05,
      "loss": 0.6377,
      "step": 6755
    },
    {
      "epoch": 0.7893507706679121,
      "grad_norm": 0.6371232840447588,
      "learning_rate": 1.0242918560640893e-05,
      "loss": 0.6161,
      "step": 6760
    },
    {
      "epoch": 0.7899346099953293,
      "grad_norm": 0.6497075961211516,
      "learning_rate": 1.0215073101198683e-05,
      "loss": 0.6357,
      "step": 6765
    },
    {
      "epoch": 0.7905184493227464,
      "grad_norm": 0.5909439271188935,
      "learning_rate": 1.0187292087175485e-05,
      "loss": 0.6236,
      "step": 6770
    },
    {
      "epoch": 0.7911022886501635,
      "grad_norm": 0.5976434941734019,
      "learning_rate": 1.0159575622150513e-05,
      "loss": 0.6398,
      "step": 6775
    },
    {
      "epoch": 0.7916861279775805,
      "grad_norm": 0.6201574893269625,
      "learning_rate": 1.0131923809462313e-05,
      "loss": 0.6474,
      "step": 6780
    },
    {
      "epoch": 0.7922699673049977,
      "grad_norm": 0.6428020951178163,
      "learning_rate": 1.0104336752208374e-05,
      "loss": 0.6187,
      "step": 6785
    },
    {
      "epoch": 0.7928538066324148,
      "grad_norm": 0.634116819275743,
      "learning_rate": 1.0076814553244762e-05,
      "loss": 0.6451,
      "step": 6790
    },
    {
      "epoch": 0.7934376459598319,
      "grad_norm": 0.5773391894733362,
      "learning_rate": 1.0049357315185711e-05,
      "loss": 0.6355,
      "step": 6795
    },
    {
      "epoch": 0.7940214852872489,
      "grad_norm": 0.5920164601744748,
      "learning_rate": 1.0021965140403267e-05,
      "loss": 0.6108,
      "step": 6800
    },
    {
      "epoch": 0.794605324614666,
      "grad_norm": 0.6404362819261163,
      "learning_rate": 9.99463813102688e-06,
      "loss": 0.6211,
      "step": 6805
    },
    {
      "epoch": 0.7951891639420832,
      "grad_norm": 0.6327289926377916,
      "learning_rate": 9.967376388943042e-06,
      "loss": 0.641,
      "step": 6810
    },
    {
      "epoch": 0.7957730032695002,
      "grad_norm": 0.597921078351381,
      "learning_rate": 9.940180015794908e-06,
      "loss": 0.6566,
      "step": 6815
    },
    {
      "epoch": 0.7963568425969173,
      "grad_norm": 0.6021040015646795,
      "learning_rate": 9.913049112981897e-06,
      "loss": 0.6487,
      "step": 6820
    },
    {
      "epoch": 0.7969406819243344,
      "grad_norm": 0.5973580692426544,
      "learning_rate": 9.885983781659332e-06,
      "loss": 0.6548,
      "step": 6825
    },
    {
      "epoch": 0.7975245212517516,
      "grad_norm": 0.6334946405203701,
      "learning_rate": 9.858984122738072e-06,
      "loss": 0.6262,
      "step": 6830
    },
    {
      "epoch": 0.7981083605791686,
      "grad_norm": 0.6491494108765251,
      "learning_rate": 9.832050236884102e-06,
      "loss": 0.6485,
      "step": 6835
    },
    {
      "epoch": 0.7986921999065857,
      "grad_norm": 0.6023997514406285,
      "learning_rate": 9.805182224518186e-06,
      "loss": 0.6404,
      "step": 6840
    },
    {
      "epoch": 0.7992760392340028,
      "grad_norm": 0.572125578630417,
      "learning_rate": 9.778380185815486e-06,
      "loss": 0.6369,
      "step": 6845
    },
    {
      "epoch": 0.7998598785614199,
      "grad_norm": 0.6308711498259555,
      "learning_rate": 9.751644220705187e-06,
      "loss": 0.5927,
      "step": 6850
    },
    {
      "epoch": 0.800443717888837,
      "grad_norm": 0.6173581391316637,
      "learning_rate": 9.72497442887012e-06,
      "loss": 0.6579,
      "step": 6855
    },
    {
      "epoch": 0.8010275572162541,
      "grad_norm": 0.6263463329181845,
      "learning_rate": 9.698370909746387e-06,
      "loss": 0.6302,
      "step": 6860
    },
    {
      "epoch": 0.8016113965436712,
      "grad_norm": 0.5951782783655484,
      "learning_rate": 9.671833762523016e-06,
      "loss": 0.6413,
      "step": 6865
    },
    {
      "epoch": 0.8021952358710883,
      "grad_norm": 0.630199983460248,
      "learning_rate": 9.645363086141561e-06,
      "loss": 0.6676,
      "step": 6870
    },
    {
      "epoch": 0.8027790751985053,
      "grad_norm": 0.6054299149277153,
      "learning_rate": 9.618958979295747e-06,
      "loss": 0.6487,
      "step": 6875
    },
    {
      "epoch": 0.8033629145259225,
      "grad_norm": 0.5994022645181672,
      "learning_rate": 9.592621540431101e-06,
      "loss": 0.6318,
      "step": 6880
    },
    {
      "epoch": 0.8039467538533396,
      "grad_norm": 0.5837832389369707,
      "learning_rate": 9.566350867744584e-06,
      "loss": 0.6481,
      "step": 6885
    },
    {
      "epoch": 0.8045305931807567,
      "grad_norm": 0.5698387763091648,
      "learning_rate": 9.540147059184226e-06,
      "loss": 0.6293,
      "step": 6890
    },
    {
      "epoch": 0.8051144325081737,
      "grad_norm": 0.6984312056126706,
      "learning_rate": 9.514010212448751e-06,
      "loss": 0.6319,
      "step": 6895
    },
    {
      "epoch": 0.8056982718355908,
      "grad_norm": 0.5740328225103342,
      "learning_rate": 9.487940424987235e-06,
      "loss": 0.6401,
      "step": 6900
    },
    {
      "epoch": 0.806282111163008,
      "grad_norm": 0.5775510495309711,
      "learning_rate": 9.461937793998723e-06,
      "loss": 0.6547,
      "step": 6905
    },
    {
      "epoch": 0.8068659504904251,
      "grad_norm": 0.6278805432704445,
      "learning_rate": 9.436002416431868e-06,
      "loss": 0.6298,
      "step": 6910
    },
    {
      "epoch": 0.8074497898178421,
      "grad_norm": 0.5999967276015522,
      "learning_rate": 9.41013438898458e-06,
      "loss": 0.631,
      "step": 6915
    },
    {
      "epoch": 0.8080336291452592,
      "grad_norm": 0.6286509812121734,
      "learning_rate": 9.384333808103656e-06,
      "loss": 0.6309,
      "step": 6920
    },
    {
      "epoch": 0.8086174684726763,
      "grad_norm": 0.6488958189176001,
      "learning_rate": 9.358600769984432e-06,
      "loss": 0.6347,
      "step": 6925
    },
    {
      "epoch": 0.8092013078000934,
      "grad_norm": 0.5968006420157496,
      "learning_rate": 9.332935370570402e-06,
      "loss": 0.6491,
      "step": 6930
    },
    {
      "epoch": 0.8097851471275105,
      "grad_norm": 0.6014926523303887,
      "learning_rate": 9.30733770555289e-06,
      "loss": 0.6388,
      "step": 6935
    },
    {
      "epoch": 0.8103689864549276,
      "grad_norm": 0.6304655837034348,
      "learning_rate": 9.281807870370666e-06,
      "loss": 0.6436,
      "step": 6940
    },
    {
      "epoch": 0.8109528257823447,
      "grad_norm": 0.6149766049986034,
      "learning_rate": 9.256345960209608e-06,
      "loss": 0.6251,
      "step": 6945
    },
    {
      "epoch": 0.8115366651097617,
      "grad_norm": 0.6681829744274775,
      "learning_rate": 9.23095207000234e-06,
      "loss": 0.6732,
      "step": 6950
    },
    {
      "epoch": 0.8121205044371789,
      "grad_norm": 0.6403388685978876,
      "learning_rate": 9.205626294427885e-06,
      "loss": 0.6287,
      "step": 6955
    },
    {
      "epoch": 0.812704343764596,
      "grad_norm": 0.6164760499868315,
      "learning_rate": 9.18036872791129e-06,
      "loss": 0.6485,
      "step": 6960
    },
    {
      "epoch": 0.8132881830920131,
      "grad_norm": 0.5654692225018587,
      "learning_rate": 9.155179464623312e-06,
      "loss": 0.6315,
      "step": 6965
    },
    {
      "epoch": 0.8138720224194301,
      "grad_norm": 0.6235874243866195,
      "learning_rate": 9.130058598480027e-06,
      "loss": 0.6297,
      "step": 6970
    },
    {
      "epoch": 0.8144558617468473,
      "grad_norm": 0.611311993620239,
      "learning_rate": 9.105006223142507e-06,
      "loss": 0.6285,
      "step": 6975
    },
    {
      "epoch": 0.8150397010742644,
      "grad_norm": 0.6060839143598995,
      "learning_rate": 9.080022432016457e-06,
      "loss": 0.6264,
      "step": 6980
    },
    {
      "epoch": 0.8156235404016815,
      "grad_norm": 0.5749876598916189,
      "learning_rate": 9.05510731825188e-06,
      "loss": 0.6444,
      "step": 6985
    },
    {
      "epoch": 0.8162073797290985,
      "grad_norm": 0.6281041451457502,
      "learning_rate": 9.030260974742701e-06,
      "loss": 0.6455,
      "step": 6990
    },
    {
      "epoch": 0.8167912190565156,
      "grad_norm": 0.6134476446305431,
      "learning_rate": 9.005483494126474e-06,
      "loss": 0.6373,
      "step": 6995
    },
    {
      "epoch": 0.8173750583839328,
      "grad_norm": 0.5916584563540126,
      "learning_rate": 8.980774968783978e-06,
      "loss": 0.6483,
      "step": 7000
    },
    {
      "epoch": 0.8179588977113499,
      "grad_norm": 0.6259270613286148,
      "learning_rate": 8.9561354908389e-06,
      "loss": 0.647,
      "step": 7005
    },
    {
      "epoch": 0.8185427370387669,
      "grad_norm": 0.6689331791172888,
      "learning_rate": 8.931565152157492e-06,
      "loss": 0.6499,
      "step": 7010
    },
    {
      "epoch": 0.819126576366184,
      "grad_norm": 0.6681257239383737,
      "learning_rate": 8.907064044348232e-06,
      "loss": 0.6447,
      "step": 7015
    },
    {
      "epoch": 0.8197104156936011,
      "grad_norm": 0.6250826494469736,
      "learning_rate": 8.88263225876147e-06,
      "loss": 0.6034,
      "step": 7020
    },
    {
      "epoch": 0.8202942550210183,
      "grad_norm": 0.5711401947607472,
      "learning_rate": 8.858269886489099e-06,
      "loss": 0.6114,
      "step": 7025
    },
    {
      "epoch": 0.8208780943484353,
      "grad_norm": 0.5985615408353293,
      "learning_rate": 8.8339770183642e-06,
      "loss": 0.64,
      "step": 7030
    },
    {
      "epoch": 0.8214619336758524,
      "grad_norm": 0.6006406679048145,
      "learning_rate": 8.809753744960733e-06,
      "loss": 0.646,
      "step": 7035
    },
    {
      "epoch": 0.8220457730032695,
      "grad_norm": 0.5811155925766809,
      "learning_rate": 8.785600156593157e-06,
      "loss": 0.6308,
      "step": 7040
    },
    {
      "epoch": 0.8226296123306865,
      "grad_norm": 0.5833779089569627,
      "learning_rate": 8.761516343316131e-06,
      "loss": 0.6428,
      "step": 7045
    },
    {
      "epoch": 0.8232134516581037,
      "grad_norm": 0.5919532280968446,
      "learning_rate": 8.737502394924158e-06,
      "loss": 0.6363,
      "step": 7050
    },
    {
      "epoch": 0.8237972909855208,
      "grad_norm": 0.6034532255231587,
      "learning_rate": 8.713558400951254e-06,
      "loss": 0.6306,
      "step": 7055
    },
    {
      "epoch": 0.8243811303129379,
      "grad_norm": 0.6278732337136065,
      "learning_rate": 8.689684450670627e-06,
      "loss": 0.6437,
      "step": 7060
    },
    {
      "epoch": 0.8249649696403549,
      "grad_norm": 0.6265141928072414,
      "learning_rate": 8.665880633094314e-06,
      "loss": 0.6132,
      "step": 7065
    },
    {
      "epoch": 0.825548808967772,
      "grad_norm": 0.5510714562301102,
      "learning_rate": 8.642147036972887e-06,
      "loss": 0.6322,
      "step": 7070
    },
    {
      "epoch": 0.8261326482951892,
      "grad_norm": 0.5990688750904606,
      "learning_rate": 8.618483750795087e-06,
      "loss": 0.6426,
      "step": 7075
    },
    {
      "epoch": 0.8267164876226063,
      "grad_norm": 0.58078220118751,
      "learning_rate": 8.594890862787518e-06,
      "loss": 0.622,
      "step": 7080
    },
    {
      "epoch": 0.8273003269500233,
      "grad_norm": 0.6009559251228864,
      "learning_rate": 8.571368460914316e-06,
      "loss": 0.6304,
      "step": 7085
    },
    {
      "epoch": 0.8278841662774404,
      "grad_norm": 0.5966997292141136,
      "learning_rate": 8.547916632876806e-06,
      "loss": 0.6416,
      "step": 7090
    },
    {
      "epoch": 0.8284680056048576,
      "grad_norm": 0.5985492978905353,
      "learning_rate": 8.524535466113185e-06,
      "loss": 0.6278,
      "step": 7095
    },
    {
      "epoch": 0.8290518449322747,
      "grad_norm": 0.6119607849123736,
      "learning_rate": 8.5012250477982e-06,
      "loss": 0.6324,
      "step": 7100
    },
    {
      "epoch": 0.8296356842596917,
      "grad_norm": 0.582057910730287,
      "learning_rate": 8.477985464842816e-06,
      "loss": 0.6347,
      "step": 7105
    },
    {
      "epoch": 0.8302195235871088,
      "grad_norm": 0.6407160513095409,
      "learning_rate": 8.454816803893893e-06,
      "loss": 0.6361,
      "step": 7110
    },
    {
      "epoch": 0.830803362914526,
      "grad_norm": 0.6273654016841408,
      "learning_rate": 8.431719151333864e-06,
      "loss": 0.6234,
      "step": 7115
    },
    {
      "epoch": 0.8313872022419431,
      "grad_norm": 0.603508156859576,
      "learning_rate": 8.40869259328042e-06,
      "loss": 0.643,
      "step": 7120
    },
    {
      "epoch": 0.8319710415693601,
      "grad_norm": 0.6185148314476354,
      "learning_rate": 8.385737215586171e-06,
      "loss": 0.6447,
      "step": 7125
    },
    {
      "epoch": 0.8325548808967772,
      "grad_norm": 0.5771583068818322,
      "learning_rate": 8.362853103838344e-06,
      "loss": 0.6246,
      "step": 7130
    },
    {
      "epoch": 0.8331387202241943,
      "grad_norm": 0.6249572682049243,
      "learning_rate": 8.340040343358455e-06,
      "loss": 0.6102,
      "step": 7135
    },
    {
      "epoch": 0.8337225595516113,
      "grad_norm": 0.6419451327422312,
      "learning_rate": 8.317299019201996e-06,
      "loss": 0.6372,
      "step": 7140
    },
    {
      "epoch": 0.8343063988790285,
      "grad_norm": 0.5841961031320476,
      "learning_rate": 8.294629216158107e-06,
      "loss": 0.6373,
      "step": 7145
    },
    {
      "epoch": 0.8348902382064456,
      "grad_norm": 0.5995927444477767,
      "learning_rate": 8.272031018749272e-06,
      "loss": 0.6433,
      "step": 7150
    },
    {
      "epoch": 0.8354740775338627,
      "grad_norm": 0.582344410588876,
      "learning_rate": 8.249504511231005e-06,
      "loss": 0.6487,
      "step": 7155
    },
    {
      "epoch": 0.8360579168612797,
      "grad_norm": 0.5962429914662568,
      "learning_rate": 8.227049777591516e-06,
      "loss": 0.6268,
      "step": 7160
    },
    {
      "epoch": 0.8366417561886969,
      "grad_norm": 0.608107604021329,
      "learning_rate": 8.204666901551428e-06,
      "loss": 0.6457,
      "step": 7165
    },
    {
      "epoch": 0.837225595516114,
      "grad_norm": 0.6058460527295055,
      "learning_rate": 8.182355966563438e-06,
      "loss": 0.6296,
      "step": 7170
    },
    {
      "epoch": 0.8378094348435311,
      "grad_norm": 0.6280047949198018,
      "learning_rate": 8.160117055812019e-06,
      "loss": 0.6481,
      "step": 7175
    },
    {
      "epoch": 0.8383932741709481,
      "grad_norm": 0.5930435152936081,
      "learning_rate": 8.13795025221311e-06,
      "loss": 0.6255,
      "step": 7180
    },
    {
      "epoch": 0.8389771134983652,
      "grad_norm": 0.5929303430476128,
      "learning_rate": 8.115855638413806e-06,
      "loss": 0.6207,
      "step": 7185
    },
    {
      "epoch": 0.8395609528257824,
      "grad_norm": 0.6302797296442603,
      "learning_rate": 8.09383329679204e-06,
      "loss": 0.626,
      "step": 7190
    },
    {
      "epoch": 0.8401447921531995,
      "grad_norm": 0.611869681356887,
      "learning_rate": 8.071883309456292e-06,
      "loss": 0.6258,
      "step": 7195
    },
    {
      "epoch": 0.8407286314806165,
      "grad_norm": 0.5908565394267222,
      "learning_rate": 8.050005758245274e-06,
      "loss": 0.6021,
      "step": 7200
    },
    {
      "epoch": 0.8413124708080336,
      "grad_norm": 0.6213769971363277,
      "learning_rate": 8.028200724727623e-06,
      "loss": 0.6261,
      "step": 7205
    },
    {
      "epoch": 0.8418963101354507,
      "grad_norm": 0.6090574028964819,
      "learning_rate": 8.006468290201603e-06,
      "loss": 0.6245,
      "step": 7210
    },
    {
      "epoch": 0.8424801494628679,
      "grad_norm": 0.5529484666318186,
      "learning_rate": 7.984808535694794e-06,
      "loss": 0.633,
      "step": 7215
    },
    {
      "epoch": 0.8430639887902849,
      "grad_norm": 0.6131465277863353,
      "learning_rate": 7.963221541963799e-06,
      "loss": 0.6421,
      "step": 7220
    },
    {
      "epoch": 0.843647828117702,
      "grad_norm": 0.5705723507812558,
      "learning_rate": 7.94170738949394e-06,
      "loss": 0.6209,
      "step": 7225
    },
    {
      "epoch": 0.8442316674451191,
      "grad_norm": 0.5870298806748856,
      "learning_rate": 7.920266158498948e-06,
      "loss": 0.6382,
      "step": 7230
    },
    {
      "epoch": 0.8448155067725363,
      "grad_norm": 0.6024114225879414,
      "learning_rate": 7.898897928920684e-06,
      "loss": 0.6194,
      "step": 7235
    },
    {
      "epoch": 0.8453993460999533,
      "grad_norm": 0.5955204114457981,
      "learning_rate": 7.877602780428816e-06,
      "loss": 0.6183,
      "step": 7240
    },
    {
      "epoch": 0.8459831854273704,
      "grad_norm": 0.593227028079345,
      "learning_rate": 7.856380792420549e-06,
      "loss": 0.63,
      "step": 7245
    },
    {
      "epoch": 0.8465670247547875,
      "grad_norm": 0.614407216262562,
      "learning_rate": 7.835232044020304e-06,
      "loss": 0.6365,
      "step": 7250
    },
    {
      "epoch": 0.8471508640822045,
      "grad_norm": 0.585501938437949,
      "learning_rate": 7.81415661407944e-06,
      "loss": 0.6231,
      "step": 7255
    },
    {
      "epoch": 0.8477347034096216,
      "grad_norm": 0.6051940564461002,
      "learning_rate": 7.793154581175954e-06,
      "loss": 0.6305,
      "step": 7260
    },
    {
      "epoch": 0.8483185427370388,
      "grad_norm": 0.5559347387737404,
      "learning_rate": 7.772226023614185e-06,
      "loss": 0.6337,
      "step": 7265
    },
    {
      "epoch": 0.8489023820644559,
      "grad_norm": 0.5493920577269864,
      "learning_rate": 7.751371019424528e-06,
      "loss": 0.6287,
      "step": 7270
    },
    {
      "epoch": 0.8494862213918729,
      "grad_norm": 0.6548373342721107,
      "learning_rate": 7.730589646363141e-06,
      "loss": 0.6348,
      "step": 7275
    },
    {
      "epoch": 0.85007006071929,
      "grad_norm": 0.570177127165855,
      "learning_rate": 7.709881981911648e-06,
      "loss": 0.6257,
      "step": 7280
    },
    {
      "epoch": 0.8506539000467072,
      "grad_norm": 0.6276195548347564,
      "learning_rate": 7.689248103276873e-06,
      "loss": 0.6418,
      "step": 7285
    },
    {
      "epoch": 0.8512377393741243,
      "grad_norm": 0.6332505550767229,
      "learning_rate": 7.668688087390509e-06,
      "loss": 0.6208,
      "step": 7290
    },
    {
      "epoch": 0.8518215787015413,
      "grad_norm": 0.5723828888486714,
      "learning_rate": 7.648202010908884e-06,
      "loss": 0.6488,
      "step": 7295
    },
    {
      "epoch": 0.8524054180289584,
      "grad_norm": 0.5789633418286964,
      "learning_rate": 7.627789950212635e-06,
      "loss": 0.6434,
      "step": 7300
    },
    {
      "epoch": 0.8529892573563755,
      "grad_norm": 0.5841746070572975,
      "learning_rate": 7.607451981406441e-06,
      "loss": 0.6399,
      "step": 7305
    },
    {
      "epoch": 0.8535730966837927,
      "grad_norm": 0.6242425057438395,
      "learning_rate": 7.587188180318736e-06,
      "loss": 0.6325,
      "step": 7310
    },
    {
      "epoch": 0.8541569360112097,
      "grad_norm": 0.6265552276446478,
      "learning_rate": 7.5669986225014215e-06,
      "loss": 0.6133,
      "step": 7315
    },
    {
      "epoch": 0.8547407753386268,
      "grad_norm": 0.5868392976953574,
      "learning_rate": 7.546883383229594e-06,
      "loss": 0.6293,
      "step": 7320
    },
    {
      "epoch": 0.8553246146660439,
      "grad_norm": 0.5615113171449998,
      "learning_rate": 7.526842537501259e-06,
      "loss": 0.6184,
      "step": 7325
    },
    {
      "epoch": 0.855908453993461,
      "grad_norm": 0.5993576030041161,
      "learning_rate": 7.50687616003705e-06,
      "loss": 0.6505,
      "step": 7330
    },
    {
      "epoch": 0.8564922933208781,
      "grad_norm": 0.5867887403151126,
      "learning_rate": 7.486984325279956e-06,
      "loss": 0.6341,
      "step": 7335
    },
    {
      "epoch": 0.8570761326482952,
      "grad_norm": 0.6051624859315319,
      "learning_rate": 7.467167107395028e-06,
      "loss": 0.6504,
      "step": 7340
    },
    {
      "epoch": 0.8576599719757123,
      "grad_norm": 0.6037147824039196,
      "learning_rate": 7.44742458026913e-06,
      "loss": 0.6448,
      "step": 7345
    },
    {
      "epoch": 0.8582438113031294,
      "grad_norm": 0.5946601208566309,
      "learning_rate": 7.427756817510634e-06,
      "loss": 0.631,
      "step": 7350
    },
    {
      "epoch": 0.8588276506305464,
      "grad_norm": 0.5741556297197494,
      "learning_rate": 7.408163892449172e-06,
      "loss": 0.6563,
      "step": 7355
    },
    {
      "epoch": 0.8594114899579636,
      "grad_norm": 0.6303180031417959,
      "learning_rate": 7.388645878135338e-06,
      "loss": 0.6247,
      "step": 7360
    },
    {
      "epoch": 0.8599953292853807,
      "grad_norm": 0.5995656192902652,
      "learning_rate": 7.369202847340432e-06,
      "loss": 0.6342,
      "step": 7365
    },
    {
      "epoch": 0.8605791686127977,
      "grad_norm": 0.5906249879434073,
      "learning_rate": 7.349834872556187e-06,
      "loss": 0.6178,
      "step": 7370
    },
    {
      "epoch": 0.8611630079402148,
      "grad_norm": 0.65165057184435,
      "learning_rate": 7.330542025994495e-06,
      "loss": 0.6395,
      "step": 7375
    },
    {
      "epoch": 0.861746847267632,
      "grad_norm": 0.5643528091874781,
      "learning_rate": 7.311324379587136e-06,
      "loss": 0.6236,
      "step": 7380
    },
    {
      "epoch": 0.8623306865950491,
      "grad_norm": 0.5922391769747286,
      "learning_rate": 7.292182004985511e-06,
      "loss": 0.6236,
      "step": 7385
    },
    {
      "epoch": 0.8629145259224661,
      "grad_norm": 0.5850760407995166,
      "learning_rate": 7.2731149735603825e-06,
      "loss": 0.6375,
      "step": 7390
    },
    {
      "epoch": 0.8634983652498832,
      "grad_norm": 0.5381785704672893,
      "learning_rate": 7.254123356401597e-06,
      "loss": 0.6435,
      "step": 7395
    },
    {
      "epoch": 0.8640822045773003,
      "grad_norm": 0.5743079078236182,
      "learning_rate": 7.23520722431783e-06,
      "loss": 0.6323,
      "step": 7400
    },
    {
      "epoch": 0.8646660439047175,
      "grad_norm": 0.6261936371916004,
      "learning_rate": 7.216366647836306e-06,
      "loss": 0.6106,
      "step": 7405
    },
    {
      "epoch": 0.8652498832321345,
      "grad_norm": 0.634094214371704,
      "learning_rate": 7.197601697202565e-06,
      "loss": 0.6514,
      "step": 7410
    },
    {
      "epoch": 0.8658337225595516,
      "grad_norm": 0.6366357404750688,
      "learning_rate": 7.1789124423801645e-06,
      "loss": 0.6371,
      "step": 7415
    },
    {
      "epoch": 0.8664175618869687,
      "grad_norm": 0.5957182423994334,
      "learning_rate": 7.160298953050448e-06,
      "loss": 0.619,
      "step": 7420
    },
    {
      "epoch": 0.8670014012143858,
      "grad_norm": 0.6214057365825675,
      "learning_rate": 7.141761298612267e-06,
      "loss": 0.6493,
      "step": 7425
    },
    {
      "epoch": 0.8675852405418029,
      "grad_norm": 0.6313558445784697,
      "learning_rate": 7.123299548181732e-06,
      "loss": 0.6465,
      "step": 7430
    },
    {
      "epoch": 0.86816907986922,
      "grad_norm": 0.6421258222661969,
      "learning_rate": 7.104913770591953e-06,
      "loss": 0.6317,
      "step": 7435
    },
    {
      "epoch": 0.8687529191966371,
      "grad_norm": 0.6111310721240305,
      "learning_rate": 7.086604034392777e-06,
      "loss": 0.6518,
      "step": 7440
    },
    {
      "epoch": 0.8693367585240542,
      "grad_norm": 0.594650062721218,
      "learning_rate": 7.068370407850541e-06,
      "loss": 0.6501,
      "step": 7445
    },
    {
      "epoch": 0.8699205978514712,
      "grad_norm": 0.5899132242091928,
      "learning_rate": 7.050212958947813e-06,
      "loss": 0.6178,
      "step": 7450
    },
    {
      "epoch": 0.8705044371788884,
      "grad_norm": 0.6063821474980347,
      "learning_rate": 7.032131755383134e-06,
      "loss": 0.6121,
      "step": 7455
    },
    {
      "epoch": 0.8710882765063055,
      "grad_norm": 0.5965686651312564,
      "learning_rate": 7.014126864570782e-06,
      "loss": 0.6087,
      "step": 7460
    },
    {
      "epoch": 0.8716721158337225,
      "grad_norm": 0.575294738225672,
      "learning_rate": 6.996198353640495e-06,
      "loss": 0.632,
      "step": 7465
    },
    {
      "epoch": 0.8722559551611396,
      "grad_norm": 0.6032994099485566,
      "learning_rate": 6.978346289437245e-06,
      "loss": 0.6377,
      "step": 7470
    },
    {
      "epoch": 0.8728397944885568,
      "grad_norm": 0.5966900854298699,
      "learning_rate": 6.9605707385209755e-06,
      "loss": 0.6314,
      "step": 7475
    },
    {
      "epoch": 0.8734236338159739,
      "grad_norm": 0.610898441392739,
      "learning_rate": 6.942871767166354e-06,
      "loss": 0.6166,
      "step": 7480
    },
    {
      "epoch": 0.8740074731433909,
      "grad_norm": 0.5877123729177149,
      "learning_rate": 6.925249441362533e-06,
      "loss": 0.6445,
      "step": 7485
    },
    {
      "epoch": 0.874591312470808,
      "grad_norm": 0.5783211230488218,
      "learning_rate": 6.907703826812895e-06,
      "loss": 0.6248,
      "step": 7490
    },
    {
      "epoch": 0.8751751517982251,
      "grad_norm": 0.6179082340790674,
      "learning_rate": 6.89023498893481e-06,
      "loss": 0.6193,
      "step": 7495
    },
    {
      "epoch": 0.8757589911256423,
      "grad_norm": 0.5730522084112291,
      "learning_rate": 6.872842992859395e-06,
      "loss": 0.6415,
      "step": 7500
    },
    {
      "epoch": 0.8763428304530593,
      "grad_norm": 0.5982698829404914,
      "learning_rate": 6.855527903431267e-06,
      "loss": 0.6545,
      "step": 7505
    },
    {
      "epoch": 0.8769266697804764,
      "grad_norm": 0.5961084151743405,
      "learning_rate": 6.838289785208303e-06,
      "loss": 0.622,
      "step": 7510
    },
    {
      "epoch": 0.8775105091078935,
      "grad_norm": 0.6117282352748235,
      "learning_rate": 6.821128702461401e-06,
      "loss": 0.6221,
      "step": 7515
    },
    {
      "epoch": 0.8780943484353106,
      "grad_norm": 0.6251541376005386,
      "learning_rate": 6.804044719174235e-06,
      "loss": 0.6387,
      "step": 7520
    },
    {
      "epoch": 0.8786781877627277,
      "grad_norm": 0.6333406133218736,
      "learning_rate": 6.787037899043027e-06,
      "loss": 0.6487,
      "step": 7525
    },
    {
      "epoch": 0.8792620270901448,
      "grad_norm": 0.6202248190034936,
      "learning_rate": 6.770108305476293e-06,
      "loss": 0.6327,
      "step": 7530
    },
    {
      "epoch": 0.8798458664175619,
      "grad_norm": 0.5738748315197423,
      "learning_rate": 6.753256001594622e-06,
      "loss": 0.6261,
      "step": 7535
    },
    {
      "epoch": 0.880429705744979,
      "grad_norm": 0.6092187481579089,
      "learning_rate": 6.736481050230438e-06,
      "loss": 0.649,
      "step": 7540
    },
    {
      "epoch": 0.881013545072396,
      "grad_norm": 0.6620406400149058,
      "learning_rate": 6.719783513927755e-06,
      "loss": 0.6473,
      "step": 7545
    },
    {
      "epoch": 0.8815973843998132,
      "grad_norm": 0.5329023889984801,
      "learning_rate": 6.703163454941953e-06,
      "loss": 0.6226,
      "step": 7550
    },
    {
      "epoch": 0.8821812237272303,
      "grad_norm": 0.595989753599616,
      "learning_rate": 6.686620935239552e-06,
      "loss": 0.6293,
      "step": 7555
    },
    {
      "epoch": 0.8827650630546474,
      "grad_norm": 0.5929933589279678,
      "learning_rate": 6.670156016497958e-06,
      "loss": 0.6156,
      "step": 7560
    },
    {
      "epoch": 0.8833489023820644,
      "grad_norm": 0.5871775777565705,
      "learning_rate": 6.653768760105268e-06,
      "loss": 0.6316,
      "step": 7565
    },
    {
      "epoch": 0.8839327417094816,
      "grad_norm": 0.5852189786127018,
      "learning_rate": 6.637459227160004e-06,
      "loss": 0.6264,
      "step": 7570
    },
    {
      "epoch": 0.8845165810368987,
      "grad_norm": 0.5793680620401365,
      "learning_rate": 6.621227478470911e-06,
      "loss": 0.6379,
      "step": 7575
    },
    {
      "epoch": 0.8851004203643157,
      "grad_norm": 0.5972498950686099,
      "learning_rate": 6.605073574556721e-06,
      "loss": 0.6471,
      "step": 7580
    },
    {
      "epoch": 0.8856842596917328,
      "grad_norm": 0.5985472050403043,
      "learning_rate": 6.588997575645929e-06,
      "loss": 0.6137,
      "step": 7585
    },
    {
      "epoch": 0.8862680990191499,
      "grad_norm": 0.6018567480056775,
      "learning_rate": 6.572999541676563e-06,
      "loss": 0.6468,
      "step": 7590
    },
    {
      "epoch": 0.8868519383465671,
      "grad_norm": 0.6019158386265433,
      "learning_rate": 6.557079532295968e-06,
      "loss": 0.6315,
      "step": 7595
    },
    {
      "epoch": 0.8874357776739841,
      "grad_norm": 0.5745280786194661,
      "learning_rate": 6.541237606860582e-06,
      "loss": 0.6242,
      "step": 7600
    },
    {
      "epoch": 0.8880196170014012,
      "grad_norm": 0.5604599589548389,
      "learning_rate": 6.525473824435714e-06,
      "loss": 0.6429,
      "step": 7605
    },
    {
      "epoch": 0.8886034563288183,
      "grad_norm": 0.5719551021185416,
      "learning_rate": 6.5097882437953205e-06,
      "loss": 0.6215,
      "step": 7610
    },
    {
      "epoch": 0.8891872956562354,
      "grad_norm": 0.6037011288977054,
      "learning_rate": 6.49418092342179e-06,
      "loss": 0.644,
      "step": 7615
    },
    {
      "epoch": 0.8897711349836525,
      "grad_norm": 0.5582874213963103,
      "learning_rate": 6.478651921505727e-06,
      "loss": 0.6329,
      "step": 7620
    },
    {
      "epoch": 0.8903549743110696,
      "grad_norm": 0.5869464431191361,
      "learning_rate": 6.463201295945727e-06,
      "loss": 0.6403,
      "step": 7625
    },
    {
      "epoch": 0.8909388136384867,
      "grad_norm": 0.5695738691482084,
      "learning_rate": 6.447829104348171e-06,
      "loss": 0.6341,
      "step": 7630
    },
    {
      "epoch": 0.8915226529659038,
      "grad_norm": 0.5884434441417679,
      "learning_rate": 6.432535404026997e-06,
      "loss": 0.631,
      "step": 7635
    },
    {
      "epoch": 0.8921064922933208,
      "grad_norm": 0.5613896008670317,
      "learning_rate": 6.417320252003505e-06,
      "loss": 0.6231,
      "step": 7640
    },
    {
      "epoch": 0.892690331620738,
      "grad_norm": 0.5733433479092367,
      "learning_rate": 6.402183705006127e-06,
      "loss": 0.6247,
      "step": 7645
    },
    {
      "epoch": 0.8932741709481551,
      "grad_norm": 0.5789784381483709,
      "learning_rate": 6.387125819470231e-06,
      "loss": 0.6275,
      "step": 7650
    },
    {
      "epoch": 0.8938580102755722,
      "grad_norm": 0.5855870723039609,
      "learning_rate": 6.372146651537892e-06,
      "loss": 0.6334,
      "step": 7655
    },
    {
      "epoch": 0.8944418496029892,
      "grad_norm": 0.5790357716517759,
      "learning_rate": 6.3572462570576985e-06,
      "loss": 0.6369,
      "step": 7660
    },
    {
      "epoch": 0.8950256889304063,
      "grad_norm": 0.5917387925639677,
      "learning_rate": 6.3424246915845395e-06,
      "loss": 0.65,
      "step": 7665
    },
    {
      "epoch": 0.8956095282578235,
      "grad_norm": 0.6005126599817849,
      "learning_rate": 6.327682010379392e-06,
      "loss": 0.6315,
      "step": 7670
    },
    {
      "epoch": 0.8961933675852406,
      "grad_norm": 0.6156495229109331,
      "learning_rate": 6.313018268409122e-06,
      "loss": 0.612,
      "step": 7675
    },
    {
      "epoch": 0.8967772069126576,
      "grad_norm": 0.5874738604549495,
      "learning_rate": 6.2984335203462825e-06,
      "loss": 0.6362,
      "step": 7680
    },
    {
      "epoch": 0.8973610462400747,
      "grad_norm": 0.5635575151716498,
      "learning_rate": 6.283927820568894e-06,
      "loss": 0.6152,
      "step": 7685
    },
    {
      "epoch": 0.8979448855674919,
      "grad_norm": 0.6131277247350563,
      "learning_rate": 6.269501223160259e-06,
      "loss": 0.6304,
      "step": 7690
    },
    {
      "epoch": 0.8985287248949089,
      "grad_norm": 0.5611246976662609,
      "learning_rate": 6.255153781908754e-06,
      "loss": 0.635,
      "step": 7695
    },
    {
      "epoch": 0.899112564222326,
      "grad_norm": 0.5763254004910536,
      "learning_rate": 6.240885550307624e-06,
      "loss": 0.6119,
      "step": 7700
    },
    {
      "epoch": 0.8996964035497431,
      "grad_norm": 0.5986985930592617,
      "learning_rate": 6.2266965815547865e-06,
      "loss": 0.6241,
      "step": 7705
    },
    {
      "epoch": 0.9002802428771602,
      "grad_norm": 0.6011640913293429,
      "learning_rate": 6.212586928552641e-06,
      "loss": 0.6156,
      "step": 7710
    },
    {
      "epoch": 0.9008640822045773,
      "grad_norm": 0.5873329366206337,
      "learning_rate": 6.19855664390786e-06,
      "loss": 0.6262,
      "step": 7715
    },
    {
      "epoch": 0.9014479215319944,
      "grad_norm": 0.5922643236306615,
      "learning_rate": 6.184605779931197e-06,
      "loss": 0.6424,
      "step": 7720
    },
    {
      "epoch": 0.9020317608594115,
      "grad_norm": 0.5965372758227344,
      "learning_rate": 6.170734388637294e-06,
      "loss": 0.6339,
      "step": 7725
    },
    {
      "epoch": 0.9026156001868286,
      "grad_norm": 0.5789469748793128,
      "learning_rate": 6.156942521744484e-06,
      "loss": 0.6186,
      "step": 7730
    },
    {
      "epoch": 0.9031994395142456,
      "grad_norm": 0.5845062220347781,
      "learning_rate": 6.143230230674602e-06,
      "loss": 0.6282,
      "step": 7735
    },
    {
      "epoch": 0.9037832788416628,
      "grad_norm": 0.5871311104639835,
      "learning_rate": 6.12959756655279e-06,
      "loss": 0.6268,
      "step": 7740
    },
    {
      "epoch": 0.9043671181690799,
      "grad_norm": 0.6144246132041297,
      "learning_rate": 6.11604458020731e-06,
      "loss": 0.6361,
      "step": 7745
    },
    {
      "epoch": 0.904950957496497,
      "grad_norm": 0.5632685742171856,
      "learning_rate": 6.102571322169347e-06,
      "loss": 0.6351,
      "step": 7750
    },
    {
      "epoch": 0.905534796823914,
      "grad_norm": 0.6125320826036844,
      "learning_rate": 6.089177842672826e-06,
      "loss": 0.6469,
      "step": 7755
    },
    {
      "epoch": 0.9061186361513311,
      "grad_norm": 0.604521634652814,
      "learning_rate": 6.075864191654231e-06,
      "loss": 0.6269,
      "step": 7760
    },
    {
      "epoch": 0.9067024754787483,
      "grad_norm": 0.575565398186447,
      "learning_rate": 6.062630418752404e-06,
      "loss": 0.621,
      "step": 7765
    },
    {
      "epoch": 0.9072863148061654,
      "grad_norm": 0.60593584998349,
      "learning_rate": 6.049476573308375e-06,
      "loss": 0.6472,
      "step": 7770
    },
    {
      "epoch": 0.9078701541335824,
      "grad_norm": 0.5555915365416894,
      "learning_rate": 6.036402704365168e-06,
      "loss": 0.6239,
      "step": 7775
    },
    {
      "epoch": 0.9084539934609995,
      "grad_norm": 0.6061859054502865,
      "learning_rate": 6.023408860667617e-06,
      "loss": 0.6447,
      "step": 7780
    },
    {
      "epoch": 0.9090378327884167,
      "grad_norm": 0.5939193378003372,
      "learning_rate": 6.010495090662197e-06,
      "loss": 0.6209,
      "step": 7785
    },
    {
      "epoch": 0.9096216721158337,
      "grad_norm": 0.5992459593790246,
      "learning_rate": 5.9976614424968245e-06,
      "loss": 0.6231,
      "step": 7790
    },
    {
      "epoch": 0.9102055114432508,
      "grad_norm": 0.5926513959690488,
      "learning_rate": 5.9849079640207e-06,
      "loss": 0.6281,
      "step": 7795
    },
    {
      "epoch": 0.9107893507706679,
      "grad_norm": 0.6549532492152256,
      "learning_rate": 5.972234702784106e-06,
      "loss": 0.6392,
      "step": 7800
    },
    {
      "epoch": 0.911373190098085,
      "grad_norm": 0.5997057009691191,
      "learning_rate": 5.9596417060382545e-06,
      "loss": 0.6308,
      "step": 7805
    },
    {
      "epoch": 0.911957029425502,
      "grad_norm": 0.5956499191366402,
      "learning_rate": 5.9471290207350925e-06,
      "loss": 0.6122,
      "step": 7810
    },
    {
      "epoch": 0.9125408687529192,
      "grad_norm": 0.6003046930206634,
      "learning_rate": 5.934696693527123e-06,
      "loss": 0.6326,
      "step": 7815
    },
    {
      "epoch": 0.9131247080803363,
      "grad_norm": 0.5678487478127593,
      "learning_rate": 5.9223447707672564e-06,
      "loss": 0.615,
      "step": 7820
    },
    {
      "epoch": 0.9137085474077534,
      "grad_norm": 0.6110308127531793,
      "learning_rate": 5.910073298508609e-06,
      "loss": 0.6424,
      "step": 7825
    },
    {
      "epoch": 0.9142923867351704,
      "grad_norm": 0.5807846331837968,
      "learning_rate": 5.8978823225043555e-06,
      "loss": 0.6242,
      "step": 7830
    },
    {
      "epoch": 0.9148762260625876,
      "grad_norm": 0.5947050905634069,
      "learning_rate": 5.8857718882075325e-06,
      "loss": 0.6456,
      "step": 7835
    },
    {
      "epoch": 0.9154600653900047,
      "grad_norm": 0.5643509149559328,
      "learning_rate": 5.8737420407708985e-06,
      "loss": 0.6282,
      "step": 7840
    },
    {
      "epoch": 0.9160439047174218,
      "grad_norm": 0.5853474055836014,
      "learning_rate": 5.861792825046739e-06,
      "loss": 0.6247,
      "step": 7845
    },
    {
      "epoch": 0.9166277440448388,
      "grad_norm": 0.5676070256446623,
      "learning_rate": 5.849924285586719e-06,
      "loss": 0.6382,
      "step": 7850
    },
    {
      "epoch": 0.917211583372256,
      "grad_norm": 0.5920050545049914,
      "learning_rate": 5.838136466641704e-06,
      "loss": 0.6282,
      "step": 7855
    },
    {
      "epoch": 0.9177954226996731,
      "grad_norm": 0.587809192772673,
      "learning_rate": 5.8264294121616e-06,
      "loss": 0.6266,
      "step": 7860
    },
    {
      "epoch": 0.9183792620270902,
      "grad_norm": 0.6148621426813374,
      "learning_rate": 5.814803165795194e-06,
      "loss": 0.6331,
      "step": 7865
    },
    {
      "epoch": 0.9189631013545072,
      "grad_norm": 0.5876900466381477,
      "learning_rate": 5.803257770889978e-06,
      "loss": 0.6398,
      "step": 7870
    },
    {
      "epoch": 0.9195469406819243,
      "grad_norm": 0.5939774769190836,
      "learning_rate": 5.791793270492006e-06,
      "loss": 0.6322,
      "step": 7875
    },
    {
      "epoch": 0.9201307800093415,
      "grad_norm": 0.5789466055435857,
      "learning_rate": 5.780409707345714e-06,
      "loss": 0.6463,
      "step": 7880
    },
    {
      "epoch": 0.9207146193367586,
      "grad_norm": 0.5609575621697309,
      "learning_rate": 5.769107123893781e-06,
      "loss": 0.6173,
      "step": 7885
    },
    {
      "epoch": 0.9212984586641756,
      "grad_norm": 0.5577225899589808,
      "learning_rate": 5.757885562276948e-06,
      "loss": 0.6214,
      "step": 7890
    },
    {
      "epoch": 0.9218822979915927,
      "grad_norm": 0.5898473069884559,
      "learning_rate": 5.7467450643338804e-06,
      "loss": 0.6285,
      "step": 7895
    },
    {
      "epoch": 0.9224661373190098,
      "grad_norm": 0.5721961907102839,
      "learning_rate": 5.7356856716010014e-06,
      "loss": 0.6247,
      "step": 7900
    },
    {
      "epoch": 0.9230499766464269,
      "grad_norm": 0.6238808048027492,
      "learning_rate": 5.724707425312344e-06,
      "loss": 0.6246,
      "step": 7905
    },
    {
      "epoch": 0.923633815973844,
      "grad_norm": 0.5791143715327993,
      "learning_rate": 5.7138103663993895e-06,
      "loss": 0.6254,
      "step": 7910
    },
    {
      "epoch": 0.9242176553012611,
      "grad_norm": 0.5893152674667929,
      "learning_rate": 5.70299453549092e-06,
      "loss": 0.632,
      "step": 7915
    },
    {
      "epoch": 0.9248014946286782,
      "grad_norm": 0.6070842874428386,
      "learning_rate": 5.692259972912865e-06,
      "loss": 0.6251,
      "step": 7920
    },
    {
      "epoch": 0.9253853339560952,
      "grad_norm": 0.5962820894650079,
      "learning_rate": 5.681606718688152e-06,
      "loss": 0.6275,
      "step": 7925
    },
    {
      "epoch": 0.9259691732835124,
      "grad_norm": 0.5553459724718108,
      "learning_rate": 5.671034812536561e-06,
      "loss": 0.5999,
      "step": 7930
    },
    {
      "epoch": 0.9265530126109295,
      "grad_norm": 0.613232503868812,
      "learning_rate": 5.660544293874561e-06,
      "loss": 0.6133,
      "step": 7935
    },
    {
      "epoch": 0.9271368519383466,
      "grad_norm": 0.5801623987095087,
      "learning_rate": 5.65013520181519e-06,
      "loss": 0.6213,
      "step": 7940
    },
    {
      "epoch": 0.9277206912657636,
      "grad_norm": 0.5531859501490597,
      "learning_rate": 5.639807575167886e-06,
      "loss": 0.6217,
      "step": 7945
    },
    {
      "epoch": 0.9283045305931807,
      "grad_norm": 0.5843472632939827,
      "learning_rate": 5.6295614524383436e-06,
      "loss": 0.6238,
      "step": 7950
    },
    {
      "epoch": 0.9288883699205979,
      "grad_norm": 0.5953076232672708,
      "learning_rate": 5.619396871828387e-06,
      "loss": 0.6281,
      "step": 7955
    },
    {
      "epoch": 0.929472209248015,
      "grad_norm": 0.6537058483917418,
      "learning_rate": 5.6093138712358155e-06,
      "loss": 0.6321,
      "step": 7960
    },
    {
      "epoch": 0.930056048575432,
      "grad_norm": 0.6050956625859224,
      "learning_rate": 5.5993124882542584e-06,
      "loss": 0.633,
      "step": 7965
    },
    {
      "epoch": 0.9306398879028491,
      "grad_norm": 0.5938596525123857,
      "learning_rate": 5.589392760173047e-06,
      "loss": 0.6336,
      "step": 7970
    },
    {
      "epoch": 0.9312237272302663,
      "grad_norm": 0.5808287306501443,
      "learning_rate": 5.579554723977065e-06,
      "loss": 0.6205,
      "step": 7975
    },
    {
      "epoch": 0.9318075665576834,
      "grad_norm": 0.5741959017637736,
      "learning_rate": 5.569798416346615e-06,
      "loss": 0.6271,
      "step": 7980
    },
    {
      "epoch": 0.9323914058851004,
      "grad_norm": 0.620961853533032,
      "learning_rate": 5.560123873657284e-06,
      "loss": 0.6217,
      "step": 7985
    },
    {
      "epoch": 0.9329752452125175,
      "grad_norm": 0.5735575986272371,
      "learning_rate": 5.550531131979804e-06,
      "loss": 0.6314,
      "step": 7990
    },
    {
      "epoch": 0.9335590845399346,
      "grad_norm": 0.57393459936111,
      "learning_rate": 5.5410202270799165e-06,
      "loss": 0.6327,
      "step": 7995
    },
    {
      "epoch": 0.9341429238673518,
      "grad_norm": 0.5887604120106468,
      "learning_rate": 5.531591194418244e-06,
      "loss": 0.6235,
      "step": 8000
    },
    {
      "epoch": 0.9347267631947688,
      "grad_norm": 0.5625514258585821,
      "learning_rate": 5.5222440691501534e-06,
      "loss": 0.623,
      "step": 8005
    },
    {
      "epoch": 0.9353106025221859,
      "grad_norm": 0.579437947711775,
      "learning_rate": 5.512978886125628e-06,
      "loss": 0.6078,
      "step": 8010
    },
    {
      "epoch": 0.935894441849603,
      "grad_norm": 0.5746479892458379,
      "learning_rate": 5.5037956798891345e-06,
      "loss": 0.626,
      "step": 8015
    },
    {
      "epoch": 0.93647828117702,
      "grad_norm": 0.6248729593430751,
      "learning_rate": 5.494694484679501e-06,
      "loss": 0.6097,
      "step": 8020
    },
    {
      "epoch": 0.9370621205044372,
      "grad_norm": 0.5976544998280431,
      "learning_rate": 5.485675334429776e-06,
      "loss": 0.6042,
      "step": 8025
    },
    {
      "epoch": 0.9376459598318543,
      "grad_norm": 0.5953741944030403,
      "learning_rate": 5.476738262767116e-06,
      "loss": 0.6401,
      "step": 8030
    },
    {
      "epoch": 0.9382297991592714,
      "grad_norm": 0.5820653871322563,
      "learning_rate": 5.467883303012653e-06,
      "loss": 0.6403,
      "step": 8035
    },
    {
      "epoch": 0.9388136384866884,
      "grad_norm": 0.548717776517309,
      "learning_rate": 5.459110488181373e-06,
      "loss": 0.6169,
      "step": 8040
    },
    {
      "epoch": 0.9393974778141055,
      "grad_norm": 0.6017633488697844,
      "learning_rate": 5.450419850981987e-06,
      "loss": 0.6487,
      "step": 8045
    },
    {
      "epoch": 0.9399813171415227,
      "grad_norm": 0.5874919853407551,
      "learning_rate": 5.441811423816817e-06,
      "loss": 0.6397,
      "step": 8050
    },
    {
      "epoch": 0.9405651564689398,
      "grad_norm": 0.5855086777496958,
      "learning_rate": 5.433285238781674e-06,
      "loss": 0.6418,
      "step": 8055
    },
    {
      "epoch": 0.9411489957963568,
      "grad_norm": 0.5796809419680976,
      "learning_rate": 5.424841327665728e-06,
      "loss": 0.6353,
      "step": 8060
    },
    {
      "epoch": 0.9417328351237739,
      "grad_norm": 0.6073576400260668,
      "learning_rate": 5.416479721951409e-06,
      "loss": 0.6234,
      "step": 8065
    },
    {
      "epoch": 0.942316674451191,
      "grad_norm": 0.5763590392057469,
      "learning_rate": 5.408200452814265e-06,
      "loss": 0.6167,
      "step": 8070
    },
    {
      "epoch": 0.9429005137786082,
      "grad_norm": 0.5592518641443556,
      "learning_rate": 5.400003551122871e-06,
      "loss": 0.6356,
      "step": 8075
    },
    {
      "epoch": 0.9434843531060252,
      "grad_norm": 0.6114852642140004,
      "learning_rate": 5.391889047438692e-06,
      "loss": 0.6231,
      "step": 8080
    },
    {
      "epoch": 0.9440681924334423,
      "grad_norm": 0.6239977699979702,
      "learning_rate": 5.383856972015984e-06,
      "loss": 0.6216,
      "step": 8085
    },
    {
      "epoch": 0.9446520317608594,
      "grad_norm": 0.5934103583221862,
      "learning_rate": 5.3759073548016776e-06,
      "loss": 0.6394,
      "step": 8090
    },
    {
      "epoch": 0.9452358710882766,
      "grad_norm": 0.5749305173515513,
      "learning_rate": 5.368040225435264e-06,
      "loss": 0.6178,
      "step": 8095
    },
    {
      "epoch": 0.9458197104156936,
      "grad_norm": 0.5450188710666751,
      "learning_rate": 5.360255613248679e-06,
      "loss": 0.6144,
      "step": 8100
    },
    {
      "epoch": 0.9464035497431107,
      "grad_norm": 0.5688620542709263,
      "learning_rate": 5.352553547266205e-06,
      "loss": 0.6338,
      "step": 8105
    },
    {
      "epoch": 0.9469873890705278,
      "grad_norm": 0.5788749409178702,
      "learning_rate": 5.34493405620436e-06,
      "loss": 0.6444,
      "step": 8110
    },
    {
      "epoch": 0.9475712283979448,
      "grad_norm": 0.63750470201553,
      "learning_rate": 5.337397168471786e-06,
      "loss": 0.6394,
      "step": 8115
    },
    {
      "epoch": 0.948155067725362,
      "grad_norm": 0.5993406233897292,
      "learning_rate": 5.329942912169144e-06,
      "loss": 0.6326,
      "step": 8120
    },
    {
      "epoch": 0.9487389070527791,
      "grad_norm": 0.5758372086950723,
      "learning_rate": 5.322571315089009e-06,
      "loss": 0.6255,
      "step": 8125
    },
    {
      "epoch": 0.9493227463801962,
      "grad_norm": 0.5645325322106245,
      "learning_rate": 5.315282404715776e-06,
      "loss": 0.6258,
      "step": 8130
    },
    {
      "epoch": 0.9499065857076132,
      "grad_norm": 0.5631286057965411,
      "learning_rate": 5.308076208225538e-06,
      "loss": 0.6252,
      "step": 8135
    },
    {
      "epoch": 0.9504904250350303,
      "grad_norm": 0.6324457688892521,
      "learning_rate": 5.300952752486006e-06,
      "loss": 0.6407,
      "step": 8140
    },
    {
      "epoch": 0.9510742643624475,
      "grad_norm": 0.5738895175594562,
      "learning_rate": 5.293912064056394e-06,
      "loss": 0.6218,
      "step": 8145
    },
    {
      "epoch": 0.9516581036898646,
      "grad_norm": 0.5758169636621945,
      "learning_rate": 5.286954169187325e-06,
      "loss": 0.6158,
      "step": 8150
    },
    {
      "epoch": 0.9522419430172816,
      "grad_norm": 0.6504160410551667,
      "learning_rate": 5.280079093820737e-06,
      "loss": 0.6441,
      "step": 8155
    },
    {
      "epoch": 0.9528257823446987,
      "grad_norm": 0.5954950695118845,
      "learning_rate": 5.273286863589776e-06,
      "loss": 0.6405,
      "step": 8160
    },
    {
      "epoch": 0.9534096216721158,
      "grad_norm": 0.5690006780375534,
      "learning_rate": 5.266577503818708e-06,
      "loss": 0.6516,
      "step": 8165
    },
    {
      "epoch": 0.953993460999533,
      "grad_norm": 0.5984737264452394,
      "learning_rate": 5.259951039522832e-06,
      "loss": 0.6452,
      "step": 8170
    },
    {
      "epoch": 0.95457730032695,
      "grad_norm": 0.6010086090108752,
      "learning_rate": 5.253407495408368e-06,
      "loss": 0.623,
      "step": 8175
    },
    {
      "epoch": 0.9551611396543671,
      "grad_norm": 0.5623765170749638,
      "learning_rate": 5.24694689587238e-06,
      "loss": 0.6232,
      "step": 8180
    },
    {
      "epoch": 0.9557449789817842,
      "grad_norm": 0.5660884439507055,
      "learning_rate": 5.240569265002673e-06,
      "loss": 0.6229,
      "step": 8185
    },
    {
      "epoch": 0.9563288183092014,
      "grad_norm": 0.5856955251220529,
      "learning_rate": 5.234274626577723e-06,
      "loss": 0.6416,
      "step": 8190
    },
    {
      "epoch": 0.9569126576366184,
      "grad_norm": 0.5942822574063878,
      "learning_rate": 5.228063004066567e-06,
      "loss": 0.6179,
      "step": 8195
    },
    {
      "epoch": 0.9574964969640355,
      "grad_norm": 0.6209192638572009,
      "learning_rate": 5.22193442062872e-06,
      "loss": 0.6222,
      "step": 8200
    },
    {
      "epoch": 0.9580803362914526,
      "grad_norm": 0.6332384096267408,
      "learning_rate": 5.2158888991141055e-06,
      "loss": 0.6333,
      "step": 8205
    },
    {
      "epoch": 0.9586641756188697,
      "grad_norm": 0.5824197330774395,
      "learning_rate": 5.2099264620629425e-06,
      "loss": 0.6343,
      "step": 8210
    },
    {
      "epoch": 0.9592480149462868,
      "grad_norm": 0.580708798795656,
      "learning_rate": 5.204047131705689e-06,
      "loss": 0.6194,
      "step": 8215
    },
    {
      "epoch": 0.9598318542737039,
      "grad_norm": 0.6071990294751999,
      "learning_rate": 5.198250929962939e-06,
      "loss": 0.6405,
      "step": 8220
    },
    {
      "epoch": 0.960415693601121,
      "grad_norm": 0.5904035551150635,
      "learning_rate": 5.192537878445356e-06,
      "loss": 0.6375,
      "step": 8225
    },
    {
      "epoch": 0.960999532928538,
      "grad_norm": 0.5707654417055844,
      "learning_rate": 5.186907998453573e-06,
      "loss": 0.6239,
      "step": 8230
    },
    {
      "epoch": 0.9615833722559551,
      "grad_norm": 0.6110530879520853,
      "learning_rate": 5.181361310978133e-06,
      "loss": 0.6157,
      "step": 8235
    },
    {
      "epoch": 0.9621672115833723,
      "grad_norm": 0.5713240749254127,
      "learning_rate": 5.175897836699403e-06,
      "loss": 0.6427,
      "step": 8240
    },
    {
      "epoch": 0.9627510509107894,
      "grad_norm": 0.6113466535850735,
      "learning_rate": 5.170517595987493e-06,
      "loss": 0.633,
      "step": 8245
    },
    {
      "epoch": 0.9633348902382064,
      "grad_norm": 0.6352232672030907,
      "learning_rate": 5.165220608902186e-06,
      "loss": 0.6283,
      "step": 8250
    },
    {
      "epoch": 0.9639187295656235,
      "grad_norm": 0.6248726494982753,
      "learning_rate": 5.160006895192858e-06,
      "loss": 0.627,
      "step": 8255
    },
    {
      "epoch": 0.9645025688930406,
      "grad_norm": 0.5977144170498508,
      "learning_rate": 5.154876474298412e-06,
      "loss": 0.6079,
      "step": 8260
    },
    {
      "epoch": 0.9650864082204578,
      "grad_norm": 0.6176936440149047,
      "learning_rate": 5.149829365347197e-06,
      "loss": 0.6287,
      "step": 8265
    },
    {
      "epoch": 0.9656702475478748,
      "grad_norm": 0.5930270091080995,
      "learning_rate": 5.14486558715694e-06,
      "loss": 0.6327,
      "step": 8270
    },
    {
      "epoch": 0.9662540868752919,
      "grad_norm": 0.6038829668240889,
      "learning_rate": 5.139985158234677e-06,
      "loss": 0.6649,
      "step": 8275
    },
    {
      "epoch": 0.966837926202709,
      "grad_norm": 0.6054431949079073,
      "learning_rate": 5.135188096776682e-06,
      "loss": 0.6263,
      "step": 8280
    },
    {
      "epoch": 0.9674217655301262,
      "grad_norm": 0.5883184566217126,
      "learning_rate": 5.130474420668403e-06,
      "loss": 0.6393,
      "step": 8285
    },
    {
      "epoch": 0.9680056048575432,
      "grad_norm": 0.6114296749695102,
      "learning_rate": 5.125844147484391e-06,
      "loss": 0.6194,
      "step": 8290
    },
    {
      "epoch": 0.9685894441849603,
      "grad_norm": 0.6480286564406009,
      "learning_rate": 5.121297294488237e-06,
      "loss": 0.6508,
      "step": 8295
    },
    {
      "epoch": 0.9691732835123774,
      "grad_norm": 0.5652153579112486,
      "learning_rate": 5.1168338786325025e-06,
      "loss": 0.6234,
      "step": 8300
    },
    {
      "epoch": 0.9697571228397945,
      "grad_norm": 0.655551749204273,
      "learning_rate": 5.112453916558671e-06,
      "loss": 0.6485,
      "step": 8305
    },
    {
      "epoch": 0.9703409621672116,
      "grad_norm": 0.5723069124877626,
      "learning_rate": 5.108157424597062e-06,
      "loss": 0.6224,
      "step": 8310
    },
    {
      "epoch": 0.9709248014946287,
      "grad_norm": 0.5959024092431895,
      "learning_rate": 5.103944418766791e-06,
      "loss": 0.634,
      "step": 8315
    },
    {
      "epoch": 0.9715086408220458,
      "grad_norm": 0.5985134268757333,
      "learning_rate": 5.099814914775706e-06,
      "loss": 0.6226,
      "step": 8320
    },
    {
      "epoch": 0.9720924801494629,
      "grad_norm": 0.5897338045813747,
      "learning_rate": 5.095768928020314e-06,
      "loss": 0.639,
      "step": 8325
    },
    {
      "epoch": 0.9726763194768799,
      "grad_norm": 0.651914632203561,
      "learning_rate": 5.09180647358575e-06,
      "loss": 0.6239,
      "step": 8330
    },
    {
      "epoch": 0.9732601588042971,
      "grad_norm": 0.6099486128222116,
      "learning_rate": 5.087927566245688e-06,
      "loss": 0.6226,
      "step": 8335
    },
    {
      "epoch": 0.9738439981317142,
      "grad_norm": 0.546666413702602,
      "learning_rate": 5.0841322204623205e-06,
      "loss": 0.617,
      "step": 8340
    },
    {
      "epoch": 0.9744278374591312,
      "grad_norm": 0.5704580268593588,
      "learning_rate": 5.080420450386274e-06,
      "loss": 0.6289,
      "step": 8345
    },
    {
      "epoch": 0.9750116767865483,
      "grad_norm": 0.6016070522149358,
      "learning_rate": 5.076792269856582e-06,
      "loss": 0.6254,
      "step": 8350
    },
    {
      "epoch": 0.9755955161139654,
      "grad_norm": 0.6144686115339516,
      "learning_rate": 5.073247692400609e-06,
      "loss": 0.6188,
      "step": 8355
    },
    {
      "epoch": 0.9761793554413826,
      "grad_norm": 0.5912193203791197,
      "learning_rate": 5.069786731234025e-06,
      "loss": 0.6349,
      "step": 8360
    },
    {
      "epoch": 0.9767631947687996,
      "grad_norm": 0.5690491120853608,
      "learning_rate": 5.066409399260733e-06,
      "loss": 0.647,
      "step": 8365
    },
    {
      "epoch": 0.9773470340962167,
      "grad_norm": 0.5595435206008783,
      "learning_rate": 5.063115709072837e-06,
      "loss": 0.6356,
      "step": 8370
    },
    {
      "epoch": 0.9779308734236338,
      "grad_norm": 0.5831436839137033,
      "learning_rate": 5.059905672950588e-06,
      "loss": 0.6333,
      "step": 8375
    },
    {
      "epoch": 0.978514712751051,
      "grad_norm": 0.6175484375330281,
      "learning_rate": 5.056779302862337e-06,
      "loss": 0.6341,
      "step": 8380
    },
    {
      "epoch": 0.979098552078468,
      "grad_norm": 0.5821033777881047,
      "learning_rate": 5.0537366104645e-06,
      "loss": 0.6186,
      "step": 8385
    },
    {
      "epoch": 0.9796823914058851,
      "grad_norm": 0.6004196509282287,
      "learning_rate": 5.050777607101506e-06,
      "loss": 0.6264,
      "step": 8390
    },
    {
      "epoch": 0.9802662307333022,
      "grad_norm": 0.615930287431196,
      "learning_rate": 5.047902303805746e-06,
      "loss": 0.6471,
      "step": 8395
    },
    {
      "epoch": 0.9808500700607193,
      "grad_norm": 0.5882780472877527,
      "learning_rate": 5.045110711297557e-06,
      "loss": 0.6249,
      "step": 8400
    },
    {
      "epoch": 0.9814339093881363,
      "grad_norm": 0.5649174129976797,
      "learning_rate": 5.042402839985161e-06,
      "loss": 0.6123,
      "step": 8405
    },
    {
      "epoch": 0.9820177487155535,
      "grad_norm": 0.6170975536166484,
      "learning_rate": 5.039778699964626e-06,
      "loss": 0.637,
      "step": 8410
    },
    {
      "epoch": 0.9826015880429706,
      "grad_norm": 0.5811148214585863,
      "learning_rate": 5.037238301019845e-06,
      "loss": 0.6136,
      "step": 8415
    },
    {
      "epoch": 0.9831854273703877,
      "grad_norm": 0.5891383001640484,
      "learning_rate": 5.034781652622484e-06,
      "loss": 0.6163,
      "step": 8420
    },
    {
      "epoch": 0.9837692666978047,
      "grad_norm": 0.5778442239111855,
      "learning_rate": 5.032408763931956e-06,
      "loss": 0.6011,
      "step": 8425
    },
    {
      "epoch": 0.9843531060252219,
      "grad_norm": 0.6213289305639533,
      "learning_rate": 5.0301196437953755e-06,
      "loss": 0.6219,
      "step": 8430
    },
    {
      "epoch": 0.984936945352639,
      "grad_norm": 0.5936267104807765,
      "learning_rate": 5.0279143007475425e-06,
      "loss": 0.6338,
      "step": 8435
    },
    {
      "epoch": 0.985520784680056,
      "grad_norm": 0.6102251067582517,
      "learning_rate": 5.02579274301089e-06,
      "loss": 0.6321,
      "step": 8440
    },
    {
      "epoch": 0.9861046240074731,
      "grad_norm": 0.6211508033536209,
      "learning_rate": 5.0237549784954745e-06,
      "loss": 0.6076,
      "step": 8445
    },
    {
      "epoch": 0.9866884633348902,
      "grad_norm": 0.6012756936641813,
      "learning_rate": 5.021801014798933e-06,
      "loss": 0.6137,
      "step": 8450
    },
    {
      "epoch": 0.9872723026623074,
      "grad_norm": 0.5574258509117747,
      "learning_rate": 5.0199308592064535e-06,
      "loss": 0.6175,
      "step": 8455
    },
    {
      "epoch": 0.9878561419897244,
      "grad_norm": 0.5843933121249048,
      "learning_rate": 5.018144518690761e-06,
      "loss": 0.6243,
      "step": 8460
    },
    {
      "epoch": 0.9884399813171415,
      "grad_norm": 0.5567147895943964,
      "learning_rate": 5.016441999912074e-06,
      "loss": 0.6252,
      "step": 8465
    },
    {
      "epoch": 0.9890238206445586,
      "grad_norm": 0.6198445874725916,
      "learning_rate": 5.014823309218096e-06,
      "loss": 0.6216,
      "step": 8470
    },
    {
      "epoch": 0.9896076599719758,
      "grad_norm": 0.6235986624021734,
      "learning_rate": 5.013288452643979e-06,
      "loss": 0.6358,
      "step": 8475
    },
    {
      "epoch": 0.9901914992993928,
      "grad_norm": 0.5920757806320878,
      "learning_rate": 5.011837435912308e-06,
      "loss": 0.6242,
      "step": 8480
    },
    {
      "epoch": 0.9907753386268099,
      "grad_norm": 0.5510879318024842,
      "learning_rate": 5.010470264433083e-06,
      "loss": 0.6321,
      "step": 8485
    },
    {
      "epoch": 0.991359177954227,
      "grad_norm": 0.553704155240658,
      "learning_rate": 5.009186943303684e-06,
      "loss": 0.6365,
      "step": 8490
    },
    {
      "epoch": 0.9919430172816441,
      "grad_norm": 0.5664918391691475,
      "learning_rate": 5.0079874773088735e-06,
      "loss": 0.6305,
      "step": 8495
    },
    {
      "epoch": 0.9925268566090611,
      "grad_norm": 0.5874914103537708,
      "learning_rate": 5.006871870920757e-06,
      "loss": 0.6198,
      "step": 8500
    },
    {
      "epoch": 0.9931106959364783,
      "grad_norm": 0.5452067196739758,
      "learning_rate": 5.005840128298783e-06,
      "loss": 0.6219,
      "step": 8505
    },
    {
      "epoch": 0.9936945352638954,
      "grad_norm": 0.5894932818967217,
      "learning_rate": 5.004892253289714e-06,
      "loss": 0.631,
      "step": 8510
    },
    {
      "epoch": 0.9942783745913125,
      "grad_norm": 0.5942366273834488,
      "learning_rate": 5.004028249427629e-06,
      "loss": 0.6221,
      "step": 8515
    },
    {
      "epoch": 0.9948622139187295,
      "grad_norm": 0.5576430535004351,
      "learning_rate": 5.003248119933894e-06,
      "loss": 0.6137,
      "step": 8520
    },
    {
      "epoch": 0.9954460532461467,
      "grad_norm": 0.5620291144392621,
      "learning_rate": 5.002551867717153e-06,
      "loss": 0.6152,
      "step": 8525
    },
    {
      "epoch": 0.9960298925735638,
      "grad_norm": 0.615196076482753,
      "learning_rate": 5.00193949537333e-06,
      "loss": 0.6451,
      "step": 8530
    },
    {
      "epoch": 0.9966137319009809,
      "grad_norm": 0.5979491929387287,
      "learning_rate": 5.0014110051856e-06,
      "loss": 0.653,
      "step": 8535
    },
    {
      "epoch": 0.9971975712283979,
      "grad_norm": 0.5740297550730898,
      "learning_rate": 5.000966399124398e-06,
      "loss": 0.629,
      "step": 8540
    },
    {
      "epoch": 0.997781410555815,
      "grad_norm": 0.621793395309707,
      "learning_rate": 5.000605678847399e-06,
      "loss": 0.6204,
      "step": 8545
    },
    {
      "epoch": 0.9983652498832322,
      "grad_norm": 0.5650577119664021,
      "learning_rate": 5.000328845699522e-06,
      "loss": 0.6251,
      "step": 8550
    },
    {
      "epoch": 0.9989490892106492,
      "grad_norm": 0.6069800107074691,
      "learning_rate": 5.000135900712914e-06,
      "loss": 0.6241,
      "step": 8555
    },
    {
      "epoch": 0.9995329285380663,
      "grad_norm": 0.5758118307684206,
      "learning_rate": 5.000026844606953e-06,
      "loss": 0.6308,
      "step": 8560
    },
    {
      "epoch": 1.0,
      "step": 8564,
      "total_flos": 487937544290304.0,
      "train_loss": 0.6853283835259179,
      "train_runtime": 17987.0771,
      "train_samples_per_second": 30.472,
      "train_steps_per_second": 0.476
    }
  ],
  "logging_steps": 5,
  "max_steps": 8564,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 487937544290304.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}