{
  "best_metric": 0.6807882785797119,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.018987491989651818,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 9.493745994825909e-05,
      "grad_norm": 0.6342219114303589,
      "learning_rate": 1e-05,
      "loss": 0.7511,
      "step": 1
    },
    {
      "epoch": 9.493745994825909e-05,
      "eval_loss": 1.0980455875396729,
      "eval_runtime": 1159.811,
      "eval_samples_per_second": 15.296,
      "eval_steps_per_second": 3.824,
      "step": 1
    },
    {
      "epoch": 0.00018987491989651818,
      "grad_norm": 0.6897271275520325,
      "learning_rate": 2e-05,
      "loss": 0.7647,
      "step": 2
    },
    {
      "epoch": 0.0002848123798447773,
      "grad_norm": 0.7937325239181519,
      "learning_rate": 3e-05,
      "loss": 0.8415,
      "step": 3
    },
    {
      "epoch": 0.00037974983979303635,
      "grad_norm": 0.6670550107955933,
      "learning_rate": 4e-05,
      "loss": 0.7576,
      "step": 4
    },
    {
      "epoch": 0.00047468729974129543,
      "grad_norm": 0.5981556177139282,
      "learning_rate": 5e-05,
      "loss": 0.8901,
      "step": 5
    },
    {
      "epoch": 0.0005696247596895546,
      "grad_norm": 0.48832663893699646,
      "learning_rate": 6e-05,
      "loss": 0.7659,
      "step": 6
    },
    {
      "epoch": 0.0006645622196378136,
      "grad_norm": 0.5184705257415771,
      "learning_rate": 7e-05,
      "loss": 0.8548,
      "step": 7
    },
    {
      "epoch": 0.0007594996795860727,
      "grad_norm": 0.6441401839256287,
      "learning_rate": 8e-05,
      "loss": 0.8183,
      "step": 8
    },
    {
      "epoch": 0.0008544371395343318,
      "grad_norm": 0.6420015692710876,
      "learning_rate": 9e-05,
      "loss": 0.8018,
      "step": 9
    },
    {
      "epoch": 0.0009493745994825909,
      "grad_norm": 0.5402976274490356,
      "learning_rate": 0.0001,
      "loss": 0.7907,
      "step": 10
    },
    {
      "epoch": 0.00104431205943085,
      "grad_norm": 0.5628445148468018,
      "learning_rate": 9.999316524962345e-05,
      "loss": 0.7933,
      "step": 11
    },
    {
      "epoch": 0.0011392495193791091,
      "grad_norm": 0.4867309629917145,
      "learning_rate": 9.997266286704631e-05,
      "loss": 0.7741,
      "step": 12
    },
    {
      "epoch": 0.001234186979327368,
      "grad_norm": 0.467048704624176,
      "learning_rate": 9.993849845741524e-05,
      "loss": 0.8435,
      "step": 13
    },
    {
      "epoch": 0.0013291244392756273,
      "grad_norm": 0.47825491428375244,
      "learning_rate": 9.989068136093873e-05,
      "loss": 0.8884,
      "step": 14
    },
    {
      "epoch": 0.0014240618992238862,
      "grad_norm": 0.5181658864021301,
      "learning_rate": 9.98292246503335e-05,
      "loss": 0.9506,
      "step": 15
    },
    {
      "epoch": 0.0015189993591721454,
      "grad_norm": 0.44995224475860596,
      "learning_rate": 9.975414512725057e-05,
      "loss": 0.8444,
      "step": 16
    },
    {
      "epoch": 0.0016139368191204044,
      "grad_norm": 0.4834190011024475,
      "learning_rate": 9.966546331768191e-05,
      "loss": 0.8818,
      "step": 17
    },
    {
      "epoch": 0.0017088742790686636,
      "grad_norm": 0.5591161251068115,
      "learning_rate": 9.956320346634876e-05,
      "loss": 0.9466,
      "step": 18
    },
    {
      "epoch": 0.0018038117390169225,
      "grad_norm": 0.499606728553772,
      "learning_rate": 9.944739353007344e-05,
      "loss": 0.9599,
      "step": 19
    },
    {
      "epoch": 0.0018987491989651817,
      "grad_norm": 0.4538837969303131,
      "learning_rate": 9.931806517013612e-05,
      "loss": 0.8843,
      "step": 20
    },
    {
      "epoch": 0.001993686658913441,
      "grad_norm": 0.5224000811576843,
      "learning_rate": 9.917525374361912e-05,
      "loss": 0.8984,
      "step": 21
    },
    {
      "epoch": 0.0020886241188617,
      "grad_norm": 0.5079576969146729,
      "learning_rate": 9.901899829374047e-05,
      "loss": 0.7182,
      "step": 22
    },
    {
      "epoch": 0.002183561578809959,
      "grad_norm": 0.6409814953804016,
      "learning_rate": 9.884934153917997e-05,
      "loss": 0.8886,
      "step": 23
    },
    {
      "epoch": 0.0022784990387582182,
      "grad_norm": 0.611889123916626,
      "learning_rate": 9.86663298624003e-05,
      "loss": 0.9358,
      "step": 24
    },
    {
      "epoch": 0.002373436498706477,
      "grad_norm": 0.529557466506958,
      "learning_rate": 9.847001329696653e-05,
      "loss": 0.7857,
      "step": 25
    },
    {
      "epoch": 0.002468373958654736,
      "grad_norm": 0.4335230886936188,
      "learning_rate": 9.826044551386744e-05,
      "loss": 0.7869,
      "step": 26
    },
    {
      "epoch": 0.002563311418602995,
      "grad_norm": 0.4170484244823456,
      "learning_rate": 9.803768380684242e-05,
      "loss": 0.6194,
      "step": 27
    },
    {
      "epoch": 0.0026582488785512545,
      "grad_norm": 0.4597885310649872,
      "learning_rate": 9.780178907671789e-05,
      "loss": 0.798,
      "step": 28
    },
    {
      "epoch": 0.0027531863384995135,
      "grad_norm": 0.5042226314544678,
      "learning_rate": 9.755282581475769e-05,
      "loss": 0.8607,
      "step": 29
    },
    {
      "epoch": 0.0028481237984477725,
      "grad_norm": 0.4352506697177887,
      "learning_rate": 9.729086208503174e-05,
      "loss": 0.7685,
      "step": 30
    },
    {
      "epoch": 0.0029430612583960314,
      "grad_norm": 0.4290288984775543,
      "learning_rate": 9.701596950580806e-05,
      "loss": 0.7861,
      "step": 31
    },
    {
      "epoch": 0.003037998718344291,
      "grad_norm": 0.4372924864292145,
      "learning_rate": 9.672822322997305e-05,
      "loss": 0.7813,
      "step": 32
    },
    {
      "epoch": 0.00313293617829255,
      "grad_norm": 0.428021639585495,
      "learning_rate": 9.642770192448536e-05,
      "loss": 0.7631,
      "step": 33
    },
    {
      "epoch": 0.0032278736382408088,
      "grad_norm": 0.4118306338787079,
      "learning_rate": 9.611448774886924e-05,
      "loss": 0.7223,
      "step": 34
    },
    {
      "epoch": 0.003322811098189068,
      "grad_norm": 0.5101743936538696,
      "learning_rate": 9.578866633275288e-05,
      "loss": 0.9025,
      "step": 35
    },
    {
      "epoch": 0.003417748558137327,
      "grad_norm": 0.4683483839035034,
      "learning_rate": 9.545032675245813e-05,
      "loss": 0.7524,
      "step": 36
    },
    {
      "epoch": 0.003512686018085586,
      "grad_norm": 0.4995793104171753,
      "learning_rate": 9.509956150664796e-05,
      "loss": 0.8028,
      "step": 37
    },
    {
      "epoch": 0.003607623478033845,
      "grad_norm": 0.49814876914024353,
      "learning_rate": 9.473646649103818e-05,
      "loss": 0.7558,
      "step": 38
    },
    {
      "epoch": 0.0037025609379821045,
      "grad_norm": 0.5297196507453918,
      "learning_rate": 9.43611409721806e-05,
      "loss": 0.9297,
      "step": 39
    },
    {
      "epoch": 0.0037974983979303634,
      "grad_norm": 0.5094082951545715,
      "learning_rate": 9.397368756032445e-05,
      "loss": 0.8073,
      "step": 40
    },
    {
      "epoch": 0.0038924358578786224,
      "grad_norm": 0.57480388879776,
      "learning_rate": 9.357421218136386e-05,
      "loss": 0.8756,
      "step": 41
    },
    {
      "epoch": 0.003987373317826882,
      "grad_norm": 0.5387944579124451,
      "learning_rate": 9.316282404787871e-05,
      "loss": 0.8136,
      "step": 42
    },
    {
      "epoch": 0.004082310777775141,
      "grad_norm": 0.5116757750511169,
      "learning_rate": 9.273963562927695e-05,
      "loss": 0.8142,
      "step": 43
    },
    {
      "epoch": 0.0041772482377234,
      "grad_norm": 0.5184312462806702,
      "learning_rate": 9.230476262104677e-05,
      "loss": 0.7452,
      "step": 44
    },
    {
      "epoch": 0.004272185697671659,
      "grad_norm": 0.6314008235931396,
      "learning_rate": 9.185832391312644e-05,
      "loss": 0.7577,
      "step": 45
    },
    {
      "epoch": 0.004367123157619918,
      "grad_norm": 0.5776162147521973,
      "learning_rate": 9.140044155740101e-05,
      "loss": 0.7543,
      "step": 46
    },
    {
      "epoch": 0.004462060617568177,
      "grad_norm": 0.6521344184875488,
      "learning_rate": 9.093124073433463e-05,
      "loss": 0.7403,
      "step": 47
    },
    {
      "epoch": 0.0045569980775164365,
      "grad_norm": 0.6614164710044861,
      "learning_rate": 9.045084971874738e-05,
      "loss": 0.7443,
      "step": 48
    },
    {
      "epoch": 0.004651935537464695,
      "grad_norm": 0.7446982264518738,
      "learning_rate": 8.995939984474624e-05,
      "loss": 0.7196,
      "step": 49
    },
    {
      "epoch": 0.004746872997412954,
      "grad_norm": 0.75537109375,
      "learning_rate": 8.945702546981969e-05,
      "loss": 0.6163,
      "step": 50
    },
    {
      "epoch": 0.004746872997412954,
      "eval_loss": 0.7739015221595764,
      "eval_runtime": 1164.3706,
      "eval_samples_per_second": 15.236,
      "eval_steps_per_second": 3.809,
      "step": 50
    },
    {
      "epoch": 0.004841810457361213,
      "grad_norm": 0.3538869619369507,
      "learning_rate": 8.894386393810563e-05,
      "loss": 0.6185,
      "step": 51
    },
    {
      "epoch": 0.004936747917309472,
      "grad_norm": 0.37258458137512207,
      "learning_rate": 8.842005554284296e-05,
      "loss": 0.7204,
      "step": 52
    },
    {
      "epoch": 0.005031685377257731,
      "grad_norm": 0.31889769434928894,
      "learning_rate": 8.788574348801675e-05,
      "loss": 0.6146,
      "step": 53
    },
    {
      "epoch": 0.00512662283720599,
      "grad_norm": 0.29523542523384094,
      "learning_rate": 8.73410738492077e-05,
      "loss": 0.6028,
      "step": 54
    },
    {
      "epoch": 0.005221560297154249,
      "grad_norm": 0.30526280403137207,
      "learning_rate": 8.678619553365659e-05,
      "loss": 0.7231,
      "step": 55
    },
    {
      "epoch": 0.005316497757102509,
      "grad_norm": 0.2727939188480377,
      "learning_rate": 8.622126023955446e-05,
      "loss": 0.6251,
      "step": 56
    },
    {
      "epoch": 0.005411435217050768,
      "grad_norm": 0.32537877559661865,
      "learning_rate": 8.564642241456986e-05,
      "loss": 0.6428,
      "step": 57
    },
    {
      "epoch": 0.005506372676999027,
      "grad_norm": 0.3887856602668762,
      "learning_rate": 8.506183921362443e-05,
      "loss": 0.7691,
      "step": 58
    },
    {
      "epoch": 0.005601310136947286,
      "grad_norm": 0.3227793574333191,
      "learning_rate": 8.44676704559283e-05,
      "loss": 0.6114,
      "step": 59
    },
    {
      "epoch": 0.005696247596895545,
      "grad_norm": 0.4272936284542084,
      "learning_rate": 8.386407858128706e-05,
      "loss": 0.7409,
      "step": 60
    },
    {
      "epoch": 0.005791185056843804,
      "grad_norm": 0.3356175720691681,
      "learning_rate": 8.32512286056924e-05,
      "loss": 0.7352,
      "step": 61
    },
    {
      "epoch": 0.005886122516792063,
      "grad_norm": 0.35494011640548706,
      "learning_rate": 8.262928807620843e-05,
      "loss": 0.7029,
      "step": 62
    },
    {
      "epoch": 0.005981059976740323,
      "grad_norm": 0.32890111207962036,
      "learning_rate": 8.199842702516583e-05,
      "loss": 0.6704,
      "step": 63
    },
    {
      "epoch": 0.006075997436688582,
      "grad_norm": 0.410510390996933,
      "learning_rate": 8.135881792367686e-05,
      "loss": 0.7715,
      "step": 64
    },
    {
      "epoch": 0.006170934896636841,
      "grad_norm": 0.4116337299346924,
      "learning_rate": 8.07106356344834e-05,
      "loss": 0.8586,
      "step": 65
    },
    {
      "epoch": 0.0062658723565851,
      "grad_norm": 0.4215235114097595,
      "learning_rate": 8.005405736415126e-05,
      "loss": 0.7685,
      "step": 66
    },
    {
      "epoch": 0.0063608098165333585,
      "grad_norm": 0.402327299118042,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.7983,
      "step": 67
    },
    {
      "epoch": 0.0064557472764816175,
      "grad_norm": 0.4558807611465454,
      "learning_rate": 7.871643313414718e-05,
      "loss": 0.8669,
      "step": 68
    },
    {
      "epoch": 0.0065506847364298765,
      "grad_norm": 0.4024085998535156,
      "learning_rate": 7.803575286758364e-05,
      "loss": 0.8009,
      "step": 69
    },
    {
      "epoch": 0.006645622196378136,
      "grad_norm": 0.3936479389667511,
      "learning_rate": 7.734740790612136e-05,
      "loss": 0.7043,
      "step": 70
    },
    {
      "epoch": 0.006740559656326395,
      "grad_norm": 0.4633331894874573,
      "learning_rate": 7.66515864363997e-05,
      "loss": 0.6491,
      "step": 71
    },
    {
      "epoch": 0.006835497116274654,
      "grad_norm": 0.6408732533454895,
      "learning_rate": 7.594847868906076e-05,
      "loss": 0.9034,
      "step": 72
    },
    {
      "epoch": 0.006930434576222913,
      "grad_norm": 0.6122806668281555,
      "learning_rate": 7.52382768867422e-05,
      "loss": 0.8504,
      "step": 73
    },
    {
      "epoch": 0.007025372036171172,
      "grad_norm": 0.5413927435874939,
      "learning_rate": 7.452117519152542e-05,
      "loss": 0.7792,
      "step": 74
    },
    {
      "epoch": 0.007120309496119431,
      "grad_norm": 0.42709115147590637,
      "learning_rate": 7.379736965185368e-05,
      "loss": 0.6585,
      "step": 75
    },
    {
      "epoch": 0.00721524695606769,
      "grad_norm": 0.4946230351924896,
      "learning_rate": 7.30670581489344e-05,
      "loss": 0.7247,
      "step": 76
    },
    {
      "epoch": 0.007310184416015949,
      "grad_norm": 0.40495890378952026,
      "learning_rate": 7.233044034264034e-05,
      "loss": 0.8256,
      "step": 77
    },
    {
      "epoch": 0.007405121875964209,
      "grad_norm": 0.3602336049079895,
      "learning_rate": 7.158771761692464e-05,
      "loss": 0.767,
      "step": 78
    },
    {
      "epoch": 0.007500059335912468,
      "grad_norm": 0.3675352931022644,
      "learning_rate": 7.083909302476453e-05,
      "loss": 0.7112,
      "step": 79
    },
    {
      "epoch": 0.007594996795860727,
      "grad_norm": 0.3672904968261719,
      "learning_rate": 7.008477123264848e-05,
      "loss": 0.6903,
      "step": 80
    },
    {
      "epoch": 0.007689934255808986,
      "grad_norm": 0.3962858319282532,
      "learning_rate": 6.932495846462261e-05,
      "loss": 0.6223,
      "step": 81
    },
    {
      "epoch": 0.007784871715757245,
      "grad_norm": 0.38271021842956543,
      "learning_rate": 6.855986244591104e-05,
      "loss": 0.8344,
      "step": 82
    },
    {
      "epoch": 0.007879809175705504,
      "grad_norm": 0.4351683259010315,
      "learning_rate": 6.778969234612584e-05,
      "loss": 0.7866,
      "step": 83
    },
    {
      "epoch": 0.007974746635653764,
      "grad_norm": 0.3982962369918823,
      "learning_rate": 6.701465872208216e-05,
      "loss": 0.7535,
      "step": 84
    },
    {
      "epoch": 0.008069684095602022,
      "grad_norm": 0.47308439016342163,
      "learning_rate": 6.623497346023418e-05,
      "loss": 0.8558,
      "step": 85
    },
    {
      "epoch": 0.008164621555550282,
      "grad_norm": 0.45044347643852234,
      "learning_rate": 6.545084971874738e-05,
      "loss": 0.7705,
      "step": 86
    },
    {
      "epoch": 0.00825955901549854,
      "grad_norm": 0.43920329213142395,
      "learning_rate": 6.466250186922325e-05,
      "loss": 0.7373,
      "step": 87
    },
    {
      "epoch": 0.0083544964754468,
      "grad_norm": 0.4934244751930237,
      "learning_rate": 6.387014543809223e-05,
      "loss": 0.7986,
      "step": 88
    },
    {
      "epoch": 0.00844943393539506,
      "grad_norm": 0.45404577255249023,
      "learning_rate": 6.307399704769099e-05,
      "loss": 0.7853,
      "step": 89
    },
    {
      "epoch": 0.008544371395343317,
      "grad_norm": 0.5051403045654297,
      "learning_rate": 6.227427435703997e-05,
      "loss": 0.8139,
      "step": 90
    },
    {
      "epoch": 0.008639308855291577,
      "grad_norm": 0.46777236461639404,
      "learning_rate": 6.147119600233758e-05,
      "loss": 0.6793,
      "step": 91
    },
    {
      "epoch": 0.008734246315239835,
      "grad_norm": 0.4967007040977478,
      "learning_rate": 6.066498153718735e-05,
      "loss": 0.8482,
      "step": 92
    },
    {
      "epoch": 0.008829183775188095,
      "grad_norm": 0.5254776477813721,
      "learning_rate": 5.985585137257401e-05,
      "loss": 0.6972,
      "step": 93
    },
    {
      "epoch": 0.008924121235136353,
      "grad_norm": 0.5481562614440918,
      "learning_rate": 5.90440267166055e-05,
      "loss": 0.7226,
      "step": 94
    },
    {
      "epoch": 0.009019058695084613,
      "grad_norm": 0.5049809217453003,
      "learning_rate": 5.8229729514036705e-05,
      "loss": 0.6879,
      "step": 95
    },
    {
      "epoch": 0.009113996155032873,
      "grad_norm": 0.5320370197296143,
      "learning_rate": 5.74131823855921e-05,
      "loss": 0.7298,
      "step": 96
    },
    {
      "epoch": 0.009208933614981131,
      "grad_norm": 0.5775182247161865,
      "learning_rate": 5.6594608567103456e-05,
      "loss": 0.7116,
      "step": 97
    },
    {
      "epoch": 0.00930387107492939,
      "grad_norm": 0.6037421822547913,
      "learning_rate": 5.577423184847932e-05,
      "loss": 0.637,
      "step": 98
    },
    {
      "epoch": 0.009398808534877649,
      "grad_norm": 0.6493255496025085,
      "learning_rate": 5.495227651252315e-05,
      "loss": 0.5933,
      "step": 99
    },
    {
      "epoch": 0.009493745994825909,
      "grad_norm": 1.0740487575531006,
      "learning_rate": 5.4128967273616625e-05,
      "loss": 0.7661,
      "step": 100
    },
    {
      "epoch": 0.009493745994825909,
      "eval_loss": 0.7188636064529419,
      "eval_runtime": 1164.4678,
      "eval_samples_per_second": 15.234,
      "eval_steps_per_second": 3.809,
      "step": 100
    },
    {
      "epoch": 0.009588683454774167,
      "grad_norm": 0.262162446975708,
      "learning_rate": 5.330452921628497e-05,
      "loss": 0.5949,
      "step": 101
    },
    {
      "epoch": 0.009683620914722427,
      "grad_norm": 0.3056875765323639,
      "learning_rate": 5.247918773366112e-05,
      "loss": 0.5478,
      "step": 102
    },
    {
      "epoch": 0.009778558374670687,
      "grad_norm": 0.3404836654663086,
      "learning_rate": 5.165316846586541e-05,
      "loss": 0.6003,
      "step": 103
    },
    {
      "epoch": 0.009873495834618945,
      "grad_norm": 0.3518320322036743,
      "learning_rate": 5.0826697238317935e-05,
      "loss": 0.6374,
      "step": 104
    },
    {
      "epoch": 0.009968433294567204,
      "grad_norm": 0.35517260432243347,
      "learning_rate": 5e-05,
      "loss": 0.6345,
      "step": 105
    },
    {
      "epoch": 0.010063370754515463,
      "grad_norm": 0.33211418986320496,
      "learning_rate": 4.917330276168208e-05,
      "loss": 0.66,
      "step": 106
    },
    {
      "epoch": 0.010158308214463722,
      "grad_norm": 0.376034677028656,
      "learning_rate": 4.834683153413459e-05,
      "loss": 0.7352,
      "step": 107
    },
    {
      "epoch": 0.01025324567441198,
      "grad_norm": 0.33594802021980286,
      "learning_rate": 4.7520812266338885e-05,
      "loss": 0.7592,
      "step": 108
    },
    {
      "epoch": 0.01034818313436024,
      "grad_norm": 0.34336787462234497,
      "learning_rate": 4.669547078371504e-05,
      "loss": 0.6384,
      "step": 109
    },
    {
      "epoch": 0.010443120594308498,
      "grad_norm": 0.40107351541519165,
      "learning_rate": 4.5871032726383386e-05,
      "loss": 0.6868,
      "step": 110
    },
    {
      "epoch": 0.010538058054256758,
      "grad_norm": 0.6450880169868469,
      "learning_rate": 4.504772348747687e-05,
      "loss": 0.7392,
      "step": 111
    },
    {
      "epoch": 0.010632995514205018,
      "grad_norm": 0.3932429850101471,
      "learning_rate": 4.4225768151520694e-05,
      "loss": 0.7374,
      "step": 112
    },
    {
      "epoch": 0.010727932974153276,
      "grad_norm": 0.37924253940582275,
      "learning_rate": 4.3405391432896555e-05,
      "loss": 0.7595,
      "step": 113
    },
    {
      "epoch": 0.010822870434101536,
      "grad_norm": 0.38906195759773254,
      "learning_rate": 4.2586817614407895e-05,
      "loss": 0.6517,
      "step": 114
    },
    {
      "epoch": 0.010917807894049794,
      "grad_norm": 0.41941317915916443,
      "learning_rate": 4.17702704859633e-05,
      "loss": 0.7181,
      "step": 115
    },
    {
      "epoch": 0.011012745353998054,
      "grad_norm": 0.42237669229507446,
      "learning_rate": 4.095597328339452e-05,
      "loss": 0.7399,
      "step": 116
    },
    {
      "epoch": 0.011107682813946312,
      "grad_norm": 0.4199109673500061,
      "learning_rate": 4.0144148627425993e-05,
      "loss": 0.6972,
      "step": 117
    },
    {
      "epoch": 0.011202620273894572,
      "grad_norm": 0.43909701704978943,
      "learning_rate": 3.933501846281267e-05,
      "loss": 0.6862,
      "step": 118
    },
    {
      "epoch": 0.011297557733842832,
      "grad_norm": 0.4287319779396057,
      "learning_rate": 3.852880399766243e-05,
      "loss": 0.7394,
      "step": 119
    },
    {
      "epoch": 0.01139249519379109,
      "grad_norm": 0.5357159972190857,
      "learning_rate": 3.772572564296005e-05,
      "loss": 0.7993,
      "step": 120
    },
    {
      "epoch": 0.01148743265373935,
      "grad_norm": 0.4030955731868744,
      "learning_rate": 3.6926002952309016e-05,
      "loss": 0.6689,
      "step": 121
    },
    {
      "epoch": 0.011582370113687608,
      "grad_norm": 0.4994092583656311,
      "learning_rate": 3.612985456190778e-05,
      "loss": 0.7805,
      "step": 122
    },
    {
      "epoch": 0.011677307573635868,
      "grad_norm": 0.5699156522750854,
      "learning_rate": 3.533749813077677e-05,
      "loss": 0.8274,
      "step": 123
    },
    {
      "epoch": 0.011772245033584126,
      "grad_norm": 0.7980059385299683,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.6721,
      "step": 124
    },
    {
      "epoch": 0.011867182493532386,
      "grad_norm": 0.36257463693618774,
      "learning_rate": 3.3765026539765834e-05,
      "loss": 0.7177,
      "step": 125
    },
    {
      "epoch": 0.011962119953480645,
      "grad_norm": 0.39041903614997864,
      "learning_rate": 3.298534127791785e-05,
      "loss": 0.6868,
      "step": 126
    },
    {
      "epoch": 0.012057057413428903,
      "grad_norm": 0.40323406457901,
      "learning_rate": 3.221030765387417e-05,
      "loss": 0.7554,
      "step": 127
    },
    {
      "epoch": 0.012151994873377163,
      "grad_norm": 0.41979482769966125,
      "learning_rate": 3.144013755408895e-05,
      "loss": 0.6953,
      "step": 128
    },
    {
      "epoch": 0.012246932333325421,
      "grad_norm": 0.392555296421051,
      "learning_rate": 3.0675041535377405e-05,
      "loss": 0.759,
      "step": 129
    },
    {
      "epoch": 0.012341869793273681,
      "grad_norm": 0.39178863167762756,
      "learning_rate": 2.991522876735154e-05,
      "loss": 0.7017,
      "step": 130
    },
    {
      "epoch": 0.01243680725322194,
      "grad_norm": 0.4052543044090271,
      "learning_rate": 2.916090697523549e-05,
      "loss": 0.7917,
      "step": 131
    },
    {
      "epoch": 0.0125317447131702,
      "grad_norm": 0.37675926089286804,
      "learning_rate": 2.8412282383075363e-05,
      "loss": 0.5898,
      "step": 132
    },
    {
      "epoch": 0.012626682173118459,
      "grad_norm": 0.4015160799026489,
      "learning_rate": 2.766955965735968e-05,
      "loss": 0.7128,
      "step": 133
    },
    {
      "epoch": 0.012721619633066717,
      "grad_norm": 0.41348764300346375,
      "learning_rate": 2.693294185106562e-05,
      "loss": 0.789,
      "step": 134
    },
    {
      "epoch": 0.012816557093014977,
      "grad_norm": 0.4197676479816437,
      "learning_rate": 2.6202630348146324e-05,
      "loss": 0.7832,
      "step": 135
    },
    {
      "epoch": 0.012911494552963235,
      "grad_norm": 0.4502415060997009,
      "learning_rate": 2.547882480847461e-05,
      "loss": 0.7892,
      "step": 136
    },
    {
      "epoch": 0.013006432012911495,
      "grad_norm": 0.4396166205406189,
      "learning_rate": 2.476172311325783e-05,
      "loss": 0.7513,
      "step": 137
    },
    {
      "epoch": 0.013101369472859753,
      "grad_norm": 0.4914814233779907,
      "learning_rate": 2.405152131093926e-05,
      "loss": 0.7425,
      "step": 138
    },
    {
      "epoch": 0.013196306932808013,
      "grad_norm": 0.449947714805603,
      "learning_rate": 2.3348413563600325e-05,
      "loss": 0.7403,
      "step": 139
    },
    {
      "epoch": 0.013291244392756273,
      "grad_norm": 0.4686639606952667,
      "learning_rate": 2.2652592093878666e-05,
      "loss": 0.7091,
      "step": 140
    },
    {
      "epoch": 0.01338618185270453,
      "grad_norm": 0.5162703990936279,
      "learning_rate": 2.196424713241637e-05,
      "loss": 0.812,
      "step": 141
    },
    {
      "epoch": 0.01348111931265279,
      "grad_norm": 0.524587869644165,
      "learning_rate": 2.128356686585282e-05,
      "loss": 0.7092,
      "step": 142
    },
    {
      "epoch": 0.013576056772601049,
      "grad_norm": 0.4877658188343048,
      "learning_rate": 2.061073738537635e-05,
      "loss": 0.7545,
      "step": 143
    },
    {
      "epoch": 0.013670994232549308,
      "grad_norm": 0.4884006083011627,
      "learning_rate": 1.9945942635848748e-05,
      "loss": 0.6984,
      "step": 144
    },
    {
      "epoch": 0.013765931692497567,
      "grad_norm": 0.5572161674499512,
      "learning_rate": 1.928936436551661e-05,
      "loss": 0.703,
      "step": 145
    },
    {
      "epoch": 0.013860869152445826,
      "grad_norm": 0.5526790022850037,
      "learning_rate": 1.8641182076323148e-05,
      "loss": 0.7167,
      "step": 146
    },
    {
      "epoch": 0.013955806612394086,
      "grad_norm": 0.5765847563743591,
      "learning_rate": 1.800157297483417e-05,
      "loss": 0.6563,
      "step": 147
    },
    {
      "epoch": 0.014050744072342344,
      "grad_norm": 0.7077249884605408,
      "learning_rate": 1.7370711923791567e-05,
      "loss": 0.6601,
      "step": 148
    },
    {
      "epoch": 0.014145681532290604,
      "grad_norm": 0.5818340182304382,
      "learning_rate": 1.6748771394307585e-05,
      "loss": 0.5735,
      "step": 149
    },
    {
      "epoch": 0.014240618992238862,
      "grad_norm": 0.6904491186141968,
      "learning_rate": 1.6135921418712956e-05,
      "loss": 0.6129,
      "step": 150
    },
    {
      "epoch": 0.014240618992238862,
      "eval_loss": 0.6873039603233337,
      "eval_runtime": 1164.2998,
      "eval_samples_per_second": 15.237,
      "eval_steps_per_second": 3.809,
      "step": 150
    },
    {
      "epoch": 0.014335556452187122,
      "grad_norm": 0.22939538955688477,
      "learning_rate": 1.553232954407171e-05,
      "loss": 0.5239,
      "step": 151
    },
    {
      "epoch": 0.01443049391213538,
      "grad_norm": 0.2581171989440918,
      "learning_rate": 1.4938160786375572e-05,
      "loss": 0.5692,
      "step": 152
    },
    {
      "epoch": 0.01452543137208364,
      "grad_norm": 0.28215399384498596,
      "learning_rate": 1.435357758543015e-05,
      "loss": 0.5854,
      "step": 153
    },
    {
      "epoch": 0.014620368832031898,
      "grad_norm": 0.2874213755130768,
      "learning_rate": 1.3778739760445552e-05,
      "loss": 0.5553,
      "step": 154
    },
    {
      "epoch": 0.014715306291980158,
      "grad_norm": 0.3412184715270996,
      "learning_rate": 1.3213804466343421e-05,
      "loss": 0.5934,
      "step": 155
    },
    {
      "epoch": 0.014810243751928418,
      "grad_norm": 0.28712135553359985,
      "learning_rate": 1.2658926150792322e-05,
      "loss": 0.5771,
      "step": 156
    },
    {
      "epoch": 0.014905181211876676,
      "grad_norm": 0.32578256726264954,
      "learning_rate": 1.2114256511983274e-05,
      "loss": 0.6845,
      "step": 157
    },
    {
      "epoch": 0.015000118671824936,
      "grad_norm": 0.3176914155483246,
      "learning_rate": 1.157994445715706e-05,
      "loss": 0.5778,
      "step": 158
    },
    {
      "epoch": 0.015095056131773194,
      "grad_norm": 0.32145458459854126,
      "learning_rate": 1.1056136061894384e-05,
      "loss": 0.6393,
      "step": 159
    },
    {
      "epoch": 0.015189993591721454,
      "grad_norm": 0.3446795344352722,
      "learning_rate": 1.0542974530180327e-05,
      "loss": 0.7152,
      "step": 160
    },
    {
      "epoch": 0.015284931051669712,
      "grad_norm": 0.39108195900917053,
      "learning_rate": 1.0040600155253765e-05,
      "loss": 0.615,
      "step": 161
    },
    {
      "epoch": 0.015379868511617972,
      "grad_norm": 0.3765578866004944,
      "learning_rate": 9.549150281252633e-06,
      "loss": 0.6784,
      "step": 162
    },
    {
      "epoch": 0.015474805971566231,
      "grad_norm": 0.40695053339004517,
      "learning_rate": 9.068759265665384e-06,
      "loss": 0.6479,
      "step": 163
    },
    {
      "epoch": 0.01556974343151449,
      "grad_norm": 0.36939969658851624,
      "learning_rate": 8.599558442598998e-06,
      "loss": 0.641,
      "step": 164
    },
    {
      "epoch": 0.015664680891462748,
      "grad_norm": 0.37024036049842834,
      "learning_rate": 8.141676086873572e-06,
      "loss": 0.605,
      "step": 165
    },
    {
      "epoch": 0.015759618351411007,
      "grad_norm": 0.38092660903930664,
      "learning_rate": 7.695237378953223e-06,
      "loss": 0.6533,
      "step": 166
    },
    {
      "epoch": 0.015854555811359267,
      "grad_norm": 0.42725634574890137,
      "learning_rate": 7.260364370723044e-06,
      "loss": 0.7083,
      "step": 167
    },
    {
      "epoch": 0.015949493271307527,
      "grad_norm": 0.518569827079773,
      "learning_rate": 6.837175952121306e-06,
      "loss": 0.7879,
      "step": 168
    },
    {
      "epoch": 0.016044430731255787,
      "grad_norm": 0.5067641735076904,
      "learning_rate": 6.425787818636131e-06,
      "loss": 0.7203,
      "step": 169
    },
    {
      "epoch": 0.016139368191204043,
      "grad_norm": 0.4912974238395691,
      "learning_rate": 6.026312439675552e-06,
      "loss": 0.7239,
      "step": 170
    },
    {
      "epoch": 0.016234305651152303,
      "grad_norm": 0.4685231149196625,
      "learning_rate": 5.6388590278194096e-06,
      "loss": 0.7756,
      "step": 171
    },
    {
      "epoch": 0.016329243111100563,
      "grad_norm": 0.5748855471611023,
      "learning_rate": 5.263533508961827e-06,
      "loss": 0.8052,
      "step": 172
    },
    {
      "epoch": 0.016424180571048823,
      "grad_norm": 0.4858010411262512,
      "learning_rate": 4.900438493352055e-06,
      "loss": 0.7926,
      "step": 173
    },
    {
      "epoch": 0.01651911803099708,
      "grad_norm": 0.5695396065711975,
      "learning_rate": 4.549673247541875e-06,
      "loss": 0.7976,
      "step": 174
    },
    {
      "epoch": 0.01661405549094534,
      "grad_norm": 0.539046585559845,
      "learning_rate": 4.2113336672471245e-06,
      "loss": 0.7857,
      "step": 175
    },
    {
      "epoch": 0.0167089929508936,
      "grad_norm": 0.4244231581687927,
      "learning_rate": 3.885512251130763e-06,
      "loss": 0.7093,
      "step": 176
    },
    {
      "epoch": 0.01680393041084186,
      "grad_norm": 0.39328625798225403,
      "learning_rate": 3.5722980755146517e-06,
      "loss": 0.5698,
      "step": 177
    },
    {
      "epoch": 0.01689886787079012,
      "grad_norm": 0.3833417296409607,
      "learning_rate": 3.271776770026963e-06,
      "loss": 0.5946,
      "step": 178
    },
    {
      "epoch": 0.016993805330738375,
      "grad_norm": 0.39951738715171814,
      "learning_rate": 2.9840304941919415e-06,
      "loss": 0.5859,
      "step": 179
    },
    {
      "epoch": 0.017088742790686635,
      "grad_norm": 0.4364893138408661,
      "learning_rate": 2.7091379149682685e-06,
      "loss": 0.7381,
      "step": 180
    },
    {
      "epoch": 0.017183680250634895,
      "grad_norm": 0.4102291166782379,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 0.6301,
      "step": 181
    },
    {
      "epoch": 0.017278617710583154,
      "grad_norm": 0.383526474237442,
      "learning_rate": 2.1982109232821178e-06,
      "loss": 0.6627,
      "step": 182
    },
    {
      "epoch": 0.01737355517053141,
      "grad_norm": 0.40834516286849976,
      "learning_rate": 1.962316193157593e-06,
      "loss": 0.7052,
      "step": 183
    },
    {
      "epoch": 0.01746849263047967,
      "grad_norm": 0.4022020399570465,
      "learning_rate": 1.7395544861325718e-06,
      "loss": 0.6234,
      "step": 184
    },
    {
      "epoch": 0.01756343009042793,
      "grad_norm": 0.43127337098121643,
      "learning_rate": 1.5299867030334814e-06,
      "loss": 0.6202,
      "step": 185
    },
    {
      "epoch": 0.01765836755037619,
      "grad_norm": 0.47114065289497375,
      "learning_rate": 1.333670137599713e-06,
      "loss": 0.6698,
      "step": 186
    },
    {
      "epoch": 0.01775330501032445,
      "grad_norm": 0.4197608232498169,
      "learning_rate": 1.1506584608200367e-06,
      "loss": 0.6729,
      "step": 187
    },
    {
      "epoch": 0.017848242470272706,
      "grad_norm": 0.4747736155986786,
      "learning_rate": 9.810017062595322e-07,
      "loss": 0.7089,
      "step": 188
    },
    {
      "epoch": 0.017943179930220966,
      "grad_norm": 0.5230900049209595,
      "learning_rate": 8.247462563808817e-07,
      "loss": 0.7372,
      "step": 189
    },
    {
      "epoch": 0.018038117390169226,
      "grad_norm": 0.6135662198066711,
      "learning_rate": 6.819348298638839e-07,
      "loss": 0.7955,
      "step": 190
    },
    {
      "epoch": 0.018133054850117486,
      "grad_norm": 0.45361751317977905,
      "learning_rate": 5.526064699265753e-07,
      "loss": 0.6741,
      "step": 191
    },
    {
      "epoch": 0.018227992310065746,
      "grad_norm": 0.5855080485343933,
      "learning_rate": 4.367965336512403e-07,
      "loss": 0.7136,
      "step": 192
    },
    {
      "epoch": 0.018322929770014002,
      "grad_norm": 0.5674018859863281,
      "learning_rate": 3.3453668231809286e-07,
      "loss": 0.7674,
      "step": 193
    },
    {
      "epoch": 0.018417867229962262,
      "grad_norm": 0.5278019905090332,
      "learning_rate": 2.458548727494292e-07,
      "loss": 0.711,
      "step": 194
    },
    {
      "epoch": 0.018512804689910522,
      "grad_norm": 0.6146038174629211,
      "learning_rate": 1.7077534966650766e-07,
      "loss": 0.7157,
      "step": 195
    },
    {
      "epoch": 0.01860774214985878,
      "grad_norm": 0.5901407599449158,
      "learning_rate": 1.0931863906127327e-07,
      "loss": 0.755,
      "step": 196
    },
    {
      "epoch": 0.018702679609807038,
      "grad_norm": 0.5426400303840637,
      "learning_rate": 6.150154258476315e-08,
      "loss": 0.5846,
      "step": 197
    },
    {
      "epoch": 0.018797617069755298,
      "grad_norm": 0.5973423719406128,
      "learning_rate": 2.7337132953697554e-08,
      "loss": 0.6715,
      "step": 198
    },
    {
      "epoch": 0.018892554529703558,
      "grad_norm": 0.6517298221588135,
      "learning_rate": 6.834750376549792e-09,
      "loss": 0.557,
      "step": 199
    },
    {
      "epoch": 0.018987491989651818,
      "grad_norm": 0.7721209526062012,
      "learning_rate": 0.0,
      "loss": 0.4985,
      "step": 200
    },
    {
      "epoch": 0.018987491989651818,
      "eval_loss": 0.6807882785797119,
      "eval_runtime": 1164.9676,
      "eval_samples_per_second": 15.228,
      "eval_steps_per_second": 3.807,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.7399942768020685e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}