{
  "best_metric": 0.8490656018257141,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.18912529550827423,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0009456264775413711,
      "grad_norm": 0.09641855955123901,
      "learning_rate": 3.3333333333333335e-07,
      "loss": 0.1657,
      "step": 1
    },
    {
      "epoch": 0.0009456264775413711,
      "eval_loss": 3.487557888031006,
      "eval_runtime": 54.6728,
      "eval_samples_per_second": 65.17,
      "eval_steps_per_second": 16.297,
      "step": 1
    },
    {
      "epoch": 0.0018912529550827422,
      "grad_norm": 0.1267959028482437,
      "learning_rate": 6.666666666666667e-07,
      "loss": 0.2459,
      "step": 2
    },
    {
      "epoch": 0.0028368794326241137,
      "grad_norm": 0.13855446875095367,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.2912,
      "step": 3
    },
    {
      "epoch": 0.0037825059101654845,
      "grad_norm": 0.15804192423820496,
      "learning_rate": 1.3333333333333334e-06,
      "loss": 0.3923,
      "step": 4
    },
    {
      "epoch": 0.004728132387706856,
      "grad_norm": 0.18095271289348602,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 0.4793,
      "step": 5
    },
    {
      "epoch": 0.005673758865248227,
      "grad_norm": 0.18571291863918304,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.585,
      "step": 6
    },
    {
      "epoch": 0.006619385342789598,
      "grad_norm": 0.2568407356739044,
      "learning_rate": 2.3333333333333336e-06,
      "loss": 0.8612,
      "step": 7
    },
    {
      "epoch": 0.007565011820330969,
      "grad_norm": 0.3106652498245239,
      "learning_rate": 2.666666666666667e-06,
      "loss": 1.2384,
      "step": 8
    },
    {
      "epoch": 0.00851063829787234,
      "grad_norm": 0.2571044862270355,
      "learning_rate": 3e-06,
      "loss": 0.8217,
      "step": 9
    },
    {
      "epoch": 0.009456264775413711,
      "grad_norm": 0.29234185814857483,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.7603,
      "step": 10
    },
    {
      "epoch": 0.010401891252955082,
      "grad_norm": 0.24926097691059113,
      "learning_rate": 3.666666666666667e-06,
      "loss": 0.6962,
      "step": 11
    },
    {
      "epoch": 0.011347517730496455,
      "grad_norm": 0.2906411588191986,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.9644,
      "step": 12
    },
    {
      "epoch": 0.012293144208037825,
      "grad_norm": 0.49177998304367065,
      "learning_rate": 4.333333333333334e-06,
      "loss": 1.7599,
      "step": 13
    },
    {
      "epoch": 0.013238770685579196,
      "grad_norm": 0.4265400767326355,
      "learning_rate": 4.666666666666667e-06,
      "loss": 1.493,
      "step": 14
    },
    {
      "epoch": 0.014184397163120567,
      "grad_norm": 0.5240830779075623,
      "learning_rate": 5e-06,
      "loss": 1.9888,
      "step": 15
    },
    {
      "epoch": 0.015130023640661938,
      "grad_norm": 0.5526121854782104,
      "learning_rate": 5.333333333333334e-06,
      "loss": 2.2851,
      "step": 16
    },
    {
      "epoch": 0.01607565011820331,
      "grad_norm": 0.5441344976425171,
      "learning_rate": 5.666666666666667e-06,
      "loss": 1.9884,
      "step": 17
    },
    {
      "epoch": 0.01702127659574468,
      "grad_norm": 0.6593867540359497,
      "learning_rate": 6e-06,
      "loss": 2.5504,
      "step": 18
    },
    {
      "epoch": 0.017966903073286054,
      "grad_norm": 0.6868957877159119,
      "learning_rate": 6.333333333333334e-06,
      "loss": 3.0568,
      "step": 19
    },
    {
      "epoch": 0.018912529550827423,
      "grad_norm": 0.43732380867004395,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.956,
      "step": 20
    },
    {
      "epoch": 0.019858156028368795,
      "grad_norm": 0.8580771088600159,
      "learning_rate": 7.000000000000001e-06,
      "loss": 2.8262,
      "step": 21
    },
    {
      "epoch": 0.020803782505910164,
      "grad_norm": 0.6907251477241516,
      "learning_rate": 7.333333333333334e-06,
      "loss": 3.0729,
      "step": 22
    },
    {
      "epoch": 0.021749408983451537,
      "grad_norm": 0.6712820529937744,
      "learning_rate": 7.666666666666667e-06,
      "loss": 2.7102,
      "step": 23
    },
    {
      "epoch": 0.02269503546099291,
      "grad_norm": 0.6856934428215027,
      "learning_rate": 8.000000000000001e-06,
      "loss": 2.7061,
      "step": 24
    },
    {
      "epoch": 0.02364066193853428,
      "grad_norm": 0.7126139402389526,
      "learning_rate": 8.333333333333334e-06,
      "loss": 2.6611,
      "step": 25
    },
    {
      "epoch": 0.02458628841607565,
      "grad_norm": 0.7721053957939148,
      "learning_rate": 8.666666666666668e-06,
      "loss": 2.8423,
      "step": 26
    },
    {
      "epoch": 0.02553191489361702,
      "grad_norm": 0.883097231388092,
      "learning_rate": 9e-06,
      "loss": 3.5565,
      "step": 27
    },
    {
      "epoch": 0.026477541371158392,
      "grad_norm": 1.0787785053253174,
      "learning_rate": 9.333333333333334e-06,
      "loss": 3.8743,
      "step": 28
    },
    {
      "epoch": 0.027423167848699765,
      "grad_norm": 0.881747305393219,
      "learning_rate": 9.666666666666667e-06,
      "loss": 3.628,
      "step": 29
    },
    {
      "epoch": 0.028368794326241134,
      "grad_norm": 1.07874596118927,
      "learning_rate": 1e-05,
      "loss": 4.0762,
      "step": 30
    },
    {
      "epoch": 0.029314420803782507,
      "grad_norm": 0.8328316807746887,
      "learning_rate": 1.0333333333333333e-05,
      "loss": 3.512,
      "step": 31
    },
    {
      "epoch": 0.030260047281323876,
      "grad_norm": 0.8973889946937561,
      "learning_rate": 1.0666666666666667e-05,
      "loss": 3.9156,
      "step": 32
    },
    {
      "epoch": 0.031205673758865248,
      "grad_norm": 0.7893106937408447,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 3.3497,
      "step": 33
    },
    {
      "epoch": 0.03215130023640662,
      "grad_norm": 0.8067853450775146,
      "learning_rate": 1.1333333333333334e-05,
      "loss": 3.3522,
      "step": 34
    },
    {
      "epoch": 0.03309692671394799,
      "grad_norm": 1.0948940515518188,
      "learning_rate": 1.1666666666666668e-05,
      "loss": 4.0731,
      "step": 35
    },
    {
      "epoch": 0.03404255319148936,
      "grad_norm": 0.8288351893424988,
      "learning_rate": 1.2e-05,
      "loss": 3.0711,
      "step": 36
    },
    {
      "epoch": 0.034988179669030735,
      "grad_norm": 0.7726929187774658,
      "learning_rate": 1.2333333333333334e-05,
      "loss": 3.0219,
      "step": 37
    },
    {
      "epoch": 0.03593380614657211,
      "grad_norm": 0.9294595122337341,
      "learning_rate": 1.2666666666666668e-05,
      "loss": 4.2024,
      "step": 38
    },
    {
      "epoch": 0.03687943262411347,
      "grad_norm": 0.9361292123794556,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 3.7119,
      "step": 39
    },
    {
      "epoch": 0.037825059101654845,
      "grad_norm": 0.9386151432991028,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 3.7765,
      "step": 40
    },
    {
      "epoch": 0.03877068557919622,
      "grad_norm": 0.9665974974632263,
      "learning_rate": 1.3666666666666666e-05,
      "loss": 3.6401,
      "step": 41
    },
    {
      "epoch": 0.03971631205673759,
      "grad_norm": 0.9367566108703613,
      "learning_rate": 1.4000000000000001e-05,
      "loss": 3.7931,
      "step": 42
    },
    {
      "epoch": 0.04066193853427896,
      "grad_norm": 0.763043999671936,
      "learning_rate": 1.4333333333333334e-05,
      "loss": 3.1378,
      "step": 43
    },
    {
      "epoch": 0.04160756501182033,
      "grad_norm": 1.134705901145935,
      "learning_rate": 1.4666666666666668e-05,
      "loss": 4.1756,
      "step": 44
    },
    {
      "epoch": 0.0425531914893617,
      "grad_norm": 1.111829161643982,
      "learning_rate": 1.5e-05,
      "loss": 4.4766,
      "step": 45
    },
    {
      "epoch": 0.043498817966903074,
      "grad_norm": 0.8709962368011475,
      "learning_rate": 1.5333333333333334e-05,
      "loss": 2.983,
      "step": 46
    },
    {
      "epoch": 0.044444444444444446,
      "grad_norm": 1.0141003131866455,
      "learning_rate": 1.5666666666666667e-05,
      "loss": 4.134,
      "step": 47
    },
    {
      "epoch": 0.04539007092198582,
      "grad_norm": 0.9469693303108215,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 3.1916,
      "step": 48
    },
    {
      "epoch": 0.046335697399527184,
      "grad_norm": 0.9570004940032959,
      "learning_rate": 1.6333333333333335e-05,
      "loss": 3.7659,
      "step": 49
    },
    {
      "epoch": 0.04728132387706856,
      "grad_norm": 1.1584417819976807,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 4.3539,
      "step": 50
    },
    {
      "epoch": 0.04728132387706856,
      "eval_loss": 3.263434410095215,
      "eval_runtime": 54.1739,
      "eval_samples_per_second": 65.77,
      "eval_steps_per_second": 16.447,
      "step": 50
    },
    {
      "epoch": 0.04822695035460993,
      "grad_norm": 0.1129605770111084,
      "learning_rate": 1.7000000000000003e-05,
      "loss": 0.175,
      "step": 51
    },
    {
      "epoch": 0.0491725768321513,
      "grad_norm": 0.12607906758785248,
      "learning_rate": 1.7333333333333336e-05,
      "loss": 0.208,
      "step": 52
    },
    {
      "epoch": 0.050118203309692674,
      "grad_norm": 0.16476179659366608,
      "learning_rate": 1.7666666666666668e-05,
      "loss": 0.3471,
      "step": 53
    },
    {
      "epoch": 0.05106382978723404,
      "grad_norm": 0.1916539967060089,
      "learning_rate": 1.8e-05,
      "loss": 0.5088,
      "step": 54
    },
    {
      "epoch": 0.05200945626477541,
      "grad_norm": 0.19213494658470154,
      "learning_rate": 1.8333333333333333e-05,
      "loss": 0.4579,
      "step": 55
    },
    {
      "epoch": 0.052955082742316785,
      "grad_norm": 0.1868194341659546,
      "learning_rate": 1.866666666666667e-05,
      "loss": 0.4327,
      "step": 56
    },
    {
      "epoch": 0.05390070921985816,
      "grad_norm": 0.2641420066356659,
      "learning_rate": 1.9e-05,
      "loss": 0.6682,
      "step": 57
    },
    {
      "epoch": 0.05484633569739953,
      "grad_norm": 0.2992357611656189,
      "learning_rate": 1.9333333333333333e-05,
      "loss": 0.8189,
      "step": 58
    },
    {
      "epoch": 0.055791962174940896,
      "grad_norm": 0.2843168377876282,
      "learning_rate": 1.9666666666666666e-05,
      "loss": 0.7047,
      "step": 59
    },
    {
      "epoch": 0.05673758865248227,
      "grad_norm": 0.3119712769985199,
      "learning_rate": 2e-05,
      "loss": 0.6548,
      "step": 60
    },
    {
      "epoch": 0.05768321513002364,
      "grad_norm": 0.4131757616996765,
      "learning_rate": 2.0333333333333334e-05,
      "loss": 1.0262,
      "step": 61
    },
    {
      "epoch": 0.05862884160756501,
      "grad_norm": 0.399532675743103,
      "learning_rate": 2.0666666666666666e-05,
      "loss": 0.893,
      "step": 62
    },
    {
      "epoch": 0.059574468085106386,
      "grad_norm": 0.4315282702445984,
      "learning_rate": 2.1e-05,
      "loss": 1.1419,
      "step": 63
    },
    {
      "epoch": 0.06052009456264775,
      "grad_norm": 0.5299156904220581,
      "learning_rate": 2.1333333333333335e-05,
      "loss": 1.3849,
      "step": 64
    },
    {
      "epoch": 0.061465721040189124,
      "grad_norm": 0.5484279990196228,
      "learning_rate": 2.1666666666666667e-05,
      "loss": 1.5874,
      "step": 65
    },
    {
      "epoch": 0.062411347517730496,
      "grad_norm": 0.4971844255924225,
      "learning_rate": 2.2000000000000003e-05,
      "loss": 1.3445,
      "step": 66
    },
    {
      "epoch": 0.06335697399527186,
      "grad_norm": 0.6058803796768188,
      "learning_rate": 2.2333333333333335e-05,
      "loss": 1.7419,
      "step": 67
    },
    {
      "epoch": 0.06430260047281323,
      "grad_norm": 0.9219263195991516,
      "learning_rate": 2.2666666666666668e-05,
      "loss": 2.4339,
      "step": 68
    },
    {
      "epoch": 0.06524822695035461,
      "grad_norm": 0.8259028196334839,
      "learning_rate": 2.3000000000000003e-05,
      "loss": 2.2387,
      "step": 69
    },
    {
      "epoch": 0.06619385342789598,
      "grad_norm": 0.8110438585281372,
      "learning_rate": 2.3333333333333336e-05,
      "loss": 2.7578,
      "step": 70
    },
    {
      "epoch": 0.06713947990543735,
      "grad_norm": 0.8333178758621216,
      "learning_rate": 2.3666666666666668e-05,
      "loss": 2.7401,
      "step": 71
    },
    {
      "epoch": 0.06808510638297872,
      "grad_norm": 0.6991426944732666,
      "learning_rate": 2.4e-05,
      "loss": 2.0404,
      "step": 72
    },
    {
      "epoch": 0.0690307328605201,
      "grad_norm": 0.8322498798370361,
      "learning_rate": 2.4333333333333336e-05,
      "loss": 2.5024,
      "step": 73
    },
    {
      "epoch": 0.06997635933806147,
      "grad_norm": 0.6573300957679749,
      "learning_rate": 2.466666666666667e-05,
      "loss": 2.2451,
      "step": 74
    },
    {
      "epoch": 0.07092198581560284,
      "grad_norm": 0.9917909502983093,
      "learning_rate": 2.5e-05,
      "loss": 2.7126,
      "step": 75
    },
    {
      "epoch": 0.07186761229314421,
      "grad_norm": 0.9231103658676147,
      "learning_rate": 2.5333333333333337e-05,
      "loss": 2.4502,
      "step": 76
    },
    {
      "epoch": 0.07281323877068557,
      "grad_norm": 0.8092001676559448,
      "learning_rate": 2.5666666666666666e-05,
      "loss": 2.3372,
      "step": 77
    },
    {
      "epoch": 0.07375886524822695,
      "grad_norm": 0.9932003617286682,
      "learning_rate": 2.6000000000000002e-05,
      "loss": 2.9451,
      "step": 78
    },
    {
      "epoch": 0.07470449172576832,
      "grad_norm": 1.0481059551239014,
      "learning_rate": 2.633333333333333e-05,
      "loss": 3.2932,
      "step": 79
    },
    {
      "epoch": 0.07565011820330969,
      "grad_norm": 1.146222472190857,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 3.2256,
      "step": 80
    },
    {
      "epoch": 0.07659574468085106,
      "grad_norm": 1.144538164138794,
      "learning_rate": 2.7000000000000002e-05,
      "loss": 2.9511,
      "step": 81
    },
    {
      "epoch": 0.07754137115839244,
      "grad_norm": 0.8968273997306824,
      "learning_rate": 2.733333333333333e-05,
      "loss": 2.6522,
      "step": 82
    },
    {
      "epoch": 0.07848699763593381,
      "grad_norm": 1.026343822479248,
      "learning_rate": 2.7666666666666667e-05,
      "loss": 2.9253,
      "step": 83
    },
    {
      "epoch": 0.07943262411347518,
      "grad_norm": 0.8586713671684265,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 2.4545,
      "step": 84
    },
    {
      "epoch": 0.08037825059101655,
      "grad_norm": 1.0284498929977417,
      "learning_rate": 2.8333333333333335e-05,
      "loss": 2.8148,
      "step": 85
    },
    {
      "epoch": 0.08132387706855793,
      "grad_norm": 0.8303140997886658,
      "learning_rate": 2.8666666666666668e-05,
      "loss": 2.3988,
      "step": 86
    },
    {
      "epoch": 0.08226950354609928,
      "grad_norm": 0.7819446921348572,
      "learning_rate": 2.9e-05,
      "loss": 1.9212,
      "step": 87
    },
    {
      "epoch": 0.08321513002364066,
      "grad_norm": 1.0593886375427246,
      "learning_rate": 2.9333333333333336e-05,
      "loss": 2.6381,
      "step": 88
    },
    {
      "epoch": 0.08416075650118203,
      "grad_norm": 1.3569374084472656,
      "learning_rate": 2.9666666666666672e-05,
      "loss": 3.4768,
      "step": 89
    },
    {
      "epoch": 0.0851063829787234,
      "grad_norm": 0.878240168094635,
      "learning_rate": 3e-05,
      "loss": 2.403,
      "step": 90
    },
    {
      "epoch": 0.08605200945626477,
      "grad_norm": 1.1406848430633545,
      "learning_rate": 3.0333333333333337e-05,
      "loss": 3.1817,
      "step": 91
    },
    {
      "epoch": 0.08699763593380615,
      "grad_norm": 0.9278729557991028,
      "learning_rate": 3.066666666666667e-05,
      "loss": 2.433,
      "step": 92
    },
    {
      "epoch": 0.08794326241134752,
      "grad_norm": 0.9704206585884094,
      "learning_rate": 3.1e-05,
      "loss": 2.3984,
      "step": 93
    },
    {
      "epoch": 0.08888888888888889,
      "grad_norm": 1.2946637868881226,
      "learning_rate": 3.1333333333333334e-05,
      "loss": 3.0731,
      "step": 94
    },
    {
      "epoch": 0.08983451536643026,
      "grad_norm": 0.9340803623199463,
      "learning_rate": 3.1666666666666666e-05,
      "loss": 2.2826,
      "step": 95
    },
    {
      "epoch": 0.09078014184397164,
      "grad_norm": 1.044756531715393,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 2.456,
      "step": 96
    },
    {
      "epoch": 0.091725768321513,
      "grad_norm": 1.097231388092041,
      "learning_rate": 3.233333333333333e-05,
      "loss": 2.4481,
      "step": 97
    },
    {
      "epoch": 0.09267139479905437,
      "grad_norm": 1.1005371809005737,
      "learning_rate": 3.266666666666667e-05,
      "loss": 2.3557,
      "step": 98
    },
    {
      "epoch": 0.09361702127659574,
      "grad_norm": 0.9912729859352112,
      "learning_rate": 3.3e-05,
      "loss": 2.1763,
      "step": 99
    },
    {
      "epoch": 0.09456264775413711,
      "grad_norm": 1.5450869798660278,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 3.3969,
      "step": 100
    },
    {
      "epoch": 0.09456264775413711,
      "eval_loss": 1.9755831956863403,
      "eval_runtime": 54.202,
      "eval_samples_per_second": 65.736,
      "eval_steps_per_second": 16.439,
      "step": 100
    },
    {
      "epoch": 0.09550827423167849,
      "grad_norm": 0.1785513013601303,
      "learning_rate": 3.366666666666667e-05,
      "loss": 0.1393,
      "step": 101
    },
    {
      "epoch": 0.09645390070921986,
      "grad_norm": 0.21543779969215393,
      "learning_rate": 3.4000000000000007e-05,
      "loss": 0.1675,
      "step": 102
    },
    {
      "epoch": 0.09739952718676123,
      "grad_norm": 0.27484190464019775,
      "learning_rate": 3.433333333333333e-05,
      "loss": 0.2331,
      "step": 103
    },
    {
      "epoch": 0.0983451536643026,
      "grad_norm": 0.22659574449062347,
      "learning_rate": 3.466666666666667e-05,
      "loss": 0.2908,
      "step": 104
    },
    {
      "epoch": 0.09929078014184398,
      "grad_norm": 0.28378260135650635,
      "learning_rate": 3.5e-05,
      "loss": 0.2924,
      "step": 105
    },
    {
      "epoch": 0.10023640661938535,
      "grad_norm": 0.2579360902309418,
      "learning_rate": 3.5333333333333336e-05,
      "loss": 0.3687,
      "step": 106
    },
    {
      "epoch": 0.10118203309692671,
      "grad_norm": 0.2652228772640228,
      "learning_rate": 3.566666666666667e-05,
      "loss": 0.5374,
      "step": 107
    },
    {
      "epoch": 0.10212765957446808,
      "grad_norm": 0.32100433111190796,
      "learning_rate": 3.6e-05,
      "loss": 0.6874,
      "step": 108
    },
    {
      "epoch": 0.10307328605200945,
      "grad_norm": 0.30462920665740967,
      "learning_rate": 3.633333333333333e-05,
      "loss": 0.4254,
      "step": 109
    },
    {
      "epoch": 0.10401891252955082,
      "grad_norm": 0.2611568570137024,
      "learning_rate": 3.6666666666666666e-05,
      "loss": 0.6701,
      "step": 110
    },
    {
      "epoch": 0.1049645390070922,
      "grad_norm": 0.29873016476631165,
      "learning_rate": 3.7e-05,
      "loss": 0.6449,
      "step": 111
    },
    {
      "epoch": 0.10591016548463357,
      "grad_norm": 0.2605455219745636,
      "learning_rate": 3.733333333333334e-05,
      "loss": 0.6369,
      "step": 112
    },
    {
      "epoch": 0.10685579196217494,
      "grad_norm": 0.5200917720794678,
      "learning_rate": 3.766666666666667e-05,
      "loss": 1.1225,
      "step": 113
    },
    {
      "epoch": 0.10780141843971631,
      "grad_norm": 0.31477710604667664,
      "learning_rate": 3.8e-05,
      "loss": 0.772,
      "step": 114
    },
    {
      "epoch": 0.10874704491725769,
      "grad_norm": 0.42271727323532104,
      "learning_rate": 3.8333333333333334e-05,
      "loss": 1.0659,
      "step": 115
    },
    {
      "epoch": 0.10969267139479906,
      "grad_norm": 0.37258803844451904,
      "learning_rate": 3.866666666666667e-05,
      "loss": 0.9266,
      "step": 116
    },
    {
      "epoch": 0.11063829787234042,
      "grad_norm": 0.3200523257255554,
      "learning_rate": 3.9000000000000006e-05,
      "loss": 0.782,
      "step": 117
    },
    {
      "epoch": 0.11158392434988179,
      "grad_norm": 0.37096261978149414,
      "learning_rate": 3.933333333333333e-05,
      "loss": 0.8424,
      "step": 118
    },
    {
      "epoch": 0.11252955082742316,
      "grad_norm": 0.3387626111507416,
      "learning_rate": 3.966666666666667e-05,
      "loss": 0.7941,
      "step": 119
    },
    {
      "epoch": 0.11347517730496454,
      "grad_norm": 0.5522480607032776,
      "learning_rate": 4e-05,
      "loss": 1.3268,
      "step": 120
    },
    {
      "epoch": 0.11442080378250591,
      "grad_norm": 0.6289123892784119,
      "learning_rate": 4.0333333333333336e-05,
      "loss": 1.4588,
      "step": 121
    },
    {
      "epoch": 0.11536643026004728,
      "grad_norm": 0.4001694321632385,
      "learning_rate": 4.066666666666667e-05,
      "loss": 1.056,
      "step": 122
    },
    {
      "epoch": 0.11631205673758865,
      "grad_norm": 0.4287935793399811,
      "learning_rate": 4.1e-05,
      "loss": 1.1171,
      "step": 123
    },
    {
      "epoch": 0.11725768321513003,
      "grad_norm": 0.5254130363464355,
      "learning_rate": 4.133333333333333e-05,
      "loss": 1.2804,
      "step": 124
    },
    {
      "epoch": 0.1182033096926714,
      "grad_norm": 0.5890396237373352,
      "learning_rate": 4.166666666666667e-05,
      "loss": 1.5757,
      "step": 125
    },
    {
      "epoch": 0.11914893617021277,
      "grad_norm": 0.5535526275634766,
      "learning_rate": 4.2e-05,
      "loss": 1.3113,
      "step": 126
    },
    {
      "epoch": 0.12009456264775414,
      "grad_norm": 0.5088675618171692,
      "learning_rate": 4.233333333333334e-05,
      "loss": 1.3381,
      "step": 127
    },
    {
      "epoch": 0.1210401891252955,
      "grad_norm": 0.6092506051063538,
      "learning_rate": 4.266666666666667e-05,
      "loss": 1.5369,
      "step": 128
    },
    {
      "epoch": 0.12198581560283688,
      "grad_norm": 0.5836873650550842,
      "learning_rate": 4.3e-05,
      "loss": 1.3943,
      "step": 129
    },
    {
      "epoch": 0.12293144208037825,
      "grad_norm": 0.6445267200469971,
      "learning_rate": 4.3333333333333334e-05,
      "loss": 1.3146,
      "step": 130
    },
    {
      "epoch": 0.12387706855791962,
      "grad_norm": 0.4378418028354645,
      "learning_rate": 4.3666666666666666e-05,
      "loss": 1.0086,
      "step": 131
    },
    {
      "epoch": 0.12482269503546099,
      "grad_norm": 0.6770736575126648,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 1.5146,
      "step": 132
    },
    {
      "epoch": 0.12576832151300235,
      "grad_norm": 0.6039463877677917,
      "learning_rate": 4.433333333333334e-05,
      "loss": 1.3621,
      "step": 133
    },
    {
      "epoch": 0.12671394799054372,
      "grad_norm": 0.6413301229476929,
      "learning_rate": 4.466666666666667e-05,
      "loss": 1.4514,
      "step": 134
    },
    {
      "epoch": 0.1276595744680851,
      "grad_norm": 0.6788724660873413,
      "learning_rate": 4.5e-05,
      "loss": 1.3301,
      "step": 135
    },
    {
      "epoch": 0.12860520094562647,
      "grad_norm": 0.5223095417022705,
      "learning_rate": 4.5333333333333335e-05,
      "loss": 1.2304,
      "step": 136
    },
    {
      "epoch": 0.12955082742316784,
      "grad_norm": 0.6495351195335388,
      "learning_rate": 4.566666666666667e-05,
      "loss": 1.4054,
      "step": 137
    },
    {
      "epoch": 0.13049645390070921,
      "grad_norm": 0.6079133749008179,
      "learning_rate": 4.600000000000001e-05,
      "loss": 1.3832,
      "step": 138
    },
    {
      "epoch": 0.1314420803782506,
      "grad_norm": 0.5553860664367676,
      "learning_rate": 4.633333333333333e-05,
      "loss": 1.0288,
      "step": 139
    },
    {
      "epoch": 0.13238770685579196,
      "grad_norm": 0.550632894039154,
      "learning_rate": 4.666666666666667e-05,
      "loss": 1.2453,
      "step": 140
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.9021189212799072,
      "learning_rate": 4.7e-05,
      "loss": 1.6022,
      "step": 141
    },
    {
      "epoch": 0.1342789598108747,
      "grad_norm": 0.6802974939346313,
      "learning_rate": 4.7333333333333336e-05,
      "loss": 1.5432,
      "step": 142
    },
    {
      "epoch": 0.13522458628841608,
      "grad_norm": 0.5788073539733887,
      "learning_rate": 4.766666666666667e-05,
      "loss": 1.2525,
      "step": 143
    },
    {
      "epoch": 0.13617021276595745,
      "grad_norm": 0.6477014422416687,
      "learning_rate": 4.8e-05,
      "loss": 1.0959,
      "step": 144
    },
    {
      "epoch": 0.13711583924349882,
      "grad_norm": 0.4955628216266632,
      "learning_rate": 4.8333333333333334e-05,
      "loss": 1.1016,
      "step": 145
    },
    {
      "epoch": 0.1380614657210402,
      "grad_norm": 0.4967166483402252,
      "learning_rate": 4.866666666666667e-05,
      "loss": 1.0116,
      "step": 146
    },
    {
      "epoch": 0.13900709219858157,
      "grad_norm": 0.5145598649978638,
      "learning_rate": 4.9e-05,
      "loss": 1.0286,
      "step": 147
    },
    {
      "epoch": 0.13995271867612294,
      "grad_norm": 0.7154728174209595,
      "learning_rate": 4.933333333333334e-05,
      "loss": 1.2846,
      "step": 148
    },
    {
      "epoch": 0.1408983451536643,
      "grad_norm": 0.6433387994766235,
      "learning_rate": 4.966666666666667e-05,
      "loss": 1.0688,
      "step": 149
    },
    {
      "epoch": 0.14184397163120568,
      "grad_norm": 0.8238207697868347,
      "learning_rate": 5e-05,
      "loss": 1.694,
      "step": 150
    },
    {
      "epoch": 0.14184397163120568,
      "eval_loss": 1.0205990076065063,
      "eval_runtime": 54.4047,
      "eval_samples_per_second": 65.491,
      "eval_steps_per_second": 16.377,
      "step": 150
    },
    {
      "epoch": 0.14278959810874706,
      "grad_norm": 0.45450514554977417,
      "learning_rate": 4.995066821070679e-05,
      "loss": 0.1451,
      "step": 151
    },
    {
      "epoch": 0.14373522458628843,
      "grad_norm": 0.5641042590141296,
      "learning_rate": 4.980286753286195e-05,
      "loss": 0.19,
      "step": 152
    },
    {
      "epoch": 0.14468085106382977,
      "grad_norm": 0.6517515182495117,
      "learning_rate": 4.9557181268217227e-05,
      "loss": 0.2196,
      "step": 153
    },
    {
      "epoch": 0.14562647754137115,
      "grad_norm": 0.5124554634094238,
      "learning_rate": 4.9214579028215776e-05,
      "loss": 0.2285,
      "step": 154
    },
    {
      "epoch": 0.14657210401891252,
      "grad_norm": 0.4333844482898712,
      "learning_rate": 4.877641290737884e-05,
      "loss": 0.2272,
      "step": 155
    },
    {
      "epoch": 0.1475177304964539,
      "grad_norm": 0.3877612352371216,
      "learning_rate": 4.8244412147206284e-05,
      "loss": 0.3144,
      "step": 156
    },
    {
      "epoch": 0.14846335697399526,
      "grad_norm": 0.3211458921432495,
      "learning_rate": 4.762067631165049e-05,
      "loss": 0.3578,
      "step": 157
    },
    {
      "epoch": 0.14940898345153664,
      "grad_norm": 0.24879109859466553,
      "learning_rate": 4.690766700109659e-05,
      "loss": 0.2756,
      "step": 158
    },
    {
      "epoch": 0.150354609929078,
      "grad_norm": 0.22662314772605896,
      "learning_rate": 4.610819813755038e-05,
      "loss": 0.2839,
      "step": 159
    },
    {
      "epoch": 0.15130023640661938,
      "grad_norm": 0.23902210593223572,
      "learning_rate": 4.522542485937369e-05,
      "loss": 0.3703,
      "step": 160
    },
    {
      "epoch": 0.15224586288416075,
      "grad_norm": 0.23963478207588196,
      "learning_rate": 4.426283106939474e-05,
      "loss": 0.3972,
      "step": 161
    },
    {
      "epoch": 0.15319148936170213,
      "grad_norm": 0.23576639592647552,
      "learning_rate": 4.3224215685535294e-05,
      "loss": 0.3027,
      "step": 162
    },
    {
      "epoch": 0.1541371158392435,
      "grad_norm": 0.33861732482910156,
      "learning_rate": 4.211367764821722e-05,
      "loss": 0.481,
      "step": 163
    },
    {
      "epoch": 0.15508274231678487,
      "grad_norm": 0.34786704182624817,
      "learning_rate": 4.093559974371725e-05,
      "loss": 0.441,
      "step": 164
    },
    {
      "epoch": 0.15602836879432624,
      "grad_norm": 0.5184177160263062,
      "learning_rate": 3.969463130731183e-05,
      "loss": 0.5629,
      "step": 165
    },
    {
      "epoch": 0.15697399527186762,
      "grad_norm": 0.38847318291664124,
      "learning_rate": 3.8395669874474915e-05,
      "loss": 0.5856,
      "step": 166
    },
    {
      "epoch": 0.157919621749409,
      "grad_norm": 0.4933064877986908,
      "learning_rate": 3.704384185254288e-05,
      "loss": 0.6682,
      "step": 167
    },
    {
      "epoch": 0.15886524822695036,
      "grad_norm": 0.4688006043434143,
      "learning_rate": 3.564448228912682e-05,
      "loss": 0.6222,
      "step": 168
    },
    {
      "epoch": 0.15981087470449173,
      "grad_norm": 0.7410577535629272,
      "learning_rate": 3.4203113817116957e-05,
      "loss": 0.8418,
      "step": 169
    },
    {
      "epoch": 0.1607565011820331,
      "grad_norm": 0.7604397535324097,
      "learning_rate": 3.272542485937369e-05,
      "loss": 1.1219,
      "step": 170
    },
    {
      "epoch": 0.16170212765957448,
      "grad_norm": 0.6462581753730774,
      "learning_rate": 3.121724717912138e-05,
      "loss": 0.9533,
      "step": 171
    },
    {
      "epoch": 0.16264775413711585,
      "grad_norm": 0.2718241810798645,
      "learning_rate": 2.9684532864643122e-05,
      "loss": 0.5001,
      "step": 172
    },
    {
      "epoch": 0.1635933806146572,
      "grad_norm": 0.35057616233825684,
      "learning_rate": 2.8133330839107608e-05,
      "loss": 0.5601,
      "step": 173
    },
    {
      "epoch": 0.16453900709219857,
      "grad_norm": 0.5394273996353149,
      "learning_rate": 2.656976298823284e-05,
      "loss": 0.8314,
      "step": 174
    },
    {
      "epoch": 0.16548463356973994,
      "grad_norm": 0.3971342444419861,
      "learning_rate": 2.5e-05,
      "loss": 0.7177,
      "step": 175
    },
    {
      "epoch": 0.16643026004728131,
      "grad_norm": 0.3941769003868103,
      "learning_rate": 2.3430237011767167e-05,
      "loss": 0.6324,
      "step": 176
    },
    {
      "epoch": 0.1673758865248227,
      "grad_norm": 0.45238277316093445,
      "learning_rate": 2.186666916089239e-05,
      "loss": 0.7953,
      "step": 177
    },
    {
      "epoch": 0.16832151300236406,
      "grad_norm": 0.5700445771217346,
      "learning_rate": 2.031546713535688e-05,
      "loss": 0.859,
      "step": 178
    },
    {
      "epoch": 0.16926713947990543,
      "grad_norm": 0.47867706418037415,
      "learning_rate": 1.8782752820878634e-05,
      "loss": 0.8502,
      "step": 179
    },
    {
      "epoch": 0.1702127659574468,
      "grad_norm": 0.42379331588745117,
      "learning_rate": 1.7274575140626318e-05,
      "loss": 0.8364,
      "step": 180
    },
    {
      "epoch": 0.17115839243498818,
      "grad_norm": 0.4100590944290161,
      "learning_rate": 1.5796886182883053e-05,
      "loss": 0.7299,
      "step": 181
    },
    {
      "epoch": 0.17210401891252955,
      "grad_norm": 0.5437663197517395,
      "learning_rate": 1.4355517710873184e-05,
      "loss": 0.7789,
      "step": 182
    },
    {
      "epoch": 0.17304964539007092,
      "grad_norm": 0.47485315799713135,
      "learning_rate": 1.2956158147457115e-05,
      "loss": 0.8491,
      "step": 183
    },
    {
      "epoch": 0.1739952718676123,
      "grad_norm": 0.48820245265960693,
      "learning_rate": 1.1604330125525079e-05,
      "loss": 0.926,
      "step": 184
    },
    {
      "epoch": 0.17494089834515367,
      "grad_norm": 0.32581862807273865,
      "learning_rate": 1.0305368692688174e-05,
      "loss": 0.5398,
      "step": 185
    },
    {
      "epoch": 0.17588652482269504,
      "grad_norm": 0.4086638391017914,
      "learning_rate": 9.064400256282757e-06,
      "loss": 0.8114,
      "step": 186
    },
    {
      "epoch": 0.1768321513002364,
      "grad_norm": 0.4679095447063446,
      "learning_rate": 7.886322351782783e-06,
      "loss": 0.8871,
      "step": 187
    },
    {
      "epoch": 0.17777777777777778,
      "grad_norm": 0.4896736145019531,
      "learning_rate": 6.775784314464717e-06,
      "loss": 0.81,
      "step": 188
    },
    {
      "epoch": 0.17872340425531916,
      "grad_norm": 0.4382385015487671,
      "learning_rate": 5.737168930605272e-06,
      "loss": 0.8284,
      "step": 189
    },
    {
      "epoch": 0.17966903073286053,
      "grad_norm": 0.5600558519363403,
      "learning_rate": 4.7745751406263165e-06,
      "loss": 1.0058,
      "step": 190
    },
    {
      "epoch": 0.1806146572104019,
      "grad_norm": 0.5055614113807678,
      "learning_rate": 3.891801862449629e-06,
      "loss": 0.8065,
      "step": 191
    },
    {
      "epoch": 0.18156028368794327,
      "grad_norm": 0.6402313113212585,
      "learning_rate": 3.092332998903416e-06,
      "loss": 1.0421,
      "step": 192
    },
    {
      "epoch": 0.18250591016548465,
      "grad_norm": 0.5336678624153137,
      "learning_rate": 2.379323688349516e-06,
      "loss": 0.8897,
      "step": 193
    },
    {
      "epoch": 0.183451536643026,
      "grad_norm": 0.5516868829727173,
      "learning_rate": 1.7555878527937164e-06,
      "loss": 0.8386,
      "step": 194
    },
    {
      "epoch": 0.18439716312056736,
      "grad_norm": 0.6657341718673706,
      "learning_rate": 1.2235870926211619e-06,
      "loss": 1.1191,
      "step": 195
    },
    {
      "epoch": 0.18534278959810874,
      "grad_norm": 0.5750419497489929,
      "learning_rate": 7.854209717842231e-07,
      "loss": 1.0913,
      "step": 196
    },
    {
      "epoch": 0.1862884160756501,
      "grad_norm": 0.4884861409664154,
      "learning_rate": 4.4281873178278475e-07,
      "loss": 0.976,
      "step": 197
    },
    {
      "epoch": 0.18723404255319148,
      "grad_norm": 0.5465104579925537,
      "learning_rate": 1.9713246713805588e-07,
      "loss": 0.8359,
      "step": 198
    },
    {
      "epoch": 0.18817966903073285,
      "grad_norm": 0.6062586903572083,
      "learning_rate": 4.9331789293211026e-08,
      "loss": 0.9467,
      "step": 199
    },
    {
      "epoch": 0.18912529550827423,
      "grad_norm": 0.7774025201797485,
      "learning_rate": 0.0,
      "loss": 1.1784,
      "step": 200
    },
    {
      "epoch": 0.18912529550827423,
      "eval_loss": 0.8490656018257141,
      "eval_runtime": 54.2258,
      "eval_samples_per_second": 65.707,
      "eval_steps_per_second": 16.431,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 4,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.614235570896896e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}