cilorku's picture
Training in progress, step 200, checkpoint
66ce0b4 verified
{
"best_metric": 0.8490656018257141,
"best_model_checkpoint": "miner_id_24/checkpoint-200",
"epoch": 0.18912529550827423,
"eval_steps": 50,
"global_step": 200,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0009456264775413711,
"grad_norm": 0.09641855955123901,
"learning_rate": 3.3333333333333335e-07,
"loss": 0.1657,
"step": 1
},
{
"epoch": 0.0009456264775413711,
"eval_loss": 3.487557888031006,
"eval_runtime": 54.6728,
"eval_samples_per_second": 65.17,
"eval_steps_per_second": 16.297,
"step": 1
},
{
"epoch": 0.0018912529550827422,
"grad_norm": 0.1267959028482437,
"learning_rate": 6.666666666666667e-07,
"loss": 0.2459,
"step": 2
},
{
"epoch": 0.0028368794326241137,
"grad_norm": 0.13855446875095367,
"learning_rate": 1.0000000000000002e-06,
"loss": 0.2912,
"step": 3
},
{
"epoch": 0.0037825059101654845,
"grad_norm": 0.15804192423820496,
"learning_rate": 1.3333333333333334e-06,
"loss": 0.3923,
"step": 4
},
{
"epoch": 0.004728132387706856,
"grad_norm": 0.18095271289348602,
"learning_rate": 1.6666666666666667e-06,
"loss": 0.4793,
"step": 5
},
{
"epoch": 0.005673758865248227,
"grad_norm": 0.18571291863918304,
"learning_rate": 2.0000000000000003e-06,
"loss": 0.585,
"step": 6
},
{
"epoch": 0.006619385342789598,
"grad_norm": 0.2568407356739044,
"learning_rate": 2.3333333333333336e-06,
"loss": 0.8612,
"step": 7
},
{
"epoch": 0.007565011820330969,
"grad_norm": 0.3106652498245239,
"learning_rate": 2.666666666666667e-06,
"loss": 1.2384,
"step": 8
},
{
"epoch": 0.00851063829787234,
"grad_norm": 0.2571044862270355,
"learning_rate": 3e-06,
"loss": 0.8217,
"step": 9
},
{
"epoch": 0.009456264775413711,
"grad_norm": 0.29234185814857483,
"learning_rate": 3.3333333333333333e-06,
"loss": 0.7603,
"step": 10
},
{
"epoch": 0.010401891252955082,
"grad_norm": 0.24926097691059113,
"learning_rate": 3.666666666666667e-06,
"loss": 0.6962,
"step": 11
},
{
"epoch": 0.011347517730496455,
"grad_norm": 0.2906411588191986,
"learning_rate": 4.000000000000001e-06,
"loss": 0.9644,
"step": 12
},
{
"epoch": 0.012293144208037825,
"grad_norm": 0.49177998304367065,
"learning_rate": 4.333333333333334e-06,
"loss": 1.7599,
"step": 13
},
{
"epoch": 0.013238770685579196,
"grad_norm": 0.4265400767326355,
"learning_rate": 4.666666666666667e-06,
"loss": 1.493,
"step": 14
},
{
"epoch": 0.014184397163120567,
"grad_norm": 0.5240830779075623,
"learning_rate": 5e-06,
"loss": 1.9888,
"step": 15
},
{
"epoch": 0.015130023640661938,
"grad_norm": 0.5526121854782104,
"learning_rate": 5.333333333333334e-06,
"loss": 2.2851,
"step": 16
},
{
"epoch": 0.01607565011820331,
"grad_norm": 0.5441344976425171,
"learning_rate": 5.666666666666667e-06,
"loss": 1.9884,
"step": 17
},
{
"epoch": 0.01702127659574468,
"grad_norm": 0.6593867540359497,
"learning_rate": 6e-06,
"loss": 2.5504,
"step": 18
},
{
"epoch": 0.017966903073286054,
"grad_norm": 0.6868957877159119,
"learning_rate": 6.333333333333334e-06,
"loss": 3.0568,
"step": 19
},
{
"epoch": 0.018912529550827423,
"grad_norm": 0.43732380867004395,
"learning_rate": 6.666666666666667e-06,
"loss": 1.956,
"step": 20
},
{
"epoch": 0.019858156028368795,
"grad_norm": 0.8580771088600159,
"learning_rate": 7.000000000000001e-06,
"loss": 2.8262,
"step": 21
},
{
"epoch": 0.020803782505910164,
"grad_norm": 0.6907251477241516,
"learning_rate": 7.333333333333334e-06,
"loss": 3.0729,
"step": 22
},
{
"epoch": 0.021749408983451537,
"grad_norm": 0.6712820529937744,
"learning_rate": 7.666666666666667e-06,
"loss": 2.7102,
"step": 23
},
{
"epoch": 0.02269503546099291,
"grad_norm": 0.6856934428215027,
"learning_rate": 8.000000000000001e-06,
"loss": 2.7061,
"step": 24
},
{
"epoch": 0.02364066193853428,
"grad_norm": 0.7126139402389526,
"learning_rate": 8.333333333333334e-06,
"loss": 2.6611,
"step": 25
},
{
"epoch": 0.02458628841607565,
"grad_norm": 0.7721053957939148,
"learning_rate": 8.666666666666668e-06,
"loss": 2.8423,
"step": 26
},
{
"epoch": 0.02553191489361702,
"grad_norm": 0.883097231388092,
"learning_rate": 9e-06,
"loss": 3.5565,
"step": 27
},
{
"epoch": 0.026477541371158392,
"grad_norm": 1.0787785053253174,
"learning_rate": 9.333333333333334e-06,
"loss": 3.8743,
"step": 28
},
{
"epoch": 0.027423167848699765,
"grad_norm": 0.881747305393219,
"learning_rate": 9.666666666666667e-06,
"loss": 3.628,
"step": 29
},
{
"epoch": 0.028368794326241134,
"grad_norm": 1.07874596118927,
"learning_rate": 1e-05,
"loss": 4.0762,
"step": 30
},
{
"epoch": 0.029314420803782507,
"grad_norm": 0.8328316807746887,
"learning_rate": 1.0333333333333333e-05,
"loss": 3.512,
"step": 31
},
{
"epoch": 0.030260047281323876,
"grad_norm": 0.8973889946937561,
"learning_rate": 1.0666666666666667e-05,
"loss": 3.9156,
"step": 32
},
{
"epoch": 0.031205673758865248,
"grad_norm": 0.7893106937408447,
"learning_rate": 1.1000000000000001e-05,
"loss": 3.3497,
"step": 33
},
{
"epoch": 0.03215130023640662,
"grad_norm": 0.8067853450775146,
"learning_rate": 1.1333333333333334e-05,
"loss": 3.3522,
"step": 34
},
{
"epoch": 0.03309692671394799,
"grad_norm": 1.0948940515518188,
"learning_rate": 1.1666666666666668e-05,
"loss": 4.0731,
"step": 35
},
{
"epoch": 0.03404255319148936,
"grad_norm": 0.8288351893424988,
"learning_rate": 1.2e-05,
"loss": 3.0711,
"step": 36
},
{
"epoch": 0.034988179669030735,
"grad_norm": 0.7726929187774658,
"learning_rate": 1.2333333333333334e-05,
"loss": 3.0219,
"step": 37
},
{
"epoch": 0.03593380614657211,
"grad_norm": 0.9294595122337341,
"learning_rate": 1.2666666666666668e-05,
"loss": 4.2024,
"step": 38
},
{
"epoch": 0.03687943262411347,
"grad_norm": 0.9361292123794556,
"learning_rate": 1.3000000000000001e-05,
"loss": 3.7119,
"step": 39
},
{
"epoch": 0.037825059101654845,
"grad_norm": 0.9386151432991028,
"learning_rate": 1.3333333333333333e-05,
"loss": 3.7765,
"step": 40
},
{
"epoch": 0.03877068557919622,
"grad_norm": 0.9665974974632263,
"learning_rate": 1.3666666666666666e-05,
"loss": 3.6401,
"step": 41
},
{
"epoch": 0.03971631205673759,
"grad_norm": 0.9367566108703613,
"learning_rate": 1.4000000000000001e-05,
"loss": 3.7931,
"step": 42
},
{
"epoch": 0.04066193853427896,
"grad_norm": 0.763043999671936,
"learning_rate": 1.4333333333333334e-05,
"loss": 3.1378,
"step": 43
},
{
"epoch": 0.04160756501182033,
"grad_norm": 1.134705901145935,
"learning_rate": 1.4666666666666668e-05,
"loss": 4.1756,
"step": 44
},
{
"epoch": 0.0425531914893617,
"grad_norm": 1.111829161643982,
"learning_rate": 1.5e-05,
"loss": 4.4766,
"step": 45
},
{
"epoch": 0.043498817966903074,
"grad_norm": 0.8709962368011475,
"learning_rate": 1.5333333333333334e-05,
"loss": 2.983,
"step": 46
},
{
"epoch": 0.044444444444444446,
"grad_norm": 1.0141003131866455,
"learning_rate": 1.5666666666666667e-05,
"loss": 4.134,
"step": 47
},
{
"epoch": 0.04539007092198582,
"grad_norm": 0.9469693303108215,
"learning_rate": 1.6000000000000003e-05,
"loss": 3.1916,
"step": 48
},
{
"epoch": 0.046335697399527184,
"grad_norm": 0.9570004940032959,
"learning_rate": 1.6333333333333335e-05,
"loss": 3.7659,
"step": 49
},
{
"epoch": 0.04728132387706856,
"grad_norm": 1.1584417819976807,
"learning_rate": 1.6666666666666667e-05,
"loss": 4.3539,
"step": 50
},
{
"epoch": 0.04728132387706856,
"eval_loss": 3.263434410095215,
"eval_runtime": 54.1739,
"eval_samples_per_second": 65.77,
"eval_steps_per_second": 16.447,
"step": 50
},
{
"epoch": 0.04822695035460993,
"grad_norm": 0.1129605770111084,
"learning_rate": 1.7000000000000003e-05,
"loss": 0.175,
"step": 51
},
{
"epoch": 0.0491725768321513,
"grad_norm": 0.12607906758785248,
"learning_rate": 1.7333333333333336e-05,
"loss": 0.208,
"step": 52
},
{
"epoch": 0.050118203309692674,
"grad_norm": 0.16476179659366608,
"learning_rate": 1.7666666666666668e-05,
"loss": 0.3471,
"step": 53
},
{
"epoch": 0.05106382978723404,
"grad_norm": 0.1916539967060089,
"learning_rate": 1.8e-05,
"loss": 0.5088,
"step": 54
},
{
"epoch": 0.05200945626477541,
"grad_norm": 0.19213494658470154,
"learning_rate": 1.8333333333333333e-05,
"loss": 0.4579,
"step": 55
},
{
"epoch": 0.052955082742316785,
"grad_norm": 0.1868194341659546,
"learning_rate": 1.866666666666667e-05,
"loss": 0.4327,
"step": 56
},
{
"epoch": 0.05390070921985816,
"grad_norm": 0.2641420066356659,
"learning_rate": 1.9e-05,
"loss": 0.6682,
"step": 57
},
{
"epoch": 0.05484633569739953,
"grad_norm": 0.2992357611656189,
"learning_rate": 1.9333333333333333e-05,
"loss": 0.8189,
"step": 58
},
{
"epoch": 0.055791962174940896,
"grad_norm": 0.2843168377876282,
"learning_rate": 1.9666666666666666e-05,
"loss": 0.7047,
"step": 59
},
{
"epoch": 0.05673758865248227,
"grad_norm": 0.3119712769985199,
"learning_rate": 2e-05,
"loss": 0.6548,
"step": 60
},
{
"epoch": 0.05768321513002364,
"grad_norm": 0.4131757616996765,
"learning_rate": 2.0333333333333334e-05,
"loss": 1.0262,
"step": 61
},
{
"epoch": 0.05862884160756501,
"grad_norm": 0.399532675743103,
"learning_rate": 2.0666666666666666e-05,
"loss": 0.893,
"step": 62
},
{
"epoch": 0.059574468085106386,
"grad_norm": 0.4315282702445984,
"learning_rate": 2.1e-05,
"loss": 1.1419,
"step": 63
},
{
"epoch": 0.06052009456264775,
"grad_norm": 0.5299156904220581,
"learning_rate": 2.1333333333333335e-05,
"loss": 1.3849,
"step": 64
},
{
"epoch": 0.061465721040189124,
"grad_norm": 0.5484279990196228,
"learning_rate": 2.1666666666666667e-05,
"loss": 1.5874,
"step": 65
},
{
"epoch": 0.062411347517730496,
"grad_norm": 0.4971844255924225,
"learning_rate": 2.2000000000000003e-05,
"loss": 1.3445,
"step": 66
},
{
"epoch": 0.06335697399527186,
"grad_norm": 0.6058803796768188,
"learning_rate": 2.2333333333333335e-05,
"loss": 1.7419,
"step": 67
},
{
"epoch": 0.06430260047281323,
"grad_norm": 0.9219263195991516,
"learning_rate": 2.2666666666666668e-05,
"loss": 2.4339,
"step": 68
},
{
"epoch": 0.06524822695035461,
"grad_norm": 0.8259028196334839,
"learning_rate": 2.3000000000000003e-05,
"loss": 2.2387,
"step": 69
},
{
"epoch": 0.06619385342789598,
"grad_norm": 0.8110438585281372,
"learning_rate": 2.3333333333333336e-05,
"loss": 2.7578,
"step": 70
},
{
"epoch": 0.06713947990543735,
"grad_norm": 0.8333178758621216,
"learning_rate": 2.3666666666666668e-05,
"loss": 2.7401,
"step": 71
},
{
"epoch": 0.06808510638297872,
"grad_norm": 0.6991426944732666,
"learning_rate": 2.4e-05,
"loss": 2.0404,
"step": 72
},
{
"epoch": 0.0690307328605201,
"grad_norm": 0.8322498798370361,
"learning_rate": 2.4333333333333336e-05,
"loss": 2.5024,
"step": 73
},
{
"epoch": 0.06997635933806147,
"grad_norm": 0.6573300957679749,
"learning_rate": 2.466666666666667e-05,
"loss": 2.2451,
"step": 74
},
{
"epoch": 0.07092198581560284,
"grad_norm": 0.9917909502983093,
"learning_rate": 2.5e-05,
"loss": 2.7126,
"step": 75
},
{
"epoch": 0.07186761229314421,
"grad_norm": 0.9231103658676147,
"learning_rate": 2.5333333333333337e-05,
"loss": 2.4502,
"step": 76
},
{
"epoch": 0.07281323877068557,
"grad_norm": 0.8092001676559448,
"learning_rate": 2.5666666666666666e-05,
"loss": 2.3372,
"step": 77
},
{
"epoch": 0.07375886524822695,
"grad_norm": 0.9932003617286682,
"learning_rate": 2.6000000000000002e-05,
"loss": 2.9451,
"step": 78
},
{
"epoch": 0.07470449172576832,
"grad_norm": 1.0481059551239014,
"learning_rate": 2.633333333333333e-05,
"loss": 3.2932,
"step": 79
},
{
"epoch": 0.07565011820330969,
"grad_norm": 1.146222472190857,
"learning_rate": 2.6666666666666667e-05,
"loss": 3.2256,
"step": 80
},
{
"epoch": 0.07659574468085106,
"grad_norm": 1.144538164138794,
"learning_rate": 2.7000000000000002e-05,
"loss": 2.9511,
"step": 81
},
{
"epoch": 0.07754137115839244,
"grad_norm": 0.8968273997306824,
"learning_rate": 2.733333333333333e-05,
"loss": 2.6522,
"step": 82
},
{
"epoch": 0.07848699763593381,
"grad_norm": 1.026343822479248,
"learning_rate": 2.7666666666666667e-05,
"loss": 2.9253,
"step": 83
},
{
"epoch": 0.07943262411347518,
"grad_norm": 0.8586713671684265,
"learning_rate": 2.8000000000000003e-05,
"loss": 2.4545,
"step": 84
},
{
"epoch": 0.08037825059101655,
"grad_norm": 1.0284498929977417,
"learning_rate": 2.8333333333333335e-05,
"loss": 2.8148,
"step": 85
},
{
"epoch": 0.08132387706855793,
"grad_norm": 0.8303140997886658,
"learning_rate": 2.8666666666666668e-05,
"loss": 2.3988,
"step": 86
},
{
"epoch": 0.08226950354609928,
"grad_norm": 0.7819446921348572,
"learning_rate": 2.9e-05,
"loss": 1.9212,
"step": 87
},
{
"epoch": 0.08321513002364066,
"grad_norm": 1.0593886375427246,
"learning_rate": 2.9333333333333336e-05,
"loss": 2.6381,
"step": 88
},
{
"epoch": 0.08416075650118203,
"grad_norm": 1.3569374084472656,
"learning_rate": 2.9666666666666672e-05,
"loss": 3.4768,
"step": 89
},
{
"epoch": 0.0851063829787234,
"grad_norm": 0.878240168094635,
"learning_rate": 3e-05,
"loss": 2.403,
"step": 90
},
{
"epoch": 0.08605200945626477,
"grad_norm": 1.1406848430633545,
"learning_rate": 3.0333333333333337e-05,
"loss": 3.1817,
"step": 91
},
{
"epoch": 0.08699763593380615,
"grad_norm": 0.9278729557991028,
"learning_rate": 3.066666666666667e-05,
"loss": 2.433,
"step": 92
},
{
"epoch": 0.08794326241134752,
"grad_norm": 0.9704206585884094,
"learning_rate": 3.1e-05,
"loss": 2.3984,
"step": 93
},
{
"epoch": 0.08888888888888889,
"grad_norm": 1.2946637868881226,
"learning_rate": 3.1333333333333334e-05,
"loss": 3.0731,
"step": 94
},
{
"epoch": 0.08983451536643026,
"grad_norm": 0.9340803623199463,
"learning_rate": 3.1666666666666666e-05,
"loss": 2.2826,
"step": 95
},
{
"epoch": 0.09078014184397164,
"grad_norm": 1.044756531715393,
"learning_rate": 3.2000000000000005e-05,
"loss": 2.456,
"step": 96
},
{
"epoch": 0.091725768321513,
"grad_norm": 1.097231388092041,
"learning_rate": 3.233333333333333e-05,
"loss": 2.4481,
"step": 97
},
{
"epoch": 0.09267139479905437,
"grad_norm": 1.1005371809005737,
"learning_rate": 3.266666666666667e-05,
"loss": 2.3557,
"step": 98
},
{
"epoch": 0.09361702127659574,
"grad_norm": 0.9912729859352112,
"learning_rate": 3.3e-05,
"loss": 2.1763,
"step": 99
},
{
"epoch": 0.09456264775413711,
"grad_norm": 1.5450869798660278,
"learning_rate": 3.3333333333333335e-05,
"loss": 3.3969,
"step": 100
},
{
"epoch": 0.09456264775413711,
"eval_loss": 1.9755831956863403,
"eval_runtime": 54.202,
"eval_samples_per_second": 65.736,
"eval_steps_per_second": 16.439,
"step": 100
},
{
"epoch": 0.09550827423167849,
"grad_norm": 0.1785513013601303,
"learning_rate": 3.366666666666667e-05,
"loss": 0.1393,
"step": 101
},
{
"epoch": 0.09645390070921986,
"grad_norm": 0.21543779969215393,
"learning_rate": 3.4000000000000007e-05,
"loss": 0.1675,
"step": 102
},
{
"epoch": 0.09739952718676123,
"grad_norm": 0.27484190464019775,
"learning_rate": 3.433333333333333e-05,
"loss": 0.2331,
"step": 103
},
{
"epoch": 0.0983451536643026,
"grad_norm": 0.22659574449062347,
"learning_rate": 3.466666666666667e-05,
"loss": 0.2908,
"step": 104
},
{
"epoch": 0.09929078014184398,
"grad_norm": 0.28378260135650635,
"learning_rate": 3.5e-05,
"loss": 0.2924,
"step": 105
},
{
"epoch": 0.10023640661938535,
"grad_norm": 0.2579360902309418,
"learning_rate": 3.5333333333333336e-05,
"loss": 0.3687,
"step": 106
},
{
"epoch": 0.10118203309692671,
"grad_norm": 0.2652228772640228,
"learning_rate": 3.566666666666667e-05,
"loss": 0.5374,
"step": 107
},
{
"epoch": 0.10212765957446808,
"grad_norm": 0.32100433111190796,
"learning_rate": 3.6e-05,
"loss": 0.6874,
"step": 108
},
{
"epoch": 0.10307328605200945,
"grad_norm": 0.30462920665740967,
"learning_rate": 3.633333333333333e-05,
"loss": 0.4254,
"step": 109
},
{
"epoch": 0.10401891252955082,
"grad_norm": 0.2611568570137024,
"learning_rate": 3.6666666666666666e-05,
"loss": 0.6701,
"step": 110
},
{
"epoch": 0.1049645390070922,
"grad_norm": 0.29873016476631165,
"learning_rate": 3.7e-05,
"loss": 0.6449,
"step": 111
},
{
"epoch": 0.10591016548463357,
"grad_norm": 0.2605455219745636,
"learning_rate": 3.733333333333334e-05,
"loss": 0.6369,
"step": 112
},
{
"epoch": 0.10685579196217494,
"grad_norm": 0.5200917720794678,
"learning_rate": 3.766666666666667e-05,
"loss": 1.1225,
"step": 113
},
{
"epoch": 0.10780141843971631,
"grad_norm": 0.31477710604667664,
"learning_rate": 3.8e-05,
"loss": 0.772,
"step": 114
},
{
"epoch": 0.10874704491725769,
"grad_norm": 0.42271727323532104,
"learning_rate": 3.8333333333333334e-05,
"loss": 1.0659,
"step": 115
},
{
"epoch": 0.10969267139479906,
"grad_norm": 0.37258803844451904,
"learning_rate": 3.866666666666667e-05,
"loss": 0.9266,
"step": 116
},
{
"epoch": 0.11063829787234042,
"grad_norm": 0.3200523257255554,
"learning_rate": 3.9000000000000006e-05,
"loss": 0.782,
"step": 117
},
{
"epoch": 0.11158392434988179,
"grad_norm": 0.37096261978149414,
"learning_rate": 3.933333333333333e-05,
"loss": 0.8424,
"step": 118
},
{
"epoch": 0.11252955082742316,
"grad_norm": 0.3387626111507416,
"learning_rate": 3.966666666666667e-05,
"loss": 0.7941,
"step": 119
},
{
"epoch": 0.11347517730496454,
"grad_norm": 0.5522480607032776,
"learning_rate": 4e-05,
"loss": 1.3268,
"step": 120
},
{
"epoch": 0.11442080378250591,
"grad_norm": 0.6289123892784119,
"learning_rate": 4.0333333333333336e-05,
"loss": 1.4588,
"step": 121
},
{
"epoch": 0.11536643026004728,
"grad_norm": 0.4001694321632385,
"learning_rate": 4.066666666666667e-05,
"loss": 1.056,
"step": 122
},
{
"epoch": 0.11631205673758865,
"grad_norm": 0.4287935793399811,
"learning_rate": 4.1e-05,
"loss": 1.1171,
"step": 123
},
{
"epoch": 0.11725768321513003,
"grad_norm": 0.5254130363464355,
"learning_rate": 4.133333333333333e-05,
"loss": 1.2804,
"step": 124
},
{
"epoch": 0.1182033096926714,
"grad_norm": 0.5890396237373352,
"learning_rate": 4.166666666666667e-05,
"loss": 1.5757,
"step": 125
},
{
"epoch": 0.11914893617021277,
"grad_norm": 0.5535526275634766,
"learning_rate": 4.2e-05,
"loss": 1.3113,
"step": 126
},
{
"epoch": 0.12009456264775414,
"grad_norm": 0.5088675618171692,
"learning_rate": 4.233333333333334e-05,
"loss": 1.3381,
"step": 127
},
{
"epoch": 0.1210401891252955,
"grad_norm": 0.6092506051063538,
"learning_rate": 4.266666666666667e-05,
"loss": 1.5369,
"step": 128
},
{
"epoch": 0.12198581560283688,
"grad_norm": 0.5836873650550842,
"learning_rate": 4.3e-05,
"loss": 1.3943,
"step": 129
},
{
"epoch": 0.12293144208037825,
"grad_norm": 0.6445267200469971,
"learning_rate": 4.3333333333333334e-05,
"loss": 1.3146,
"step": 130
},
{
"epoch": 0.12387706855791962,
"grad_norm": 0.4378418028354645,
"learning_rate": 4.3666666666666666e-05,
"loss": 1.0086,
"step": 131
},
{
"epoch": 0.12482269503546099,
"grad_norm": 0.6770736575126648,
"learning_rate": 4.4000000000000006e-05,
"loss": 1.5146,
"step": 132
},
{
"epoch": 0.12576832151300235,
"grad_norm": 0.6039463877677917,
"learning_rate": 4.433333333333334e-05,
"loss": 1.3621,
"step": 133
},
{
"epoch": 0.12671394799054372,
"grad_norm": 0.6413301229476929,
"learning_rate": 4.466666666666667e-05,
"loss": 1.4514,
"step": 134
},
{
"epoch": 0.1276595744680851,
"grad_norm": 0.6788724660873413,
"learning_rate": 4.5e-05,
"loss": 1.3301,
"step": 135
},
{
"epoch": 0.12860520094562647,
"grad_norm": 0.5223095417022705,
"learning_rate": 4.5333333333333335e-05,
"loss": 1.2304,
"step": 136
},
{
"epoch": 0.12955082742316784,
"grad_norm": 0.6495351195335388,
"learning_rate": 4.566666666666667e-05,
"loss": 1.4054,
"step": 137
},
{
"epoch": 0.13049645390070921,
"grad_norm": 0.6079133749008179,
"learning_rate": 4.600000000000001e-05,
"loss": 1.3832,
"step": 138
},
{
"epoch": 0.1314420803782506,
"grad_norm": 0.5553860664367676,
"learning_rate": 4.633333333333333e-05,
"loss": 1.0288,
"step": 139
},
{
"epoch": 0.13238770685579196,
"grad_norm": 0.550632894039154,
"learning_rate": 4.666666666666667e-05,
"loss": 1.2453,
"step": 140
},
{
"epoch": 0.13333333333333333,
"grad_norm": 0.9021189212799072,
"learning_rate": 4.7e-05,
"loss": 1.6022,
"step": 141
},
{
"epoch": 0.1342789598108747,
"grad_norm": 0.6802974939346313,
"learning_rate": 4.7333333333333336e-05,
"loss": 1.5432,
"step": 142
},
{
"epoch": 0.13522458628841608,
"grad_norm": 0.5788073539733887,
"learning_rate": 4.766666666666667e-05,
"loss": 1.2525,
"step": 143
},
{
"epoch": 0.13617021276595745,
"grad_norm": 0.6477014422416687,
"learning_rate": 4.8e-05,
"loss": 1.0959,
"step": 144
},
{
"epoch": 0.13711583924349882,
"grad_norm": 0.4955628216266632,
"learning_rate": 4.8333333333333334e-05,
"loss": 1.1016,
"step": 145
},
{
"epoch": 0.1380614657210402,
"grad_norm": 0.4967166483402252,
"learning_rate": 4.866666666666667e-05,
"loss": 1.0116,
"step": 146
},
{
"epoch": 0.13900709219858157,
"grad_norm": 0.5145598649978638,
"learning_rate": 4.9e-05,
"loss": 1.0286,
"step": 147
},
{
"epoch": 0.13995271867612294,
"grad_norm": 0.7154728174209595,
"learning_rate": 4.933333333333334e-05,
"loss": 1.2846,
"step": 148
},
{
"epoch": 0.1408983451536643,
"grad_norm": 0.6433387994766235,
"learning_rate": 4.966666666666667e-05,
"loss": 1.0688,
"step": 149
},
{
"epoch": 0.14184397163120568,
"grad_norm": 0.8238207697868347,
"learning_rate": 5e-05,
"loss": 1.694,
"step": 150
},
{
"epoch": 0.14184397163120568,
"eval_loss": 1.0205990076065063,
"eval_runtime": 54.4047,
"eval_samples_per_second": 65.491,
"eval_steps_per_second": 16.377,
"step": 150
},
{
"epoch": 0.14278959810874706,
"grad_norm": 0.45450514554977417,
"learning_rate": 4.995066821070679e-05,
"loss": 0.1451,
"step": 151
},
{
"epoch": 0.14373522458628843,
"grad_norm": 0.5641042590141296,
"learning_rate": 4.980286753286195e-05,
"loss": 0.19,
"step": 152
},
{
"epoch": 0.14468085106382977,
"grad_norm": 0.6517515182495117,
"learning_rate": 4.9557181268217227e-05,
"loss": 0.2196,
"step": 153
},
{
"epoch": 0.14562647754137115,
"grad_norm": 0.5124554634094238,
"learning_rate": 4.9214579028215776e-05,
"loss": 0.2285,
"step": 154
},
{
"epoch": 0.14657210401891252,
"grad_norm": 0.4333844482898712,
"learning_rate": 4.877641290737884e-05,
"loss": 0.2272,
"step": 155
},
{
"epoch": 0.1475177304964539,
"grad_norm": 0.3877612352371216,
"learning_rate": 4.8244412147206284e-05,
"loss": 0.3144,
"step": 156
},
{
"epoch": 0.14846335697399526,
"grad_norm": 0.3211458921432495,
"learning_rate": 4.762067631165049e-05,
"loss": 0.3578,
"step": 157
},
{
"epoch": 0.14940898345153664,
"grad_norm": 0.24879109859466553,
"learning_rate": 4.690766700109659e-05,
"loss": 0.2756,
"step": 158
},
{
"epoch": 0.150354609929078,
"grad_norm": 0.22662314772605896,
"learning_rate": 4.610819813755038e-05,
"loss": 0.2839,
"step": 159
},
{
"epoch": 0.15130023640661938,
"grad_norm": 0.23902210593223572,
"learning_rate": 4.522542485937369e-05,
"loss": 0.3703,
"step": 160
},
{
"epoch": 0.15224586288416075,
"grad_norm": 0.23963478207588196,
"learning_rate": 4.426283106939474e-05,
"loss": 0.3972,
"step": 161
},
{
"epoch": 0.15319148936170213,
"grad_norm": 0.23576639592647552,
"learning_rate": 4.3224215685535294e-05,
"loss": 0.3027,
"step": 162
},
{
"epoch": 0.1541371158392435,
"grad_norm": 0.33861732482910156,
"learning_rate": 4.211367764821722e-05,
"loss": 0.481,
"step": 163
},
{
"epoch": 0.15508274231678487,
"grad_norm": 0.34786704182624817,
"learning_rate": 4.093559974371725e-05,
"loss": 0.441,
"step": 164
},
{
"epoch": 0.15602836879432624,
"grad_norm": 0.5184177160263062,
"learning_rate": 3.969463130731183e-05,
"loss": 0.5629,
"step": 165
},
{
"epoch": 0.15697399527186762,
"grad_norm": 0.38847318291664124,
"learning_rate": 3.8395669874474915e-05,
"loss": 0.5856,
"step": 166
},
{
"epoch": 0.157919621749409,
"grad_norm": 0.4933064877986908,
"learning_rate": 3.704384185254288e-05,
"loss": 0.6682,
"step": 167
},
{
"epoch": 0.15886524822695036,
"grad_norm": 0.4688006043434143,
"learning_rate": 3.564448228912682e-05,
"loss": 0.6222,
"step": 168
},
{
"epoch": 0.15981087470449173,
"grad_norm": 0.7410577535629272,
"learning_rate": 3.4203113817116957e-05,
"loss": 0.8418,
"step": 169
},
{
"epoch": 0.1607565011820331,
"grad_norm": 0.7604397535324097,
"learning_rate": 3.272542485937369e-05,
"loss": 1.1219,
"step": 170
},
{
"epoch": 0.16170212765957448,
"grad_norm": 0.6462581753730774,
"learning_rate": 3.121724717912138e-05,
"loss": 0.9533,
"step": 171
},
{
"epoch": 0.16264775413711585,
"grad_norm": 0.2718241810798645,
"learning_rate": 2.9684532864643122e-05,
"loss": 0.5001,
"step": 172
},
{
"epoch": 0.1635933806146572,
"grad_norm": 0.35057616233825684,
"learning_rate": 2.8133330839107608e-05,
"loss": 0.5601,
"step": 173
},
{
"epoch": 0.16453900709219857,
"grad_norm": 0.5394273996353149,
"learning_rate": 2.656976298823284e-05,
"loss": 0.8314,
"step": 174
},
{
"epoch": 0.16548463356973994,
"grad_norm": 0.3971342444419861,
"learning_rate": 2.5e-05,
"loss": 0.7177,
"step": 175
},
{
"epoch": 0.16643026004728131,
"grad_norm": 0.3941769003868103,
"learning_rate": 2.3430237011767167e-05,
"loss": 0.6324,
"step": 176
},
{
"epoch": 0.1673758865248227,
"grad_norm": 0.45238277316093445,
"learning_rate": 2.186666916089239e-05,
"loss": 0.7953,
"step": 177
},
{
"epoch": 0.16832151300236406,
"grad_norm": 0.5700445771217346,
"learning_rate": 2.031546713535688e-05,
"loss": 0.859,
"step": 178
},
{
"epoch": 0.16926713947990543,
"grad_norm": 0.47867706418037415,
"learning_rate": 1.8782752820878634e-05,
"loss": 0.8502,
"step": 179
},
{
"epoch": 0.1702127659574468,
"grad_norm": 0.42379331588745117,
"learning_rate": 1.7274575140626318e-05,
"loss": 0.8364,
"step": 180
},
{
"epoch": 0.17115839243498818,
"grad_norm": 0.4100590944290161,
"learning_rate": 1.5796886182883053e-05,
"loss": 0.7299,
"step": 181
},
{
"epoch": 0.17210401891252955,
"grad_norm": 0.5437663197517395,
"learning_rate": 1.4355517710873184e-05,
"loss": 0.7789,
"step": 182
},
{
"epoch": 0.17304964539007092,
"grad_norm": 0.47485315799713135,
"learning_rate": 1.2956158147457115e-05,
"loss": 0.8491,
"step": 183
},
{
"epoch": 0.1739952718676123,
"grad_norm": 0.48820245265960693,
"learning_rate": 1.1604330125525079e-05,
"loss": 0.926,
"step": 184
},
{
"epoch": 0.17494089834515367,
"grad_norm": 0.32581862807273865,
"learning_rate": 1.0305368692688174e-05,
"loss": 0.5398,
"step": 185
},
{
"epoch": 0.17588652482269504,
"grad_norm": 0.4086638391017914,
"learning_rate": 9.064400256282757e-06,
"loss": 0.8114,
"step": 186
},
{
"epoch": 0.1768321513002364,
"grad_norm": 0.4679095447063446,
"learning_rate": 7.886322351782783e-06,
"loss": 0.8871,
"step": 187
},
{
"epoch": 0.17777777777777778,
"grad_norm": 0.4896736145019531,
"learning_rate": 6.775784314464717e-06,
"loss": 0.81,
"step": 188
},
{
"epoch": 0.17872340425531916,
"grad_norm": 0.4382385015487671,
"learning_rate": 5.737168930605272e-06,
"loss": 0.8284,
"step": 189
},
{
"epoch": 0.17966903073286053,
"grad_norm": 0.5600558519363403,
"learning_rate": 4.7745751406263165e-06,
"loss": 1.0058,
"step": 190
},
{
"epoch": 0.1806146572104019,
"grad_norm": 0.5055614113807678,
"learning_rate": 3.891801862449629e-06,
"loss": 0.8065,
"step": 191
},
{
"epoch": 0.18156028368794327,
"grad_norm": 0.6402313113212585,
"learning_rate": 3.092332998903416e-06,
"loss": 1.0421,
"step": 192
},
{
"epoch": 0.18250591016548465,
"grad_norm": 0.5336678624153137,
"learning_rate": 2.379323688349516e-06,
"loss": 0.8897,
"step": 193
},
{
"epoch": 0.183451536643026,
"grad_norm": 0.5516868829727173,
"learning_rate": 1.7555878527937164e-06,
"loss": 0.8386,
"step": 194
},
{
"epoch": 0.18439716312056736,
"grad_norm": 0.6657341718673706,
"learning_rate": 1.2235870926211619e-06,
"loss": 1.1191,
"step": 195
},
{
"epoch": 0.18534278959810874,
"grad_norm": 0.5750419497489929,
"learning_rate": 7.854209717842231e-07,
"loss": 1.0913,
"step": 196
},
{
"epoch": 0.1862884160756501,
"grad_norm": 0.4884861409664154,
"learning_rate": 4.4281873178278475e-07,
"loss": 0.976,
"step": 197
},
{
"epoch": 0.18723404255319148,
"grad_norm": 0.5465104579925537,
"learning_rate": 1.9713246713805588e-07,
"loss": 0.8359,
"step": 198
},
{
"epoch": 0.18817966903073285,
"grad_norm": 0.6062586903572083,
"learning_rate": 4.9331789293211026e-08,
"loss": 0.9467,
"step": 199
},
{
"epoch": 0.18912529550827423,
"grad_norm": 0.7774025201797485,
"learning_rate": 0.0,
"loss": 1.1784,
"step": 200
},
{
"epoch": 0.18912529550827423,
"eval_loss": 0.8490656018257141,
"eval_runtime": 54.2258,
"eval_samples_per_second": 65.707,
"eval_steps_per_second": 16.431,
"step": 200
}
],
"logging_steps": 1,
"max_steps": 200,
"num_input_tokens_seen": 0,
"num_train_epochs": 1,
"save_steps": 50,
"stateful_callbacks": {
"EarlyStoppingCallback": {
"args": {
"early_stopping_patience": 4,
"early_stopping_threshold": 0.0
},
"attributes": {
"early_stopping_patience_counter": 0
}
},
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 2.614235570896896e+16,
"train_batch_size": 8,
"trial_name": null,
"trial_params": null
}