Training in progress, step 200, checkpoint

66ce0b4 verified 3 months ago

36.4 kB

	{
	"best_metric": 0.8490656018257141,
	"best_model_checkpoint": "miner_id_24/checkpoint-200",
	"epoch": 0.18912529550827423,
	"eval_steps": 50,
	"global_step": 200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0009456264775413711,
	"grad_norm": 0.09641855955123901,
	"learning_rate": 3.3333333333333335e-07,
	"loss": 0.1657,
	"step": 1
	},
	{
	"epoch": 0.0009456264775413711,
	"eval_loss": 3.487557888031006,
	"eval_runtime": 54.6728,
	"eval_samples_per_second": 65.17,
	"eval_steps_per_second": 16.297,
	"step": 1
	},
	{
	"epoch": 0.0018912529550827422,
	"grad_norm": 0.1267959028482437,
	"learning_rate": 6.666666666666667e-07,
	"loss": 0.2459,
	"step": 2
	},
	{
	"epoch": 0.0028368794326241137,
	"grad_norm": 0.13855446875095367,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.2912,
	"step": 3
	},
	{
	"epoch": 0.0037825059101654845,
	"grad_norm": 0.15804192423820496,
	"learning_rate": 1.3333333333333334e-06,
	"loss": 0.3923,
	"step": 4
	},
	{
	"epoch": 0.004728132387706856,
	"grad_norm": 0.18095271289348602,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 0.4793,
	"step": 5
	},
	{
	"epoch": 0.005673758865248227,
	"grad_norm": 0.18571291863918304,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.585,
	"step": 6
	},
	{
	"epoch": 0.006619385342789598,
	"grad_norm": 0.2568407356739044,
	"learning_rate": 2.3333333333333336e-06,
	"loss": 0.8612,
	"step": 7
	},
	{
	"epoch": 0.007565011820330969,
	"grad_norm": 0.3106652498245239,
	"learning_rate": 2.666666666666667e-06,
	"loss": 1.2384,
	"step": 8
	},
	{
	"epoch": 0.00851063829787234,
	"grad_norm": 0.2571044862270355,
	"learning_rate": 3e-06,
	"loss": 0.8217,
	"step": 9
	},
	{
	"epoch": 0.009456264775413711,
	"grad_norm": 0.29234185814857483,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.7603,
	"step": 10
	},
	{
	"epoch": 0.010401891252955082,
	"grad_norm": 0.24926097691059113,
	"learning_rate": 3.666666666666667e-06,
	"loss": 0.6962,
	"step": 11
	},
	{
	"epoch": 0.011347517730496455,
	"grad_norm": 0.2906411588191986,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.9644,
	"step": 12
	},
	{
	"epoch": 0.012293144208037825,
	"grad_norm": 0.49177998304367065,
	"learning_rate": 4.333333333333334e-06,
	"loss": 1.7599,
	"step": 13
	},
	{
	"epoch": 0.013238770685579196,
	"grad_norm": 0.4265400767326355,
	"learning_rate": 4.666666666666667e-06,
	"loss": 1.493,
	"step": 14
	},
	{
	"epoch": 0.014184397163120567,
	"grad_norm": 0.5240830779075623,
	"learning_rate": 5e-06,
	"loss": 1.9888,
	"step": 15
	},
	{
	"epoch": 0.015130023640661938,
	"grad_norm": 0.5526121854782104,
	"learning_rate": 5.333333333333334e-06,
	"loss": 2.2851,
	"step": 16
	},
	{
	"epoch": 0.01607565011820331,
	"grad_norm": 0.5441344976425171,
	"learning_rate": 5.666666666666667e-06,
	"loss": 1.9884,
	"step": 17
	},
	{
	"epoch": 0.01702127659574468,
	"grad_norm": 0.6593867540359497,
	"learning_rate": 6e-06,
	"loss": 2.5504,
	"step": 18
	},
	{
	"epoch": 0.017966903073286054,
	"grad_norm": 0.6868957877159119,
	"learning_rate": 6.333333333333334e-06,
	"loss": 3.0568,
	"step": 19
	},
	{
	"epoch": 0.018912529550827423,
	"grad_norm": 0.43732380867004395,
	"learning_rate": 6.666666666666667e-06,
	"loss": 1.956,
	"step": 20
	},
	{
	"epoch": 0.019858156028368795,
	"grad_norm": 0.8580771088600159,
	"learning_rate": 7.000000000000001e-06,
	"loss": 2.8262,
	"step": 21
	},
	{
	"epoch": 0.020803782505910164,
	"grad_norm": 0.6907251477241516,
	"learning_rate": 7.333333333333334e-06,
	"loss": 3.0729,
	"step": 22
	},
	{
	"epoch": 0.021749408983451537,
	"grad_norm": 0.6712820529937744,
	"learning_rate": 7.666666666666667e-06,
	"loss": 2.7102,
	"step": 23
	},
	{
	"epoch": 0.02269503546099291,
	"grad_norm": 0.6856934428215027,
	"learning_rate": 8.000000000000001e-06,
	"loss": 2.7061,
	"step": 24
	},
	{
	"epoch": 0.02364066193853428,
	"grad_norm": 0.7126139402389526,
	"learning_rate": 8.333333333333334e-06,
	"loss": 2.6611,
	"step": 25
	},
	{
	"epoch": 0.02458628841607565,
	"grad_norm": 0.7721053957939148,
	"learning_rate": 8.666666666666668e-06,
	"loss": 2.8423,
	"step": 26
	},
	{
	"epoch": 0.02553191489361702,
	"grad_norm": 0.883097231388092,
	"learning_rate": 9e-06,
	"loss": 3.5565,
	"step": 27
	},
	{
	"epoch": 0.026477541371158392,
	"grad_norm": 1.0787785053253174,
	"learning_rate": 9.333333333333334e-06,
	"loss": 3.8743,
	"step": 28
	},
	{
	"epoch": 0.027423167848699765,
	"grad_norm": 0.881747305393219,
	"learning_rate": 9.666666666666667e-06,
	"loss": 3.628,
	"step": 29
	},
	{
	"epoch": 0.028368794326241134,
	"grad_norm": 1.07874596118927,
	"learning_rate": 1e-05,
	"loss": 4.0762,
	"step": 30
	},
	{
	"epoch": 0.029314420803782507,
	"grad_norm": 0.8328316807746887,
	"learning_rate": 1.0333333333333333e-05,
	"loss": 3.512,
	"step": 31
	},
	{
	"epoch": 0.030260047281323876,
	"grad_norm": 0.8973889946937561,
	"learning_rate": 1.0666666666666667e-05,
	"loss": 3.9156,
	"step": 32
	},
	{
	"epoch": 0.031205673758865248,
	"grad_norm": 0.7893106937408447,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 3.3497,
	"step": 33
	},
	{
	"epoch": 0.03215130023640662,
	"grad_norm": 0.8067853450775146,
	"learning_rate": 1.1333333333333334e-05,
	"loss": 3.3522,
	"step": 34
	},
	{
	"epoch": 0.03309692671394799,
	"grad_norm": 1.0948940515518188,
	"learning_rate": 1.1666666666666668e-05,
	"loss": 4.0731,
	"step": 35
	},
	{
	"epoch": 0.03404255319148936,
	"grad_norm": 0.8288351893424988,
	"learning_rate": 1.2e-05,
	"loss": 3.0711,
	"step": 36
	},
	{
	"epoch": 0.034988179669030735,
	"grad_norm": 0.7726929187774658,
	"learning_rate": 1.2333333333333334e-05,
	"loss": 3.0219,
	"step": 37
	},
	{
	"epoch": 0.03593380614657211,
	"grad_norm": 0.9294595122337341,
	"learning_rate": 1.2666666666666668e-05,
	"loss": 4.2024,
	"step": 38
	},
	{
	"epoch": 0.03687943262411347,
	"grad_norm": 0.9361292123794556,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 3.7119,
	"step": 39
	},
	{
	"epoch": 0.037825059101654845,
	"grad_norm": 0.9386151432991028,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 3.7765,
	"step": 40
	},
	{
	"epoch": 0.03877068557919622,
	"grad_norm": 0.9665974974632263,
	"learning_rate": 1.3666666666666666e-05,
	"loss": 3.6401,
	"step": 41
	},
	{
	"epoch": 0.03971631205673759,
	"grad_norm": 0.9367566108703613,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 3.7931,
	"step": 42
	},
	{
	"epoch": 0.04066193853427896,
	"grad_norm": 0.763043999671936,
	"learning_rate": 1.4333333333333334e-05,
	"loss": 3.1378,
	"step": 43
	},
	{
	"epoch": 0.04160756501182033,
	"grad_norm": 1.134705901145935,
	"learning_rate": 1.4666666666666668e-05,
	"loss": 4.1756,
	"step": 44
	},
	{
	"epoch": 0.0425531914893617,
	"grad_norm": 1.111829161643982,
	"learning_rate": 1.5e-05,
	"loss": 4.4766,
	"step": 45
	},
	{
	"epoch": 0.043498817966903074,
	"grad_norm": 0.8709962368011475,
	"learning_rate": 1.5333333333333334e-05,
	"loss": 2.983,
	"step": 46
	},
	{
	"epoch": 0.044444444444444446,
	"grad_norm": 1.0141003131866455,
	"learning_rate": 1.5666666666666667e-05,
	"loss": 4.134,
	"step": 47
	},
	{
	"epoch": 0.04539007092198582,
	"grad_norm": 0.9469693303108215,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 3.1916,
	"step": 48
	},
	{
	"epoch": 0.046335697399527184,
	"grad_norm": 0.9570004940032959,
	"learning_rate": 1.6333333333333335e-05,
	"loss": 3.7659,
	"step": 49
	},
	{
	"epoch": 0.04728132387706856,
	"grad_norm": 1.1584417819976807,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 4.3539,
	"step": 50
	},
	{
	"epoch": 0.04728132387706856,
	"eval_loss": 3.263434410095215,
	"eval_runtime": 54.1739,
	"eval_samples_per_second": 65.77,
	"eval_steps_per_second": 16.447,
	"step": 50
	},
	{
	"epoch": 0.04822695035460993,
	"grad_norm": 0.1129605770111084,
	"learning_rate": 1.7000000000000003e-05,
	"loss": 0.175,
	"step": 51
	},
	{
	"epoch": 0.0491725768321513,
	"grad_norm": 0.12607906758785248,
	"learning_rate": 1.7333333333333336e-05,
	"loss": 0.208,
	"step": 52
	},
	{
	"epoch": 0.050118203309692674,
	"grad_norm": 0.16476179659366608,
	"learning_rate": 1.7666666666666668e-05,
	"loss": 0.3471,
	"step": 53
	},
	{
	"epoch": 0.05106382978723404,
	"grad_norm": 0.1916539967060089,
	"learning_rate": 1.8e-05,
	"loss": 0.5088,
	"step": 54
	},
	{
	"epoch": 0.05200945626477541,
	"grad_norm": 0.19213494658470154,
	"learning_rate": 1.8333333333333333e-05,
	"loss": 0.4579,
	"step": 55
	},
	{
	"epoch": 0.052955082742316785,
	"grad_norm": 0.1868194341659546,
	"learning_rate": 1.866666666666667e-05,
	"loss": 0.4327,
	"step": 56
	},
	{
	"epoch": 0.05390070921985816,
	"grad_norm": 0.2641420066356659,
	"learning_rate": 1.9e-05,
	"loss": 0.6682,
	"step": 57
	},
	{
	"epoch": 0.05484633569739953,
	"grad_norm": 0.2992357611656189,
	"learning_rate": 1.9333333333333333e-05,
	"loss": 0.8189,
	"step": 58
	},
	{
	"epoch": 0.055791962174940896,
	"grad_norm": 0.2843168377876282,
	"learning_rate": 1.9666666666666666e-05,
	"loss": 0.7047,
	"step": 59
	},
	{
	"epoch": 0.05673758865248227,
	"grad_norm": 0.3119712769985199,
	"learning_rate": 2e-05,
	"loss": 0.6548,
	"step": 60
	},
	{
	"epoch": 0.05768321513002364,
	"grad_norm": 0.4131757616996765,
	"learning_rate": 2.0333333333333334e-05,
	"loss": 1.0262,
	"step": 61
	},
	{
	"epoch": 0.05862884160756501,
	"grad_norm": 0.399532675743103,
	"learning_rate": 2.0666666666666666e-05,
	"loss": 0.893,
	"step": 62
	},
	{
	"epoch": 0.059574468085106386,
	"grad_norm": 0.4315282702445984,
	"learning_rate": 2.1e-05,
	"loss": 1.1419,
	"step": 63
	},
	{
	"epoch": 0.06052009456264775,
	"grad_norm": 0.5299156904220581,
	"learning_rate": 2.1333333333333335e-05,
	"loss": 1.3849,
	"step": 64
	},
	{
	"epoch": 0.061465721040189124,
	"grad_norm": 0.5484279990196228,
	"learning_rate": 2.1666666666666667e-05,
	"loss": 1.5874,
	"step": 65
	},
	{
	"epoch": 0.062411347517730496,
	"grad_norm": 0.4971844255924225,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 1.3445,
	"step": 66
	},
	{
	"epoch": 0.06335697399527186,
	"grad_norm": 0.6058803796768188,
	"learning_rate": 2.2333333333333335e-05,
	"loss": 1.7419,
	"step": 67
	},
	{
	"epoch": 0.06430260047281323,
	"grad_norm": 0.9219263195991516,
	"learning_rate": 2.2666666666666668e-05,
	"loss": 2.4339,
	"step": 68
	},
	{
	"epoch": 0.06524822695035461,
	"grad_norm": 0.8259028196334839,
	"learning_rate": 2.3000000000000003e-05,
	"loss": 2.2387,
	"step": 69
	},
	{
	"epoch": 0.06619385342789598,
	"grad_norm": 0.8110438585281372,
	"learning_rate": 2.3333333333333336e-05,
	"loss": 2.7578,
	"step": 70
	},
	{
	"epoch": 0.06713947990543735,
	"grad_norm": 0.8333178758621216,
	"learning_rate": 2.3666666666666668e-05,
	"loss": 2.7401,
	"step": 71
	},
	{
	"epoch": 0.06808510638297872,
	"grad_norm": 0.6991426944732666,
	"learning_rate": 2.4e-05,
	"loss": 2.0404,
	"step": 72
	},
	{
	"epoch": 0.0690307328605201,
	"grad_norm": 0.8322498798370361,
	"learning_rate": 2.4333333333333336e-05,
	"loss": 2.5024,
	"step": 73
	},
	{
	"epoch": 0.06997635933806147,
	"grad_norm": 0.6573300957679749,
	"learning_rate": 2.466666666666667e-05,
	"loss": 2.2451,
	"step": 74
	},
	{
	"epoch": 0.07092198581560284,
	"grad_norm": 0.9917909502983093,
	"learning_rate": 2.5e-05,
	"loss": 2.7126,
	"step": 75
	},
	{
	"epoch": 0.07186761229314421,
	"grad_norm": 0.9231103658676147,
	"learning_rate": 2.5333333333333337e-05,
	"loss": 2.4502,
	"step": 76
	},
	{
	"epoch": 0.07281323877068557,
	"grad_norm": 0.8092001676559448,
	"learning_rate": 2.5666666666666666e-05,
	"loss": 2.3372,
	"step": 77
	},
	{
	"epoch": 0.07375886524822695,
	"grad_norm": 0.9932003617286682,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 2.9451,
	"step": 78
	},
	{
	"epoch": 0.07470449172576832,
	"grad_norm": 1.0481059551239014,
	"learning_rate": 2.633333333333333e-05,
	"loss": 3.2932,
	"step": 79
	},
	{
	"epoch": 0.07565011820330969,
	"grad_norm": 1.146222472190857,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 3.2256,
	"step": 80
	},
	{
	"epoch": 0.07659574468085106,
	"grad_norm": 1.144538164138794,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 2.9511,
	"step": 81
	},
	{
	"epoch": 0.07754137115839244,
	"grad_norm": 0.8968273997306824,
	"learning_rate": 2.733333333333333e-05,
	"loss": 2.6522,
	"step": 82
	},
	{
	"epoch": 0.07848699763593381,
	"grad_norm": 1.026343822479248,
	"learning_rate": 2.7666666666666667e-05,
	"loss": 2.9253,
	"step": 83
	},
	{
	"epoch": 0.07943262411347518,
	"grad_norm": 0.8586713671684265,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 2.4545,
	"step": 84
	},
	{
	"epoch": 0.08037825059101655,
	"grad_norm": 1.0284498929977417,
	"learning_rate": 2.8333333333333335e-05,
	"loss": 2.8148,
	"step": 85
	},
	{
	"epoch": 0.08132387706855793,
	"grad_norm": 0.8303140997886658,
	"learning_rate": 2.8666666666666668e-05,
	"loss": 2.3988,
	"step": 86
	},
	{
	"epoch": 0.08226950354609928,
	"grad_norm": 0.7819446921348572,
	"learning_rate": 2.9e-05,
	"loss": 1.9212,
	"step": 87
	},
	{
	"epoch": 0.08321513002364066,
	"grad_norm": 1.0593886375427246,
	"learning_rate": 2.9333333333333336e-05,
	"loss": 2.6381,
	"step": 88
	},
	{
	"epoch": 0.08416075650118203,
	"grad_norm": 1.3569374084472656,
	"learning_rate": 2.9666666666666672e-05,
	"loss": 3.4768,
	"step": 89
	},
	{
	"epoch": 0.0851063829787234,
	"grad_norm": 0.878240168094635,
	"learning_rate": 3e-05,
	"loss": 2.403,
	"step": 90
	},
	{
	"epoch": 0.08605200945626477,
	"grad_norm": 1.1406848430633545,
	"learning_rate": 3.0333333333333337e-05,
	"loss": 3.1817,
	"step": 91
	},
	{
	"epoch": 0.08699763593380615,
	"grad_norm": 0.9278729557991028,
	"learning_rate": 3.066666666666667e-05,
	"loss": 2.433,
	"step": 92
	},
	{
	"epoch": 0.08794326241134752,
	"grad_norm": 0.9704206585884094,
	"learning_rate": 3.1e-05,
	"loss": 2.3984,
	"step": 93
	},
	{
	"epoch": 0.08888888888888889,
	"grad_norm": 1.2946637868881226,
	"learning_rate": 3.1333333333333334e-05,
	"loss": 3.0731,
	"step": 94
	},
	{
	"epoch": 0.08983451536643026,
	"grad_norm": 0.9340803623199463,
	"learning_rate": 3.1666666666666666e-05,
	"loss": 2.2826,
	"step": 95
	},
	{
	"epoch": 0.09078014184397164,
	"grad_norm": 1.044756531715393,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 2.456,
	"step": 96
	},
	{
	"epoch": 0.091725768321513,
	"grad_norm": 1.097231388092041,
	"learning_rate": 3.233333333333333e-05,
	"loss": 2.4481,
	"step": 97
	},
	{
	"epoch": 0.09267139479905437,
	"grad_norm": 1.1005371809005737,
	"learning_rate": 3.266666666666667e-05,
	"loss": 2.3557,
	"step": 98
	},
	{
	"epoch": 0.09361702127659574,
	"grad_norm": 0.9912729859352112,
	"learning_rate": 3.3e-05,
	"loss": 2.1763,
	"step": 99
	},
	{
	"epoch": 0.09456264775413711,
	"grad_norm": 1.5450869798660278,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 3.3969,
	"step": 100
	},
	{
	"epoch": 0.09456264775413711,
	"eval_loss": 1.9755831956863403,
	"eval_runtime": 54.202,
	"eval_samples_per_second": 65.736,
	"eval_steps_per_second": 16.439,
	"step": 100
	},
	{
	"epoch": 0.09550827423167849,
	"grad_norm": 0.1785513013601303,
	"learning_rate": 3.366666666666667e-05,
	"loss": 0.1393,
	"step": 101
	},
	{
	"epoch": 0.09645390070921986,
	"grad_norm": 0.21543779969215393,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 0.1675,
	"step": 102
	},
	{
	"epoch": 0.09739952718676123,
	"grad_norm": 0.27484190464019775,
	"learning_rate": 3.433333333333333e-05,
	"loss": 0.2331,
	"step": 103
	},
	{
	"epoch": 0.0983451536643026,
	"grad_norm": 0.22659574449062347,
	"learning_rate": 3.466666666666667e-05,
	"loss": 0.2908,
	"step": 104
	},
	{
	"epoch": 0.09929078014184398,
	"grad_norm": 0.28378260135650635,
	"learning_rate": 3.5e-05,
	"loss": 0.2924,
	"step": 105
	},
	{
	"epoch": 0.10023640661938535,
	"grad_norm": 0.2579360902309418,
	"learning_rate": 3.5333333333333336e-05,
	"loss": 0.3687,
	"step": 106
	},
	{
	"epoch": 0.10118203309692671,
	"grad_norm": 0.2652228772640228,
	"learning_rate": 3.566666666666667e-05,
	"loss": 0.5374,
	"step": 107
	},
	{
	"epoch": 0.10212765957446808,
	"grad_norm": 0.32100433111190796,
	"learning_rate": 3.6e-05,
	"loss": 0.6874,
	"step": 108
	},
	{
	"epoch": 0.10307328605200945,
	"grad_norm": 0.30462920665740967,
	"learning_rate": 3.633333333333333e-05,
	"loss": 0.4254,
	"step": 109
	},
	{
	"epoch": 0.10401891252955082,
	"grad_norm": 0.2611568570137024,
	"learning_rate": 3.6666666666666666e-05,
	"loss": 0.6701,
	"step": 110
	},
	{
	"epoch": 0.1049645390070922,
	"grad_norm": 0.29873016476631165,
	"learning_rate": 3.7e-05,
	"loss": 0.6449,
	"step": 111
	},
	{
	"epoch": 0.10591016548463357,
	"grad_norm": 0.2605455219745636,
	"learning_rate": 3.733333333333334e-05,
	"loss": 0.6369,
	"step": 112
	},
	{
	"epoch": 0.10685579196217494,
	"grad_norm": 0.5200917720794678,
	"learning_rate": 3.766666666666667e-05,
	"loss": 1.1225,
	"step": 113
	},
	{
	"epoch": 0.10780141843971631,
	"grad_norm": 0.31477710604667664,
	"learning_rate": 3.8e-05,
	"loss": 0.772,
	"step": 114
	},
	{
	"epoch": 0.10874704491725769,
	"grad_norm": 0.42271727323532104,
	"learning_rate": 3.8333333333333334e-05,
	"loss": 1.0659,
	"step": 115
	},
	{
	"epoch": 0.10969267139479906,
	"grad_norm": 0.37258803844451904,
	"learning_rate": 3.866666666666667e-05,
	"loss": 0.9266,
	"step": 116
	},
	{
	"epoch": 0.11063829787234042,
	"grad_norm": 0.3200523257255554,
	"learning_rate": 3.9000000000000006e-05,
	"loss": 0.782,
	"step": 117
	},
	{
	"epoch": 0.11158392434988179,
	"grad_norm": 0.37096261978149414,
	"learning_rate": 3.933333333333333e-05,
	"loss": 0.8424,
	"step": 118
	},
	{
	"epoch": 0.11252955082742316,
	"grad_norm": 0.3387626111507416,
	"learning_rate": 3.966666666666667e-05,
	"loss": 0.7941,
	"step": 119
	},
	{
	"epoch": 0.11347517730496454,
	"grad_norm": 0.5522480607032776,
	"learning_rate": 4e-05,
	"loss": 1.3268,
	"step": 120
	},
	{
	"epoch": 0.11442080378250591,
	"grad_norm": 0.6289123892784119,
	"learning_rate": 4.0333333333333336e-05,
	"loss": 1.4588,
	"step": 121
	},
	{
	"epoch": 0.11536643026004728,
	"grad_norm": 0.4001694321632385,
	"learning_rate": 4.066666666666667e-05,
	"loss": 1.056,
	"step": 122
	},
	{
	"epoch": 0.11631205673758865,
	"grad_norm": 0.4287935793399811,
	"learning_rate": 4.1e-05,
	"loss": 1.1171,
	"step": 123
	},
	{
	"epoch": 0.11725768321513003,
	"grad_norm": 0.5254130363464355,
	"learning_rate": 4.133333333333333e-05,
	"loss": 1.2804,
	"step": 124
	},
	{
	"epoch": 0.1182033096926714,
	"grad_norm": 0.5890396237373352,
	"learning_rate": 4.166666666666667e-05,
	"loss": 1.5757,
	"step": 125
	},
	{
	"epoch": 0.11914893617021277,
	"grad_norm": 0.5535526275634766,
	"learning_rate": 4.2e-05,
	"loss": 1.3113,
	"step": 126
	},
	{
	"epoch": 0.12009456264775414,
	"grad_norm": 0.5088675618171692,
	"learning_rate": 4.233333333333334e-05,
	"loss": 1.3381,
	"step": 127
	},
	{
	"epoch": 0.1210401891252955,
	"grad_norm": 0.6092506051063538,
	"learning_rate": 4.266666666666667e-05,
	"loss": 1.5369,
	"step": 128
	},
	{
	"epoch": 0.12198581560283688,
	"grad_norm": 0.5836873650550842,
	"learning_rate": 4.3e-05,
	"loss": 1.3943,
	"step": 129
	},
	{
	"epoch": 0.12293144208037825,
	"grad_norm": 0.6445267200469971,
	"learning_rate": 4.3333333333333334e-05,
	"loss": 1.3146,
	"step": 130
	},
	{
	"epoch": 0.12387706855791962,
	"grad_norm": 0.4378418028354645,
	"learning_rate": 4.3666666666666666e-05,
	"loss": 1.0086,
	"step": 131
	},
	{
	"epoch": 0.12482269503546099,
	"grad_norm": 0.6770736575126648,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 1.5146,
	"step": 132
	},
	{
	"epoch": 0.12576832151300235,
	"grad_norm": 0.6039463877677917,
	"learning_rate": 4.433333333333334e-05,
	"loss": 1.3621,
	"step": 133
	},
	{
	"epoch": 0.12671394799054372,
	"grad_norm": 0.6413301229476929,
	"learning_rate": 4.466666666666667e-05,
	"loss": 1.4514,
	"step": 134
	},
	{
	"epoch": 0.1276595744680851,
	"grad_norm": 0.6788724660873413,
	"learning_rate": 4.5e-05,
	"loss": 1.3301,
	"step": 135
	},
	{
	"epoch": 0.12860520094562647,
	"grad_norm": 0.5223095417022705,
	"learning_rate": 4.5333333333333335e-05,
	"loss": 1.2304,
	"step": 136
	},
	{
	"epoch": 0.12955082742316784,
	"grad_norm": 0.6495351195335388,
	"learning_rate": 4.566666666666667e-05,
	"loss": 1.4054,
	"step": 137
	},
	{
	"epoch": 0.13049645390070921,
	"grad_norm": 0.6079133749008179,
	"learning_rate": 4.600000000000001e-05,
	"loss": 1.3832,
	"step": 138
	},
	{
	"epoch": 0.1314420803782506,
	"grad_norm": 0.5553860664367676,
	"learning_rate": 4.633333333333333e-05,
	"loss": 1.0288,
	"step": 139
	},
	{
	"epoch": 0.13238770685579196,
	"grad_norm": 0.550632894039154,
	"learning_rate": 4.666666666666667e-05,
	"loss": 1.2453,
	"step": 140
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 0.9021189212799072,
	"learning_rate": 4.7e-05,
	"loss": 1.6022,
	"step": 141
	},
	{
	"epoch": 0.1342789598108747,
	"grad_norm": 0.6802974939346313,
	"learning_rate": 4.7333333333333336e-05,
	"loss": 1.5432,
	"step": 142
	},
	{
	"epoch": 0.13522458628841608,
	"grad_norm": 0.5788073539733887,
	"learning_rate": 4.766666666666667e-05,
	"loss": 1.2525,
	"step": 143
	},
	{
	"epoch": 0.13617021276595745,
	"grad_norm": 0.6477014422416687,
	"learning_rate": 4.8e-05,
	"loss": 1.0959,
	"step": 144
	},
	{
	"epoch": 0.13711583924349882,
	"grad_norm": 0.4955628216266632,
	"learning_rate": 4.8333333333333334e-05,
	"loss": 1.1016,
	"step": 145
	},
	{
	"epoch": 0.1380614657210402,
	"grad_norm": 0.4967166483402252,
	"learning_rate": 4.866666666666667e-05,
	"loss": 1.0116,
	"step": 146
	},
	{
	"epoch": 0.13900709219858157,
	"grad_norm": 0.5145598649978638,
	"learning_rate": 4.9e-05,
	"loss": 1.0286,
	"step": 147
	},
	{
	"epoch": 0.13995271867612294,
	"grad_norm": 0.7154728174209595,
	"learning_rate": 4.933333333333334e-05,
	"loss": 1.2846,
	"step": 148
	},
	{
	"epoch": 0.1408983451536643,
	"grad_norm": 0.6433387994766235,
	"learning_rate": 4.966666666666667e-05,
	"loss": 1.0688,
	"step": 149
	},
	{
	"epoch": 0.14184397163120568,
	"grad_norm": 0.8238207697868347,
	"learning_rate": 5e-05,
	"loss": 1.694,
	"step": 150
	},
	{
	"epoch": 0.14184397163120568,
	"eval_loss": 1.0205990076065063,
	"eval_runtime": 54.4047,
	"eval_samples_per_second": 65.491,
	"eval_steps_per_second": 16.377,
	"step": 150
	},
	{
	"epoch": 0.14278959810874706,
	"grad_norm": 0.45450514554977417,
	"learning_rate": 4.995066821070679e-05,
	"loss": 0.1451,
	"step": 151
	},
	{
	"epoch": 0.14373522458628843,
	"grad_norm": 0.5641042590141296,
	"learning_rate": 4.980286753286195e-05,
	"loss": 0.19,
	"step": 152
	},
	{
	"epoch": 0.14468085106382977,
	"grad_norm": 0.6517515182495117,
	"learning_rate": 4.9557181268217227e-05,
	"loss": 0.2196,
	"step": 153
	},
	{
	"epoch": 0.14562647754137115,
	"grad_norm": 0.5124554634094238,
	"learning_rate": 4.9214579028215776e-05,
	"loss": 0.2285,
	"step": 154
	},
	{
	"epoch": 0.14657210401891252,
	"grad_norm": 0.4333844482898712,
	"learning_rate": 4.877641290737884e-05,
	"loss": 0.2272,
	"step": 155
	},
	{
	"epoch": 0.1475177304964539,
	"grad_norm": 0.3877612352371216,
	"learning_rate": 4.8244412147206284e-05,
	"loss": 0.3144,
	"step": 156
	},
	{
	"epoch": 0.14846335697399526,
	"grad_norm": 0.3211458921432495,
	"learning_rate": 4.762067631165049e-05,
	"loss": 0.3578,
	"step": 157
	},
	{
	"epoch": 0.14940898345153664,
	"grad_norm": 0.24879109859466553,
	"learning_rate": 4.690766700109659e-05,
	"loss": 0.2756,
	"step": 158
	},
	{
	"epoch": 0.150354609929078,
	"grad_norm": 0.22662314772605896,
	"learning_rate": 4.610819813755038e-05,
	"loss": 0.2839,
	"step": 159
	},
	{
	"epoch": 0.15130023640661938,
	"grad_norm": 0.23902210593223572,
	"learning_rate": 4.522542485937369e-05,
	"loss": 0.3703,
	"step": 160
	},
	{
	"epoch": 0.15224586288416075,
	"grad_norm": 0.23963478207588196,
	"learning_rate": 4.426283106939474e-05,
	"loss": 0.3972,
	"step": 161
	},
	{
	"epoch": 0.15319148936170213,
	"grad_norm": 0.23576639592647552,
	"learning_rate": 4.3224215685535294e-05,
	"loss": 0.3027,
	"step": 162
	},
	{
	"epoch": 0.1541371158392435,
	"grad_norm": 0.33861732482910156,
	"learning_rate": 4.211367764821722e-05,
	"loss": 0.481,
	"step": 163
	},
	{
	"epoch": 0.15508274231678487,
	"grad_norm": 0.34786704182624817,
	"learning_rate": 4.093559974371725e-05,
	"loss": 0.441,
	"step": 164
	},
	{
	"epoch": 0.15602836879432624,
	"grad_norm": 0.5184177160263062,
	"learning_rate": 3.969463130731183e-05,
	"loss": 0.5629,
	"step": 165
	},
	{
	"epoch": 0.15697399527186762,
	"grad_norm": 0.38847318291664124,
	"learning_rate": 3.8395669874474915e-05,
	"loss": 0.5856,
	"step": 166
	},
	{
	"epoch": 0.157919621749409,
	"grad_norm": 0.4933064877986908,
	"learning_rate": 3.704384185254288e-05,
	"loss": 0.6682,
	"step": 167
	},
	{
	"epoch": 0.15886524822695036,
	"grad_norm": 0.4688006043434143,
	"learning_rate": 3.564448228912682e-05,
	"loss": 0.6222,
	"step": 168
	},
	{
	"epoch": 0.15981087470449173,
	"grad_norm": 0.7410577535629272,
	"learning_rate": 3.4203113817116957e-05,
	"loss": 0.8418,
	"step": 169
	},
	{
	"epoch": 0.1607565011820331,
	"grad_norm": 0.7604397535324097,
	"learning_rate": 3.272542485937369e-05,
	"loss": 1.1219,
	"step": 170
	},
	{
	"epoch": 0.16170212765957448,
	"grad_norm": 0.6462581753730774,
	"learning_rate": 3.121724717912138e-05,
	"loss": 0.9533,
	"step": 171
	},
	{
	"epoch": 0.16264775413711585,
	"grad_norm": 0.2718241810798645,
	"learning_rate": 2.9684532864643122e-05,
	"loss": 0.5001,
	"step": 172
	},
	{
	"epoch": 0.1635933806146572,
	"grad_norm": 0.35057616233825684,
	"learning_rate": 2.8133330839107608e-05,
	"loss": 0.5601,
	"step": 173
	},
	{
	"epoch": 0.16453900709219857,
	"grad_norm": 0.5394273996353149,
	"learning_rate": 2.656976298823284e-05,
	"loss": 0.8314,
	"step": 174
	},
	{
	"epoch": 0.16548463356973994,
	"grad_norm": 0.3971342444419861,
	"learning_rate": 2.5e-05,
	"loss": 0.7177,
	"step": 175
	},
	{
	"epoch": 0.16643026004728131,
	"grad_norm": 0.3941769003868103,
	"learning_rate": 2.3430237011767167e-05,
	"loss": 0.6324,
	"step": 176
	},
	{
	"epoch": 0.1673758865248227,
	"grad_norm": 0.45238277316093445,
	"learning_rate": 2.186666916089239e-05,
	"loss": 0.7953,
	"step": 177
	},
	{
	"epoch": 0.16832151300236406,
	"grad_norm": 0.5700445771217346,
	"learning_rate": 2.031546713535688e-05,
	"loss": 0.859,
	"step": 178
	},
	{
	"epoch": 0.16926713947990543,
	"grad_norm": 0.47867706418037415,
	"learning_rate": 1.8782752820878634e-05,
	"loss": 0.8502,
	"step": 179
	},
	{
	"epoch": 0.1702127659574468,
	"grad_norm": 0.42379331588745117,
	"learning_rate": 1.7274575140626318e-05,
	"loss": 0.8364,
	"step": 180
	},
	{
	"epoch": 0.17115839243498818,
	"grad_norm": 0.4100590944290161,
	"learning_rate": 1.5796886182883053e-05,
	"loss": 0.7299,
	"step": 181
	},
	{
	"epoch": 0.17210401891252955,
	"grad_norm": 0.5437663197517395,
	"learning_rate": 1.4355517710873184e-05,
	"loss": 0.7789,
	"step": 182
	},
	{
	"epoch": 0.17304964539007092,
	"grad_norm": 0.47485315799713135,
	"learning_rate": 1.2956158147457115e-05,
	"loss": 0.8491,
	"step": 183
	},
	{
	"epoch": 0.1739952718676123,
	"grad_norm": 0.48820245265960693,
	"learning_rate": 1.1604330125525079e-05,
	"loss": 0.926,
	"step": 184
	},
	{
	"epoch": 0.17494089834515367,
	"grad_norm": 0.32581862807273865,
	"learning_rate": 1.0305368692688174e-05,
	"loss": 0.5398,
	"step": 185
	},
	{
	"epoch": 0.17588652482269504,
	"grad_norm": 0.4086638391017914,
	"learning_rate": 9.064400256282757e-06,
	"loss": 0.8114,
	"step": 186
	},
	{
	"epoch": 0.1768321513002364,
	"grad_norm": 0.4679095447063446,
	"learning_rate": 7.886322351782783e-06,
	"loss": 0.8871,
	"step": 187
	},
	{
	"epoch": 0.17777777777777778,
	"grad_norm": 0.4896736145019531,
	"learning_rate": 6.775784314464717e-06,
	"loss": 0.81,
	"step": 188
	},
	{
	"epoch": 0.17872340425531916,
	"grad_norm": 0.4382385015487671,
	"learning_rate": 5.737168930605272e-06,
	"loss": 0.8284,
	"step": 189
	},
	{
	"epoch": 0.17966903073286053,
	"grad_norm": 0.5600558519363403,
	"learning_rate": 4.7745751406263165e-06,
	"loss": 1.0058,
	"step": 190
	},
	{
	"epoch": 0.1806146572104019,
	"grad_norm": 0.5055614113807678,
	"learning_rate": 3.891801862449629e-06,
	"loss": 0.8065,
	"step": 191
	},
	{
	"epoch": 0.18156028368794327,
	"grad_norm": 0.6402313113212585,
	"learning_rate": 3.092332998903416e-06,
	"loss": 1.0421,
	"step": 192
	},
	{
	"epoch": 0.18250591016548465,
	"grad_norm": 0.5336678624153137,
	"learning_rate": 2.379323688349516e-06,
	"loss": 0.8897,
	"step": 193
	},
	{
	"epoch": 0.183451536643026,
	"grad_norm": 0.5516868829727173,
	"learning_rate": 1.7555878527937164e-06,
	"loss": 0.8386,
	"step": 194
	},
	{
	"epoch": 0.18439716312056736,
	"grad_norm": 0.6657341718673706,
	"learning_rate": 1.2235870926211619e-06,
	"loss": 1.1191,
	"step": 195
	},
	{
	"epoch": 0.18534278959810874,
	"grad_norm": 0.5750419497489929,
	"learning_rate": 7.854209717842231e-07,
	"loss": 1.0913,
	"step": 196
	},
	{
	"epoch": 0.1862884160756501,
	"grad_norm": 0.4884861409664154,
	"learning_rate": 4.4281873178278475e-07,
	"loss": 0.976,
	"step": 197
	},
	{
	"epoch": 0.18723404255319148,
	"grad_norm": 0.5465104579925537,
	"learning_rate": 1.9713246713805588e-07,
	"loss": 0.8359,
	"step": 198
	},
	{
	"epoch": 0.18817966903073285,
	"grad_norm": 0.6062586903572083,
	"learning_rate": 4.9331789293211026e-08,
	"loss": 0.9467,
	"step": 199
	},
	{
	"epoch": 0.18912529550827423,
	"grad_norm": 0.7774025201797485,
	"learning_rate": 0.0,
	"loss": 1.1784,
	"step": 200
	},
	{
	"epoch": 0.18912529550827423,
	"eval_loss": 0.8490656018257141,
	"eval_runtime": 54.2258,
	"eval_samples_per_second": 65.707,
	"eval_steps_per_second": 16.431,
	"step": 200
	}
	],
	"logging_steps": 1,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 4,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.614235570896896e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}