sapphire-12b-subseq-perseq / trainer_state.json

Upload folder using huggingface_hub

def9004 verified about 2 months ago

53.3 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 37,
	"global_step": 294,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.003401360544217687,
	"grad_norm": 106.7094005171616,
	"learning_rate": 0.0,
	"loss": 2.9268,
	"step": 1
	},
	{
	"epoch": 0.003401360544217687,
	"eval_loss": 2.5302913188934326,
	"eval_runtime": 3.7953,
	"eval_samples_per_second": 14.492,
	"eval_steps_per_second": 1.054,
	"step": 1
	},
	{
	"epoch": 0.006802721088435374,
	"grad_norm": 57.97506009705182,
	"learning_rate": 6.89655172413793e-08,
	"loss": 2.0122,
	"step": 2
	},
	{
	"epoch": 0.01020408163265306,
	"grad_norm": 116.23413141145363,
	"learning_rate": 1.379310344827586e-07,
	"loss": 2.6743,
	"step": 3
	},
	{
	"epoch": 0.013605442176870748,
	"grad_norm": 21.262801374024775,
	"learning_rate": 2.0689655172413793e-07,
	"loss": 2.0743,
	"step": 4
	},
	{
	"epoch": 0.017006802721088437,
	"grad_norm": 59.319984755304056,
	"learning_rate": 2.758620689655172e-07,
	"loss": 2.2775,
	"step": 5
	},
	{
	"epoch": 0.02040816326530612,
	"grad_norm": 159.51320885432614,
	"learning_rate": 3.4482758620689656e-07,
	"loss": 2.1337,
	"step": 6
	},
	{
	"epoch": 0.023809523809523808,
	"grad_norm": 87.93970940325055,
	"learning_rate": 4.1379310344827586e-07,
	"loss": 1.9061,
	"step": 7
	},
	{
	"epoch": 0.027210884353741496,
	"grad_norm": 61.133777808660895,
	"learning_rate": 4.827586206896552e-07,
	"loss": 1.8118,
	"step": 8
	},
	{
	"epoch": 0.030612244897959183,
	"grad_norm": 48.65887299035499,
	"learning_rate": 5.517241379310344e-07,
	"loss": 3.4095,
	"step": 9
	},
	{
	"epoch": 0.034013605442176874,
	"grad_norm": 30.592687909719288,
	"learning_rate": 6.206896551724138e-07,
	"loss": 2.2398,
	"step": 10
	},
	{
	"epoch": 0.03741496598639456,
	"grad_norm": 74.15295766799099,
	"learning_rate": 6.896551724137931e-07,
	"loss": 3.4425,
	"step": 11
	},
	{
	"epoch": 0.04081632653061224,
	"grad_norm": 34.94892634385338,
	"learning_rate": 7.586206896551724e-07,
	"loss": 2.5405,
	"step": 12
	},
	{
	"epoch": 0.04421768707482993,
	"grad_norm": 26.538521745061775,
	"learning_rate": 8.275862068965517e-07,
	"loss": 1.9614,
	"step": 13
	},
	{
	"epoch": 0.047619047619047616,
	"grad_norm": 52.23979896259082,
	"learning_rate": 8.96551724137931e-07,
	"loss": 2.9785,
	"step": 14
	},
	{
	"epoch": 0.05102040816326531,
	"grad_norm": 30.812143999051266,
	"learning_rate": 9.655172413793103e-07,
	"loss": 2.0185,
	"step": 15
	},
	{
	"epoch": 0.05442176870748299,
	"grad_norm": 41.48478088374125,
	"learning_rate": 1.0344827586206896e-06,
	"loss": 2.1126,
	"step": 16
	},
	{
	"epoch": 0.05782312925170068,
	"grad_norm": 29.347588210089675,
	"learning_rate": 1.1034482758620688e-06,
	"loss": 2.2078,
	"step": 17
	},
	{
	"epoch": 0.061224489795918366,
	"grad_norm": 28.947554594850924,
	"learning_rate": 1.172413793103448e-06,
	"loss": 2.442,
	"step": 18
	},
	{
	"epoch": 0.06462585034013606,
	"grad_norm": 32.28592513881342,
	"learning_rate": 1.2413793103448275e-06,
	"loss": 2.8683,
	"step": 19
	},
	{
	"epoch": 0.06802721088435375,
	"grad_norm": 38.97631997775744,
	"learning_rate": 1.3103448275862068e-06,
	"loss": 2.4376,
	"step": 20
	},
	{
	"epoch": 0.07142857142857142,
	"grad_norm": 43.775478156068516,
	"learning_rate": 1.3793103448275862e-06,
	"loss": 2.4167,
	"step": 21
	},
	{
	"epoch": 0.07482993197278912,
	"grad_norm": 30.904260805899465,
	"learning_rate": 1.4482758620689655e-06,
	"loss": 2.6971,
	"step": 22
	},
	{
	"epoch": 0.0782312925170068,
	"grad_norm": 48.202871069183985,
	"learning_rate": 1.5172413793103447e-06,
	"loss": 2.5093,
	"step": 23
	},
	{
	"epoch": 0.08163265306122448,
	"grad_norm": 55.067186300198706,
	"learning_rate": 1.5862068965517242e-06,
	"loss": 2.0053,
	"step": 24
	},
	{
	"epoch": 0.08503401360544217,
	"grad_norm": 38.486811757681096,
	"learning_rate": 1.6551724137931035e-06,
	"loss": 2.2475,
	"step": 25
	},
	{
	"epoch": 0.08843537414965986,
	"grad_norm": 90.78568630900098,
	"learning_rate": 1.7241379310344825e-06,
	"loss": 3.8342,
	"step": 26
	},
	{
	"epoch": 0.09183673469387756,
	"grad_norm": 23.32050516158788,
	"learning_rate": 1.793103448275862e-06,
	"loss": 2.2496,
	"step": 27
	},
	{
	"epoch": 0.09523809523809523,
	"grad_norm": 25.01047005218693,
	"learning_rate": 1.8620689655172412e-06,
	"loss": 2.6991,
	"step": 28
	},
	{
	"epoch": 0.09863945578231292,
	"grad_norm": 27.40209208002175,
	"learning_rate": 1.9310344827586207e-06,
	"loss": 2.7017,
	"step": 29
	},
	{
	"epoch": 0.10204081632653061,
	"grad_norm": 16.372774250078056,
	"learning_rate": 2e-06,
	"loss": 2.1315,
	"step": 30
	},
	{
	"epoch": 0.1054421768707483,
	"grad_norm": 34.32100924763162,
	"learning_rate": 1.999984207714351e-06,
	"loss": 2.4298,
	"step": 31
	},
	{
	"epoch": 0.10884353741496598,
	"grad_norm": 49.15042168439896,
	"learning_rate": 1.9999368313561964e-06,
	"loss": 3.1687,
	"step": 32
	},
	{
	"epoch": 0.11224489795918367,
	"grad_norm": 27.553221322487154,
	"learning_rate": 1.9998578724218984e-06,
	"loss": 2.307,
	"step": 33
	},
	{
	"epoch": 0.11564625850340136,
	"grad_norm": 25.29898708562965,
	"learning_rate": 1.999747333405341e-06,
	"loss": 2.6711,
	"step": 34
	},
	{
	"epoch": 0.11904761904761904,
	"grad_norm": 35.13639034121329,
	"learning_rate": 1.9996052177978517e-06,
	"loss": 2.2923,
	"step": 35
	},
	{
	"epoch": 0.12244897959183673,
	"grad_norm": 61.904951168823246,
	"learning_rate": 1.999431530088091e-06,
	"loss": 3.0837,
	"step": 36
	},
	{
	"epoch": 0.12585034013605442,
	"grad_norm": 43.72931173152359,
	"learning_rate": 1.9992262757619108e-06,
	"loss": 2.9055,
	"step": 37
	},
	{
	"epoch": 0.12585034013605442,
	"eval_loss": 2.2881884574890137,
	"eval_runtime": 3.7387,
	"eval_samples_per_second": 14.711,
	"eval_steps_per_second": 1.07,
	"step": 37
	},
	{
	"epoch": 0.1292517006802721,
	"grad_norm": 75.128224809043,
	"learning_rate": 1.9989894613021807e-06,
	"loss": 3.9717,
	"step": 38
	},
	{
	"epoch": 0.1326530612244898,
	"grad_norm": 6.423556290490496,
	"learning_rate": 1.998721094188584e-06,
	"loss": 1.6634,
	"step": 39
	},
	{
	"epoch": 0.1360544217687075,
	"grad_norm": 8.952452652609857,
	"learning_rate": 1.9984211828973816e-06,
	"loss": 2.1183,
	"step": 40
	},
	{
	"epoch": 0.13945578231292516,
	"grad_norm": 12.837161899787583,
	"learning_rate": 1.998089736901142e-06,
	"loss": 2.1306,
	"step": 41
	},
	{
	"epoch": 0.14285714285714285,
	"grad_norm": 7.2779063942957825,
	"learning_rate": 1.9977267666684456e-06,
	"loss": 1.9831,
	"step": 42
	},
	{
	"epoch": 0.14625850340136054,
	"grad_norm": 30.288569770228293,
	"learning_rate": 1.9973322836635515e-06,
	"loss": 2.1869,
	"step": 43
	},
	{
	"epoch": 0.14965986394557823,
	"grad_norm": 11.672608976353168,
	"learning_rate": 1.996906300346036e-06,
	"loss": 1.9566,
	"step": 44
	},
	{
	"epoch": 0.15306122448979592,
	"grad_norm": 14.837719065187358,
	"learning_rate": 1.9964488301704e-06,
	"loss": 2.2152,
	"step": 45
	},
	{
	"epoch": 0.1564625850340136,
	"grad_norm": 18.558600033713702,
	"learning_rate": 1.9959598875856427e-06,
	"loss": 2.06,
	"step": 46
	},
	{
	"epoch": 0.1598639455782313,
	"grad_norm": 17.161073648503006,
	"learning_rate": 1.995439488034806e-06,
	"loss": 2.0463,
	"step": 47
	},
	{
	"epoch": 0.16326530612244897,
	"grad_norm": 10.944090642041195,
	"learning_rate": 1.994887647954486e-06,
	"loss": 1.9676,
	"step": 48
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 30.260773919516463,
	"learning_rate": 1.9943043847743164e-06,
	"loss": 2.4235,
	"step": 49
	},
	{
	"epoch": 0.17006802721088435,
	"grad_norm": 17.95874457178673,
	"learning_rate": 1.9936897169164135e-06,
	"loss": 2.4211,
	"step": 50
	},
	{
	"epoch": 0.17346938775510204,
	"grad_norm": 29.32804844947439,
	"learning_rate": 1.993043663794799e-06,
	"loss": 2.2786,
	"step": 51
	},
	{
	"epoch": 0.17687074829931973,
	"grad_norm": 31.224760731119037,
	"learning_rate": 1.9923662458147826e-06,
	"loss": 2.8374,
	"step": 52
	},
	{
	"epoch": 0.18027210884353742,
	"grad_norm": 4.5045539325043205,
	"learning_rate": 1.9916574843723217e-06,
	"loss": 1.6301,
	"step": 53
	},
	{
	"epoch": 0.1836734693877551,
	"grad_norm": 10.827050277516674,
	"learning_rate": 1.9909174018533427e-06,
	"loss": 2.0554,
	"step": 54
	},
	{
	"epoch": 0.1870748299319728,
	"grad_norm": 17.063187262605883,
	"learning_rate": 1.990146021633034e-06,
	"loss": 2.4202,
	"step": 55
	},
	{
	"epoch": 0.19047619047619047,
	"grad_norm": 3.946679947433292,
	"learning_rate": 1.98934336807511e-06,
	"loss": 1.7808,
	"step": 56
	},
	{
	"epoch": 0.19387755102040816,
	"grad_norm": 8.431222224384186,
	"learning_rate": 1.9885094665310388e-06,
	"loss": 1.7766,
	"step": 57
	},
	{
	"epoch": 0.19727891156462585,
	"grad_norm": 32.28667139462841,
	"learning_rate": 1.9876443433392433e-06,
	"loss": 2.2299,
	"step": 58
	},
	{
	"epoch": 0.20068027210884354,
	"grad_norm": 11.950555724182584,
	"learning_rate": 1.986748025824268e-06,
	"loss": 1.928,
	"step": 59
	},
	{
	"epoch": 0.20408163265306123,
	"grad_norm": 3.6059136679066977,
	"learning_rate": 1.985820542295918e-06,
	"loss": 1.7761,
	"step": 60
	},
	{
	"epoch": 0.20748299319727892,
	"grad_norm": 41.40947345983446,
	"learning_rate": 1.984861922048363e-06,
	"loss": 2.6704,
	"step": 61
	},
	{
	"epoch": 0.2108843537414966,
	"grad_norm": 30.634237938465816,
	"learning_rate": 1.983872195359212e-06,
	"loss": 2.7336,
	"step": 62
	},
	{
	"epoch": 0.21428571428571427,
	"grad_norm": 3.760013022701194,
	"learning_rate": 1.9828513934885587e-06,
	"loss": 1.8831,
	"step": 63
	},
	{
	"epoch": 0.21768707482993196,
	"grad_norm": 37.34059674722221,
	"learning_rate": 1.981799548677993e-06,
	"loss": 2.27,
	"step": 64
	},
	{
	"epoch": 0.22108843537414966,
	"grad_norm": 11.009700618421736,
	"learning_rate": 1.980716694149581e-06,
	"loss": 1.9265,
	"step": 65
	},
	{
	"epoch": 0.22448979591836735,
	"grad_norm": 17.609147027884987,
	"learning_rate": 1.9796028641048194e-06,
	"loss": 2.3411,
	"step": 66
	},
	{
	"epoch": 0.22789115646258504,
	"grad_norm": 17.432142291951372,
	"learning_rate": 1.978458093723553e-06,
	"loss": 2.2213,
	"step": 67
	},
	{
	"epoch": 0.23129251700680273,
	"grad_norm": 14.11664326231067,
	"learning_rate": 1.9772824191628632e-06,
	"loss": 2.0831,
	"step": 68
	},
	{
	"epoch": 0.23469387755102042,
	"grad_norm": 37.456025944063875,
	"learning_rate": 1.9760758775559273e-06,
	"loss": 2.7494,
	"step": 69
	},
	{
	"epoch": 0.23809523809523808,
	"grad_norm": 16.30994509129653,
	"learning_rate": 1.974838507010844e-06,
	"loss": 2.118,
	"step": 70
	},
	{
	"epoch": 0.24149659863945577,
	"grad_norm": 25.92468917111241,
	"learning_rate": 1.9735703466094324e-06,
	"loss": 2.1656,
	"step": 71
	},
	{
	"epoch": 0.24489795918367346,
	"grad_norm": 17.23253832018251,
	"learning_rate": 1.972271436405994e-06,
	"loss": 2.0787,
	"step": 72
	},
	{
	"epoch": 0.24829931972789115,
	"grad_norm": 6.286286593272188,
	"learning_rate": 1.970941817426052e-06,
	"loss": 1.7458,
	"step": 73
	},
	{
	"epoch": 0.25170068027210885,
	"grad_norm": 20.87004487229478,
	"learning_rate": 1.969581531665051e-06,
	"loss": 2.364,
	"step": 74
	},
	{
	"epoch": 0.25170068027210885,
	"eval_loss": 2.240875482559204,
	"eval_runtime": 3.7328,
	"eval_samples_per_second": 14.734,
	"eval_steps_per_second": 1.072,
	"step": 74
	},
	{
	"epoch": 0.25510204081632654,
	"grad_norm": 22.83815781491435,
	"learning_rate": 1.968190622087034e-06,
	"loss": 2.2176,
	"step": 75
	},
	{
	"epoch": 0.2585034013605442,
	"grad_norm": 39.2204163613504,
	"learning_rate": 1.9667691326232835e-06,
	"loss": 2.605,
	"step": 76
	},
	{
	"epoch": 0.2619047619047619,
	"grad_norm": 9.599486970591897,
	"learning_rate": 1.965317108170935e-06,
	"loss": 2.1652,
	"step": 77
	},
	{
	"epoch": 0.2653061224489796,
	"grad_norm": 3.7571781853463175,
	"learning_rate": 1.9638345945915586e-06,
	"loss": 1.6055,
	"step": 78
	},
	{
	"epoch": 0.2687074829931973,
	"grad_norm": 7.064670527473922,
	"learning_rate": 1.962321638709709e-06,
	"loss": 1.9937,
	"step": 79
	},
	{
	"epoch": 0.272108843537415,
	"grad_norm": 28.207901160479654,
	"learning_rate": 1.9607782883114506e-06,
	"loss": 2.2552,
	"step": 80
	},
	{
	"epoch": 0.2755102040816326,
	"grad_norm": 15.991872570963396,
	"learning_rate": 1.959204592142843e-06,
	"loss": 2.1559,
	"step": 81
	},
	{
	"epoch": 0.2789115646258503,
	"grad_norm": 13.401822104278665,
	"learning_rate": 1.957600599908406e-06,
	"loss": 2.1652,
	"step": 82
	},
	{
	"epoch": 0.282312925170068,
	"grad_norm": 14.708704691038701,
	"learning_rate": 1.9559663622695455e-06,
	"loss": 1.9673,
	"step": 83
	},
	{
	"epoch": 0.2857142857142857,
	"grad_norm": 3.3458550475032105,
	"learning_rate": 1.954301930842958e-06,
	"loss": 1.6917,
	"step": 84
	},
	{
	"epoch": 0.2891156462585034,
	"grad_norm": 3.479853146114766,
	"learning_rate": 1.9526073581989955e-06,
	"loss": 1.624,
	"step": 85
	},
	{
	"epoch": 0.2925170068027211,
	"grad_norm": 25.10854427551898,
	"learning_rate": 1.950882697860009e-06,
	"loss": 2.3626,
	"step": 86
	},
	{
	"epoch": 0.29591836734693877,
	"grad_norm": 14.389114459997433,
	"learning_rate": 1.9491280042986562e-06,
	"loss": 2.0549,
	"step": 87
	},
	{
	"epoch": 0.29931972789115646,
	"grad_norm": 17.72897272235088,
	"learning_rate": 1.9473433329361802e-06,
	"loss": 2.4525,
	"step": 88
	},
	{
	"epoch": 0.30272108843537415,
	"grad_norm": 8.212788560084723,
	"learning_rate": 1.945528740140662e-06,
	"loss": 2.1368,
	"step": 89
	},
	{
	"epoch": 0.30612244897959184,
	"grad_norm": 26.76274867022125,
	"learning_rate": 1.943684283225236e-06,
	"loss": 2.3735,
	"step": 90
	},
	{
	"epoch": 0.30952380952380953,
	"grad_norm": 23.71630229663243,
	"learning_rate": 1.941810020446284e-06,
	"loss": 2.6005,
	"step": 91
	},
	{
	"epoch": 0.3129251700680272,
	"grad_norm": 22.889738702248234,
	"learning_rate": 1.9399060110015917e-06,
	"loss": 2.6924,
	"step": 92
	},
	{
	"epoch": 0.3163265306122449,
	"grad_norm": 32.54631787971477,
	"learning_rate": 1.9379723150284814e-06,
	"loss": 2.5301,
	"step": 93
	},
	{
	"epoch": 0.3197278911564626,
	"grad_norm": 3.6877224549117344,
	"learning_rate": 1.936008993601912e-06,
	"loss": 1.6556,
	"step": 94
	},
	{
	"epoch": 0.3231292517006803,
	"grad_norm": 33.682920637388364,
	"learning_rate": 1.934016108732548e-06,
	"loss": 2.3709,
	"step": 95
	},
	{
	"epoch": 0.32653061224489793,
	"grad_norm": 19.342157148675135,
	"learning_rate": 1.9319937233648045e-06,
	"loss": 1.8713,
	"step": 96
	},
	{
	"epoch": 0.3299319727891156,
	"grad_norm": 36.9446891807536,
	"learning_rate": 1.929941901374856e-06,
	"loss": 3.1666,
	"step": 97
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 12.769242612326224,
	"learning_rate": 1.9278607075686205e-06,
	"loss": 2.2024,
	"step": 98
	},
	{
	"epoch": 0.336734693877551,
	"grad_norm": 7.569149644914372,
	"learning_rate": 1.9257502076797123e-06,
	"loss": 1.8434,
	"step": 99
	},
	{
	"epoch": 0.3401360544217687,
	"grad_norm": 18.672166864254265,
	"learning_rate": 1.9236104683673653e-06,
	"loss": 2.6262,
	"step": 100
	},
	{
	"epoch": 0.3435374149659864,
	"grad_norm": 7.251393661314555,
	"learning_rate": 1.9214415572143284e-06,
	"loss": 1.8447,
	"step": 101
	},
	{
	"epoch": 0.3469387755102041,
	"grad_norm": 25.8588617341962,
	"learning_rate": 1.919243542724731e-06,
	"loss": 2.3528,
	"step": 102
	},
	{
	"epoch": 0.35034013605442177,
	"grad_norm": 21.00339285362203,
	"learning_rate": 1.917016494321918e-06,
	"loss": 2.462,
	"step": 103
	},
	{
	"epoch": 0.35374149659863946,
	"grad_norm": 19.533037226832878,
	"learning_rate": 1.9147604823462585e-06,
	"loss": 2.3057,
	"step": 104
	},
	{
	"epoch": 0.35714285714285715,
	"grad_norm": 3.1087327492999286,
	"learning_rate": 1.9124755780529243e-06,
	"loss": 1.6935,
	"step": 105
	},
	{
	"epoch": 0.36054421768707484,
	"grad_norm": 35.707396347148176,
	"learning_rate": 1.910161853609637e-06,
	"loss": 2.3652,
	"step": 106
	},
	{
	"epoch": 0.36394557823129253,
	"grad_norm": 16.694934440145225,
	"learning_rate": 1.9078193820943916e-06,
	"loss": 2.6014,
	"step": 107
	},
	{
	"epoch": 0.3673469387755102,
	"grad_norm": 12.946146725042743,
	"learning_rate": 1.9054482374931466e-06,
	"loss": 1.9379,
	"step": 108
	},
	{
	"epoch": 0.3707482993197279,
	"grad_norm": 8.740650008889842,
	"learning_rate": 1.9030484946974878e-06,
	"loss": 1.9414,
	"step": 109
	},
	{
	"epoch": 0.3741496598639456,
	"grad_norm": 23.13581690576701,
	"learning_rate": 1.9006202295022629e-06,
	"loss": 2.4563,
	"step": 110
	},
	{
	"epoch": 0.37755102040816324,
	"grad_norm": 10.00026809536462,
	"learning_rate": 1.8981635186031869e-06,
	"loss": 1.8384,
	"step": 111
	},
	{
	"epoch": 0.37755102040816324,
	"eval_loss": 2.2185332775115967,
	"eval_runtime": 3.7603,
	"eval_samples_per_second": 14.626,
	"eval_steps_per_second": 1.064,
	"step": 111
	},
	{
	"epoch": 0.38095238095238093,
	"grad_norm": 26.376801704138895,
	"learning_rate": 1.89567843959442e-06,
	"loss": 3.095,
	"step": 112
	},
	{
	"epoch": 0.3843537414965986,
	"grad_norm": 31.801160647661863,
	"learning_rate": 1.8931650709661176e-06,
	"loss": 2.4186,
	"step": 113
	},
	{
	"epoch": 0.3877551020408163,
	"grad_norm": 3.7202396333724406,
	"learning_rate": 1.8906234921019504e-06,
	"loss": 1.8483,
	"step": 114
	},
	{
	"epoch": 0.391156462585034,
	"grad_norm": 20.22060079238643,
	"learning_rate": 1.8880537832765975e-06,
	"loss": 2.1247,
	"step": 115
	},
	{
	"epoch": 0.3945578231292517,
	"grad_norm": 29.233218070907714,
	"learning_rate": 1.8854560256532098e-06,
	"loss": 2.3962,
	"step": 116
	},
	{
	"epoch": 0.3979591836734694,
	"grad_norm": 12.311196195760077,
	"learning_rate": 1.882830301280849e-06,
	"loss": 1.9291,
	"step": 117
	},
	{
	"epoch": 0.4013605442176871,
	"grad_norm": 24.022251844658836,
	"learning_rate": 1.880176693091893e-06,
	"loss": 2.0967,
	"step": 118
	},
	{
	"epoch": 0.40476190476190477,
	"grad_norm": 15.5145598820515,
	"learning_rate": 1.8774952848994193e-06,
	"loss": 2.0164,
	"step": 119
	},
	{
	"epoch": 0.40816326530612246,
	"grad_norm": 18.669552144287866,
	"learning_rate": 1.874786161394556e-06,
	"loss": 1.9074,
	"step": 120
	},
	{
	"epoch": 0.41156462585034015,
	"grad_norm": 20.221669243742017,
	"learning_rate": 1.8720494081438077e-06,
	"loss": 2.0693,
	"step": 121
	},
	{
	"epoch": 0.41496598639455784,
	"grad_norm": 40.16853982486705,
	"learning_rate": 1.8692851115863521e-06,
	"loss": 2.7133,
	"step": 122
	},
	{
	"epoch": 0.41836734693877553,
	"grad_norm": 28.130765299643805,
	"learning_rate": 1.8664933590313116e-06,
	"loss": 2.3678,
	"step": 123
	},
	{
	"epoch": 0.4217687074829932,
	"grad_norm": 3.285521259165442,
	"learning_rate": 1.8636742386549936e-06,
	"loss": 1.643,
	"step": 124
	},
	{
	"epoch": 0.42517006802721086,
	"grad_norm": 14.918765530830019,
	"learning_rate": 1.8608278394981065e-06,
	"loss": 2.2832,
	"step": 125
	},
	{
	"epoch": 0.42857142857142855,
	"grad_norm": 3.221047286582191,
	"learning_rate": 1.8579542514629471e-06,
	"loss": 1.7598,
	"step": 126
	},
	{
	"epoch": 0.43197278911564624,
	"grad_norm": 30.02563146393063,
	"learning_rate": 1.8550535653105621e-06,
	"loss": 2.2684,
	"step": 127
	},
	{
	"epoch": 0.43537414965986393,
	"grad_norm": 14.894051195947721,
	"learning_rate": 1.8521258726578802e-06,
	"loss": 2.2898,
	"step": 128
	},
	{
	"epoch": 0.4387755102040816,
	"grad_norm": 31.346174242632404,
	"learning_rate": 1.849171265974818e-06,
	"loss": 2.4443,
	"step": 129
	},
	{
	"epoch": 0.4421768707482993,
	"grad_norm": 18.396976082720574,
	"learning_rate": 1.846189838581362e-06,
	"loss": 2.4081,
	"step": 130
	},
	{
	"epoch": 0.445578231292517,
	"grad_norm": 11.300098238275778,
	"learning_rate": 1.843181684644617e-06,
	"loss": 1.9707,
	"step": 131
	},
	{
	"epoch": 0.4489795918367347,
	"grad_norm": 9.311622064720812,
	"learning_rate": 1.8401468991758364e-06,
	"loss": 2.0055,
	"step": 132
	},
	{
	"epoch": 0.4523809523809524,
	"grad_norm": 17.268118260619143,
	"learning_rate": 1.837085578027418e-06,
	"loss": 2.1029,
	"step": 133
	},
	{
	"epoch": 0.4557823129251701,
	"grad_norm": 13.534018757700077,
	"learning_rate": 1.833997817889878e-06,
	"loss": 1.6714,
	"step": 134
	},
	{
	"epoch": 0.45918367346938777,
	"grad_norm": 25.67291091851184,
	"learning_rate": 1.8308837162887962e-06,
	"loss": 2.0809,
	"step": 135
	},
	{
	"epoch": 0.46258503401360546,
	"grad_norm": 16.78554391811326,
	"learning_rate": 1.827743371581737e-06,
	"loss": 2.095,
	"step": 136
	},
	{
	"epoch": 0.46598639455782315,
	"grad_norm": 7.0895304724541175,
	"learning_rate": 1.8245768829551415e-06,
	"loss": 2.0924,
	"step": 137
	},
	{
	"epoch": 0.46938775510204084,
	"grad_norm": 28.325113542255774,
	"learning_rate": 1.8213843504211956e-06,
	"loss": 2.2312,
	"step": 138
	},
	{
	"epoch": 0.47278911564625853,
	"grad_norm": 19.627621449351967,
	"learning_rate": 1.8181658748146709e-06,
	"loss": 2.1092,
	"step": 139
	},
	{
	"epoch": 0.47619047619047616,
	"grad_norm": 3.253642214201976,
	"learning_rate": 1.8149215577897394e-06,
	"loss": 1.8119,
	"step": 140
	},
	{
	"epoch": 0.47959183673469385,
	"grad_norm": 22.194249754011054,
	"learning_rate": 1.8116515018167635e-06,
	"loss": 1.8086,
	"step": 141
	},
	{
	"epoch": 0.48299319727891155,
	"grad_norm": 3.291628206622755,
	"learning_rate": 1.8083558101790595e-06,
	"loss": 1.6961,
	"step": 142
	},
	{
	"epoch": 0.48639455782312924,
	"grad_norm": 30.333797331495706,
	"learning_rate": 1.8050345869696346e-06,
	"loss": 2.4649,
	"step": 143
	},
	{
	"epoch": 0.4897959183673469,
	"grad_norm": 35.46381155966904,
	"learning_rate": 1.8016879370879004e-06,
	"loss": 2.375,
	"step": 144
	},
	{
	"epoch": 0.4931972789115646,
	"grad_norm": 10.065027530577671,
	"learning_rate": 1.798315966236358e-06,
	"loss": 1.7088,
	"step": 145
	},
	{
	"epoch": 0.4965986394557823,
	"grad_norm": 31.969238069641904,
	"learning_rate": 1.794918780917262e-06,
	"loss": 2.2722,
	"step": 146
	},
	{
	"epoch": 0.5,
	"grad_norm": 3.1706943713916287,
	"learning_rate": 1.791496488429254e-06,
	"loss": 1.5129,
	"step": 147
	},
	{
	"epoch": 0.5034013605442177,
	"grad_norm": 40.129409477941664,
	"learning_rate": 1.7880491968639751e-06,
	"loss": 2.8429,
	"step": 148
	},
	{
	"epoch": 0.5034013605442177,
	"eval_loss": 2.2053215503692627,
	"eval_runtime": 3.8702,
	"eval_samples_per_second": 14.211,
	"eval_steps_per_second": 1.034,
	"step": 148
	},
	{
	"epoch": 0.5068027210884354,
	"grad_norm": 26.985890370710862,
	"learning_rate": 1.7845770151026513e-06,
	"loss": 2.3221,
	"step": 149
	},
	{
	"epoch": 0.5102040816326531,
	"grad_norm": 34.746114296368646,
	"learning_rate": 1.7810800528126553e-06,
	"loss": 2.3499,
	"step": 150
	},
	{
	"epoch": 0.5136054421768708,
	"grad_norm": 3.902076154967714,
	"learning_rate": 1.7775584204440416e-06,
	"loss": 1.7411,
	"step": 151
	},
	{
	"epoch": 0.5170068027210885,
	"grad_norm": 27.80193827038684,
	"learning_rate": 1.7740122292260594e-06,
	"loss": 2.2895,
	"step": 152
	},
	{
	"epoch": 0.5204081632653061,
	"grad_norm": 3.4114906810600685,
	"learning_rate": 1.7704415911636375e-06,
	"loss": 1.5119,
	"step": 153
	},
	{
	"epoch": 0.5238095238095238,
	"grad_norm": 9.505522369554297,
	"learning_rate": 1.7668466190338483e-06,
	"loss": 1.844,
	"step": 154
	},
	{
	"epoch": 0.5272108843537415,
	"grad_norm": 36.46998151934392,
	"learning_rate": 1.7632274263823457e-06,
	"loss": 2.4713,
	"step": 155
	},
	{
	"epoch": 0.5306122448979592,
	"grad_norm": 17.765108257489125,
	"learning_rate": 1.759584127519778e-06,
	"loss": 2.2811,
	"step": 156
	},
	{
	"epoch": 0.5340136054421769,
	"grad_norm": 14.148223114236801,
	"learning_rate": 1.7559168375181775e-06,
	"loss": 1.8442,
	"step": 157
	},
	{
	"epoch": 0.5374149659863946,
	"grad_norm": 9.76402372234183,
	"learning_rate": 1.7522256722073273e-06,
	"loss": 1.8945,
	"step": 158
	},
	{
	"epoch": 0.5408163265306123,
	"grad_norm": 16.450896799860217,
	"learning_rate": 1.748510748171101e-06,
	"loss": 1.9574,
	"step": 159
	},
	{
	"epoch": 0.54421768707483,
	"grad_norm": 3.912613042056259,
	"learning_rate": 1.7447721827437819e-06,
	"loss": 1.6032,
	"step": 160
	},
	{
	"epoch": 0.5476190476190477,
	"grad_norm": 33.305605159021646,
	"learning_rate": 1.7410100940063558e-06,
	"loss": 2.4057,
	"step": 161
	},
	{
	"epoch": 0.5510204081632653,
	"grad_norm": 38.319973023280475,
	"learning_rate": 1.7372246007827833e-06,
	"loss": 2.5925,
	"step": 162
	},
	{
	"epoch": 0.5544217687074829,
	"grad_norm": 17.216523524482163,
	"learning_rate": 1.7334158226362446e-06,
	"loss": 2.0324,
	"step": 163
	},
	{
	"epoch": 0.5578231292517006,
	"grad_norm": 4.9862323362748535,
	"learning_rate": 1.7295838798653649e-06,
	"loss": 1.7436,
	"step": 164
	},
	{
	"epoch": 0.5612244897959183,
	"grad_norm": 4.0759355613648625,
	"learning_rate": 1.7257288935004132e-06,
	"loss": 1.7034,
	"step": 165
	},
	{
	"epoch": 0.564625850340136,
	"grad_norm": 16.519960341878562,
	"learning_rate": 1.7218509852994822e-06,
	"loss": 2.115,
	"step": 166
	},
	{
	"epoch": 0.5680272108843537,
	"grad_norm": 17.37824200525593,
	"learning_rate": 1.7179502777446392e-06,
	"loss": 2.0609,
	"step": 167
	},
	{
	"epoch": 0.5714285714285714,
	"grad_norm": 39.604264809847564,
	"learning_rate": 1.7140268940380605e-06,
	"loss": 2.3861,
	"step": 168
	},
	{
	"epoch": 0.5748299319727891,
	"grad_norm": 17.489048911326037,
	"learning_rate": 1.7100809580981384e-06,
	"loss": 1.9979,
	"step": 169
	},
	{
	"epoch": 0.5782312925170068,
	"grad_norm": 6.642641185839537,
	"learning_rate": 1.7061125945555679e-06,
	"loss": 1.7533,
	"step": 170
	},
	{
	"epoch": 0.5816326530612245,
	"grad_norm": 41.437166409250736,
	"learning_rate": 1.70212192874941e-06,
	"loss": 2.8676,
	"step": 171
	},
	{
	"epoch": 0.5850340136054422,
	"grad_norm": 12.285090452877482,
	"learning_rate": 1.6981090867231336e-06,
	"loss": 1.8715,
	"step": 172
	},
	{
	"epoch": 0.5884353741496599,
	"grad_norm": 20.351266920257437,
	"learning_rate": 1.694074195220634e-06,
	"loss": 2.5238,
	"step": 173
	},
	{
	"epoch": 0.5918367346938775,
	"grad_norm": 13.128678816386138,
	"learning_rate": 1.6900173816822289e-06,
	"loss": 1.7191,
	"step": 174
	},
	{
	"epoch": 0.5952380952380952,
	"grad_norm": 3.1331026154409565,
	"learning_rate": 1.6859387742406358e-06,
	"loss": 1.7885,
	"step": 175
	},
	{
	"epoch": 0.5986394557823129,
	"grad_norm": 12.273944679120639,
	"learning_rate": 1.6818385017169212e-06,
	"loss": 1.9361,
	"step": 176
	},
	{
	"epoch": 0.6020408163265306,
	"grad_norm": 18.988287394873876,
	"learning_rate": 1.6777166936164354e-06,
	"loss": 2.118,
	"step": 177
	},
	{
	"epoch": 0.6054421768707483,
	"grad_norm": 13.330413347581118,
	"learning_rate": 1.6735734801247202e-06,
	"loss": 1.9923,
	"step": 178
	},
	{
	"epoch": 0.608843537414966,
	"grad_norm": 8.528660885149025,
	"learning_rate": 1.6694089921033976e-06,
	"loss": 1.6938,
	"step": 179
	},
	{
	"epoch": 0.6122448979591837,
	"grad_norm": 28.049589150374253,
	"learning_rate": 1.6652233610860364e-06,
	"loss": 2.4092,
	"step": 180
	},
	{
	"epoch": 0.6156462585034014,
	"grad_norm": 19.077236893577115,
	"learning_rate": 1.6610167192739978e-06,
	"loss": 2.3235,
	"step": 181
	},
	{
	"epoch": 0.6190476190476191,
	"grad_norm": 23.109888095114325,
	"learning_rate": 1.6567891995322603e-06,
	"loss": 2.2678,
	"step": 182
	},
	{
	"epoch": 0.6224489795918368,
	"grad_norm": 19.456776496200867,
	"learning_rate": 1.6525409353852221e-06,
	"loss": 2.2764,
	"step": 183
	},
	{
	"epoch": 0.6258503401360545,
	"grad_norm": 9.82404206796416,
	"learning_rate": 1.6482720610124856e-06,
	"loss": 1.8034,
	"step": 184
	},
	{
	"epoch": 0.6292517006802721,
	"grad_norm": 24.2061776724548,
	"learning_rate": 1.6439827112446173e-06,
	"loss": 2.161,
	"step": 185
	},
	{
	"epoch": 0.6292517006802721,
	"eval_loss": 2.194326400756836,
	"eval_runtime": 3.7428,
	"eval_samples_per_second": 14.695,
	"eval_steps_per_second": 1.069,
	"step": 185
	},
	{
	"epoch": 0.6326530612244898,
	"grad_norm": 30.469163171671003,
	"learning_rate": 1.6396730215588912e-06,
	"loss": 2.2773,
	"step": 186
	},
	{
	"epoch": 0.6360544217687075,
	"grad_norm": 3.646917584621385,
	"learning_rate": 1.6353431280750082e-06,
	"loss": 1.5989,
	"step": 187
	},
	{
	"epoch": 0.6394557823129252,
	"grad_norm": 30.30266588230692,
	"learning_rate": 1.6309931675507978e-06,
	"loss": 2.6169,
	"step": 188
	},
	{
	"epoch": 0.6428571428571429,
	"grad_norm": 14.371186117614542,
	"learning_rate": 1.6266232773778983e-06,
	"loss": 1.9241,
	"step": 189
	},
	{
	"epoch": 0.6462585034013606,
	"grad_norm": 18.71258411403636,
	"learning_rate": 1.6222335955774176e-06,
	"loss": 2.1737,
	"step": 190
	},
	{
	"epoch": 0.6496598639455783,
	"grad_norm": 3.2723339662931585,
	"learning_rate": 1.617824260795573e-06,
	"loss": 1.8075,
	"step": 191
	},
	{
	"epoch": 0.6530612244897959,
	"grad_norm": 16.496061968286824,
	"learning_rate": 1.6133954122993139e-06,
	"loss": 2.0147,
	"step": 192
	},
	{
	"epoch": 0.6564625850340136,
	"grad_norm": 3.2013079969624805,
	"learning_rate": 1.608947189971921e-06,
	"loss": 1.6798,
	"step": 193
	},
	{
	"epoch": 0.6598639455782312,
	"grad_norm": 20.981814890242124,
	"learning_rate": 1.6044797343085898e-06,
	"loss": 2.0425,
	"step": 194
	},
	{
	"epoch": 0.6632653061224489,
	"grad_norm": 50.879018823375965,
	"learning_rate": 1.599993186411992e-06,
	"loss": 3.8504,
	"step": 195
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 3.283241794235971,
	"learning_rate": 1.59548768798782e-06,
	"loss": 1.4971,
	"step": 196
	},
	{
	"epoch": 0.6700680272108843,
	"grad_norm": 12.706772022061763,
	"learning_rate": 1.5909633813403092e-06,
	"loss": 1.9318,
	"step": 197
	},
	{
	"epoch": 0.673469387755102,
	"grad_norm": 7.747043673117189,
	"learning_rate": 1.5864204093677463e-06,
	"loss": 1.8641,
	"step": 198
	},
	{
	"epoch": 0.6768707482993197,
	"grad_norm": 12.685665761738797,
	"learning_rate": 1.5818589155579529e-06,
	"loss": 2.0781,
	"step": 199
	},
	{
	"epoch": 0.6802721088435374,
	"grad_norm": 8.183695796856302,
	"learning_rate": 1.5772790439837555e-06,
	"loss": 2.1112,
	"step": 200
	},
	{
	"epoch": 0.6836734693877551,
	"grad_norm": 3.6436475976280605,
	"learning_rate": 1.572680939298435e-06,
	"loss": 1.504,
	"step": 201
	},
	{
	"epoch": 0.6870748299319728,
	"grad_norm": 7.765753459491514,
	"learning_rate": 1.5680647467311555e-06,
	"loss": 1.6113,
	"step": 202
	},
	{
	"epoch": 0.6904761904761905,
	"grad_norm": 27.059590789587673,
	"learning_rate": 1.563430612082382e-06,
	"loss": 2.3797,
	"step": 203
	},
	{
	"epoch": 0.6938775510204082,
	"grad_norm": 17.865181616406808,
	"learning_rate": 1.5587786817192687e-06,
	"loss": 2.2287,
	"step": 204
	},
	{
	"epoch": 0.6972789115646258,
	"grad_norm": 11.50437842198177,
	"learning_rate": 1.5541091025710434e-06,
	"loss": 2.2926,
	"step": 205
	},
	{
	"epoch": 0.7006802721088435,
	"grad_norm": 18.03962056520961,
	"learning_rate": 1.5494220221243607e-06,
	"loss": 2.3374,
	"step": 206
	},
	{
	"epoch": 0.7040816326530612,
	"grad_norm": 19.808732477248256,
	"learning_rate": 1.5447175884186478e-06,
	"loss": 2.3215,
	"step": 207
	},
	{
	"epoch": 0.7074829931972789,
	"grad_norm": 21.35228597761302,
	"learning_rate": 1.539995950041426e-06,
	"loss": 2.2378,
	"step": 208
	},
	{
	"epoch": 0.7108843537414966,
	"grad_norm": 14.090932946927257,
	"learning_rate": 1.5352572561236197e-06,
	"loss": 2.22,
	"step": 209
	},
	{
	"epoch": 0.7142857142857143,
	"grad_norm": 22.22875395969964,
	"learning_rate": 1.5305016563348443e-06,
	"loss": 2.44,
	"step": 210
	},
	{
	"epoch": 0.717687074829932,
	"grad_norm": 12.732771656478363,
	"learning_rate": 1.5257293008786807e-06,
	"loss": 2.0598,
	"step": 211
	},
	{
	"epoch": 0.7210884353741497,
	"grad_norm": 3.3024595151809777,
	"learning_rate": 1.5209403404879303e-06,
	"loss": 1.8514,
	"step": 212
	},
	{
	"epoch": 0.7244897959183674,
	"grad_norm": 31.041628605811148,
	"learning_rate": 1.5161349264198535e-06,
	"loss": 2.4225,
	"step": 213
	},
	{
	"epoch": 0.7278911564625851,
	"grad_norm": 11.866017531018645,
	"learning_rate": 1.511313210451394e-06,
	"loss": 1.9747,
	"step": 214
	},
	{
	"epoch": 0.7312925170068028,
	"grad_norm": 23.77867996796224,
	"learning_rate": 1.5064753448743832e-06,
	"loss": 2.0971,
	"step": 215
	},
	{
	"epoch": 0.7346938775510204,
	"grad_norm": 28.640512428374876,
	"learning_rate": 1.5016214824907314e-06,
	"loss": 2.2247,
	"step": 216
	},
	{
	"epoch": 0.7380952380952381,
	"grad_norm": 9.463317499162777,
	"learning_rate": 1.4967517766076015e-06,
	"loss": 1.9511,
	"step": 217
	},
	{
	"epoch": 0.7414965986394558,
	"grad_norm": 3.6132074342008336,
	"learning_rate": 1.4918663810325659e-06,
	"loss": 1.5643,
	"step": 218
	},
	{
	"epoch": 0.7448979591836735,
	"grad_norm": 12.274299577611806,
	"learning_rate": 1.4869654500687492e-06,
	"loss": 2.0865,
	"step": 219
	},
	{
	"epoch": 0.7482993197278912,
	"grad_norm": 9.577269499797044,
	"learning_rate": 1.4820491385099555e-06,
	"loss": 2.1494,
	"step": 220
	},
	{
	"epoch": 0.7517006802721088,
	"grad_norm": 13.665325186622818,
	"learning_rate": 1.477117601635777e-06,
	"loss": 2.0676,
	"step": 221
	},
	{
	"epoch": 0.7551020408163265,
	"grad_norm": 12.044556166373619,
	"learning_rate": 1.4721709952066923e-06,
	"loss": 1.7408,
	"step": 222
	},
	{
	"epoch": 0.7551020408163265,
	"eval_loss": 2.1867611408233643,
	"eval_runtime": 3.7388,
	"eval_samples_per_second": 14.711,
	"eval_steps_per_second": 1.07,
	"step": 222
	},
	{
	"epoch": 0.7585034013605442,
	"grad_norm": 32.0866216128451,
	"learning_rate": 1.4672094754591449e-06,
	"loss": 2.6444,
	"step": 223
	},
	{
	"epoch": 0.7619047619047619,
	"grad_norm": 26.272890838528287,
	"learning_rate": 1.4622331991006082e-06,
	"loss": 2.0286,
	"step": 224
	},
	{
	"epoch": 0.7653061224489796,
	"grad_norm": 10.948966043777636,
	"learning_rate": 1.4572423233046385e-06,
	"loss": 1.8924,
	"step": 225
	},
	{
	"epoch": 0.7687074829931972,
	"grad_norm": 10.041220633719293,
	"learning_rate": 1.4522370057059079e-06,
	"loss": 1.8589,
	"step": 226
	},
	{
	"epoch": 0.7721088435374149,
	"grad_norm": 19.90849856575333,
	"learning_rate": 1.447217404395227e-06,
	"loss": 2.4632,
	"step": 227
	},
	{
	"epoch": 0.7755102040816326,
	"grad_norm": 3.3718807752757134,
	"learning_rate": 1.4421836779145511e-06,
	"loss": 1.7402,
	"step": 228
	},
	{
	"epoch": 0.7789115646258503,
	"grad_norm": 33.99543346002537,
	"learning_rate": 1.4371359852519734e-06,
	"loss": 2.9081,
	"step": 229
	},
	{
	"epoch": 0.782312925170068,
	"grad_norm": 12.446391408704297,
	"learning_rate": 1.4320744858367024e-06,
	"loss": 2.0828,
	"step": 230
	},
	{
	"epoch": 0.7857142857142857,
	"grad_norm": 26.19952152880794,
	"learning_rate": 1.4269993395340277e-06,
	"loss": 2.2178,
	"step": 231
	},
	{
	"epoch": 0.7891156462585034,
	"grad_norm": 36.07799078718175,
	"learning_rate": 1.4219107066402692e-06,
	"loss": 2.6926,
	"step": 232
	},
	{
	"epoch": 0.7925170068027211,
	"grad_norm": 11.216785179837261,
	"learning_rate": 1.4168087478777152e-06,
	"loss": 2.0393,
	"step": 233
	},
	{
	"epoch": 0.7959183673469388,
	"grad_norm": 17.659830496744974,
	"learning_rate": 1.4116936243895466e-06,
	"loss": 2.1082,
	"step": 234
	},
	{
	"epoch": 0.7993197278911565,
	"grad_norm": 17.001892765923902,
	"learning_rate": 1.406565497734745e-06,
	"loss": 1.9051,
	"step": 235
	},
	{
	"epoch": 0.8027210884353742,
	"grad_norm": 31.896056687773818,
	"learning_rate": 1.4014245298829935e-06,
	"loss": 2.702,
	"step": 236
	},
	{
	"epoch": 0.8061224489795918,
	"grad_norm": 6.972810630357569,
	"learning_rate": 1.3962708832095568e-06,
	"loss": 1.9466,
	"step": 237
	},
	{
	"epoch": 0.8095238095238095,
	"grad_norm": 17.689383441039308,
	"learning_rate": 1.3911047204901558e-06,
	"loss": 2.3425,
	"step": 238
	},
	{
	"epoch": 0.8129251700680272,
	"grad_norm": 16.46834046227904,
	"learning_rate": 1.385926204895826e-06,
	"loss": 2.1545,
	"step": 239
	},
	{
	"epoch": 0.8163265306122449,
	"grad_norm": 21.69161139742313,
	"learning_rate": 1.3807354999877614e-06,
	"loss": 2.3222,
	"step": 240
	},
	{
	"epoch": 0.8197278911564626,
	"grad_norm": 3.411794366451801,
	"learning_rate": 1.3755327697121522e-06,
	"loss": 1.6492,
	"step": 241
	},
	{
	"epoch": 0.8231292517006803,
	"grad_norm": 13.113564486849809,
	"learning_rate": 1.3703181783950031e-06,
	"loss": 2.0212,
	"step": 242
	},
	{
	"epoch": 0.826530612244898,
	"grad_norm": 14.798483657902382,
	"learning_rate": 1.3650918907369452e-06,
	"loss": 2.1974,
	"step": 243
	},
	{
	"epoch": 0.8299319727891157,
	"grad_norm": 10.19780084250851,
	"learning_rate": 1.3598540718080345e-06,
	"loss": 1.8543,
	"step": 244
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 30.023251305313995,
	"learning_rate": 1.3546048870425354e-06,
	"loss": 2.2387,
	"step": 245
	},
	{
	"epoch": 0.8367346938775511,
	"grad_norm": 22.321684071392564,
	"learning_rate": 1.3493445022336994e-06,
	"loss": 2.4305,
	"step": 246
	},
	{
	"epoch": 0.8401360544217688,
	"grad_norm": 34.98925650288134,
	"learning_rate": 1.3440730835285247e-06,
	"loss": 2.4364,
	"step": 247
	},
	{
	"epoch": 0.8435374149659864,
	"grad_norm": 3.161092974878791,
	"learning_rate": 1.3387907974225116e-06,
	"loss": 1.4885,
	"step": 248
	},
	{
	"epoch": 0.8469387755102041,
	"grad_norm": 50.11899935337027,
	"learning_rate": 1.3334978107544024e-06,
	"loss": 2.3332,
	"step": 249
	},
	{
	"epoch": 0.8503401360544217,
	"grad_norm": 15.05206270554561,
	"learning_rate": 1.3281942907009112e-06,
	"loss": 2.2131,
	"step": 250
	},
	{
	"epoch": 0.8537414965986394,
	"grad_norm": 24.869549840961,
	"learning_rate": 1.3228804047714462e-06,
	"loss": 2.2264,
	"step": 251
	},
	{
	"epoch": 0.8571428571428571,
	"grad_norm": 16.049594008906414,
	"learning_rate": 1.317556320802816e-06,
	"loss": 1.7228,
	"step": 252
	},
	{
	"epoch": 0.8605442176870748,
	"grad_norm": 14.258214783846427,
	"learning_rate": 1.31222220695393e-06,
	"loss": 1.999,
	"step": 253
	},
	{
	"epoch": 0.8639455782312925,
	"grad_norm": 3.3063413494205474,
	"learning_rate": 1.3068782317004874e-06,
	"loss": 1.4607,
	"step": 254
	},
	{
	"epoch": 0.8673469387755102,
	"grad_norm": 8.831787955552995,
	"learning_rate": 1.3015245638296563e-06,
	"loss": 2.1192,
	"step": 255
	},
	{
	"epoch": 0.8707482993197279,
	"grad_norm": 3.121872417027736,
	"learning_rate": 1.296161372434741e-06,
	"loss": 1.5467,
	"step": 256
	},
	{
	"epoch": 0.8741496598639455,
	"grad_norm": 33.22351218100941,
	"learning_rate": 1.2907888269098416e-06,
	"loss": 2.3588,
	"step": 257
	},
	{
	"epoch": 0.8775510204081632,
	"grad_norm": 3.188560179185641,
	"learning_rate": 1.2854070969445064e-06,
	"loss": 1.5405,
	"step": 258
	},
	{
	"epoch": 0.8809523809523809,
	"grad_norm": 21.318069352021737,
	"learning_rate": 1.2800163525183688e-06,
	"loss": 2.2063,
	"step": 259
	},
	{
	"epoch": 0.8809523809523809,
	"eval_loss": 2.1820290088653564,
	"eval_runtime": 3.8534,
	"eval_samples_per_second": 14.273,
	"eval_steps_per_second": 1.038,
	"step": 259
	},
	{
	"epoch": 0.8843537414965986,
	"grad_norm": 8.243323927611506,
	"learning_rate": 1.2746167638957805e-06,
	"loss": 1.8474,
	"step": 260
	},
	{
	"epoch": 0.8877551020408163,
	"grad_norm": 28.909948439715215,
	"learning_rate": 1.2692085016204333e-06,
	"loss": 2.2626,
	"step": 261
	},
	{
	"epoch": 0.891156462585034,
	"grad_norm": 3.0722449835450116,
	"learning_rate": 1.2637917365099725e-06,
	"loss": 1.6435,
	"step": 262
	},
	{
	"epoch": 0.8945578231292517,
	"grad_norm": 29.871491992872432,
	"learning_rate": 1.2583666396506023e-06,
	"loss": 2.1498,
	"step": 263
	},
	{
	"epoch": 0.8979591836734694,
	"grad_norm": 2.977539901133042,
	"learning_rate": 1.2529333823916806e-06,
	"loss": 1.7024,
	"step": 264
	},
	{
	"epoch": 0.9013605442176871,
	"grad_norm": 16.47476152363902,
	"learning_rate": 1.2474921363403094e-06,
	"loss": 2.532,
	"step": 265
	},
	{
	"epoch": 0.9047619047619048,
	"grad_norm": 13.022051400004793,
	"learning_rate": 1.2420430733559124e-06,
	"loss": 1.8884,
	"step": 266
	},
	{
	"epoch": 0.9081632653061225,
	"grad_norm": 8.97804602434911,
	"learning_rate": 1.2365863655448075e-06,
	"loss": 1.7885,
	"step": 267
	},
	{
	"epoch": 0.9115646258503401,
	"grad_norm": 16.047174726202446,
	"learning_rate": 1.2311221852547721e-06,
	"loss": 2.3363,
	"step": 268
	},
	{
	"epoch": 0.9149659863945578,
	"grad_norm": 3.5763323384852765,
	"learning_rate": 1.2256507050695977e-06,
	"loss": 1.701,
	"step": 269
	},
	{
	"epoch": 0.9183673469387755,
	"grad_norm": 26.929796973835796,
	"learning_rate": 1.220172097803641e-06,
	"loss": 2.3601,
	"step": 270
	},
	{
	"epoch": 0.9217687074829932,
	"grad_norm": 22.50281840057178,
	"learning_rate": 1.2146865364963633e-06,
	"loss": 2.0693,
	"step": 271
	},
	{
	"epoch": 0.9251700680272109,
	"grad_norm": 11.62602578923058,
	"learning_rate": 1.2091941944068665e-06,
	"loss": 1.9123,
	"step": 272
	},
	{
	"epoch": 0.9285714285714286,
	"grad_norm": 16.841220035990798,
	"learning_rate": 1.2036952450084214e-06,
	"loss": 2.2163,
	"step": 273
	},
	{
	"epoch": 0.9319727891156463,
	"grad_norm": 18.055133543008612,
	"learning_rate": 1.1981898619829879e-06,
	"loss": 2.2485,
	"step": 274
	},
	{
	"epoch": 0.935374149659864,
	"grad_norm": 26.45820099458286,
	"learning_rate": 1.1926782192157273e-06,
	"loss": 2.1845,
	"step": 275
	},
	{
	"epoch": 0.9387755102040817,
	"grad_norm": 3.334955291200548,
	"learning_rate": 1.1871604907895148e-06,
	"loss": 1.7059,
	"step": 276
	},
	{
	"epoch": 0.9421768707482994,
	"grad_norm": 19.511242339983163,
	"learning_rate": 1.1816368509794364e-06,
	"loss": 2.3601,
	"step": 277
	},
	{
	"epoch": 0.9455782312925171,
	"grad_norm": 21.146925953072365,
	"learning_rate": 1.1761074742472882e-06,
	"loss": 1.9957,
	"step": 278
	},
	{
	"epoch": 0.9489795918367347,
	"grad_norm": 3.5535024021194452,
	"learning_rate": 1.1705725352360633e-06,
	"loss": 1.9249,
	"step": 279
	},
	{
	"epoch": 0.9523809523809523,
	"grad_norm": 13.348912305071467,
	"learning_rate": 1.165032208764438e-06,
	"loss": 2.0641,
	"step": 280
	},
	{
	"epoch": 0.95578231292517,
	"grad_norm": 12.61033318044152,
	"learning_rate": 1.1594866698212483e-06,
	"loss": 2.169,
	"step": 281
	},
	{
	"epoch": 0.9591836734693877,
	"grad_norm": 28.256325358544956,
	"learning_rate": 1.1539360935599644e-06,
	"loss": 2.0952,
	"step": 282
	},
	{
	"epoch": 0.9625850340136054,
	"grad_norm": 12.61302060729169,
	"learning_rate": 1.1483806552931582e-06,
	"loss": 1.9411,
	"step": 283
	},
	{
	"epoch": 0.9659863945578231,
	"grad_norm": 8.711391665501074,
	"learning_rate": 1.142820530486966e-06,
	"loss": 1.7633,
	"step": 284
	},
	{
	"epoch": 0.9693877551020408,
	"grad_norm": 35.95958496013491,
	"learning_rate": 1.1372558947555455e-06,
	"loss": 2.1904,
	"step": 285
	},
	{
	"epoch": 0.9727891156462585,
	"grad_norm": 3.429092657849847,
	"learning_rate": 1.131686923855531e-06,
	"loss": 1.8276,
	"step": 286
	},
	{
	"epoch": 0.9761904761904762,
	"grad_norm": 12.871658288368948,
	"learning_rate": 1.1261137936804811e-06,
	"loss": 2.0911,
	"step": 287
	},
	{
	"epoch": 0.9795918367346939,
	"grad_norm": 13.217001333800638,
	"learning_rate": 1.1205366802553228e-06,
	"loss": 1.9614,
	"step": 288
	},
	{
	"epoch": 0.9829931972789115,
	"grad_norm": 24.712172909538513,
	"learning_rate": 1.1149557597307934e-06,
	"loss": 2.0412,
	"step": 289
	},
	{
	"epoch": 0.9863945578231292,
	"grad_norm": 10.412944718560512,
	"learning_rate": 1.1093712083778746e-06,
	"loss": 1.7787,
	"step": 290
	},
	{
	"epoch": 0.9897959183673469,
	"grad_norm": 15.631851389191027,
	"learning_rate": 1.1037832025822265e-06,
	"loss": 2.3362,
	"step": 291
	},
	{
	"epoch": 0.9931972789115646,
	"grad_norm": 12.135256117907334,
	"learning_rate": 1.098191918838617e-06,
	"loss": 2.0212,
	"step": 292
	},
	{
	"epoch": 0.9965986394557823,
	"grad_norm": 13.057522322919077,
	"learning_rate": 1.0925975337453462e-06,
	"loss": 2.2842,
	"step": 293
	},
	{
	"epoch": 1.0,
	"grad_norm": 17.565324685523922,
	"learning_rate": 1.0870002239986686e-06,
	"loss": 2.5002,
	"step": 294
	}
	],
	"logging_steps": 1,
	"max_steps": 588,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 294,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 95887829237760.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}