Training in progress, epoch 0, checkpoint

646d30e verified about 2 months ago

85.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.6510416666666666,
	"eval_steps": 500,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0013020833333333333,
	"grad_norm": 0.6808765530586243,
	"learning_rate": 2.02e-06,
	"loss": 1.5302,
	"step": 1
	},
	{
	"epoch": 0.0026041666666666665,
	"grad_norm": 0.7672109007835388,
	"learning_rate": 4.04e-06,
	"loss": 1.5499,
	"step": 2
	},
	{
	"epoch": 0.00390625,
	"grad_norm": 0.7675047516822815,
	"learning_rate": 6.06e-06,
	"loss": 1.6097,
	"step": 3
	},
	{
	"epoch": 0.005208333333333333,
	"grad_norm": 0.6575904488563538,
	"learning_rate": 8.08e-06,
	"loss": 1.5117,
	"step": 4
	},
	{
	"epoch": 0.006510416666666667,
	"grad_norm": 0.7006857991218567,
	"learning_rate": 1.0100000000000002e-05,
	"loss": 1.618,
	"step": 5
	},
	{
	"epoch": 0.0078125,
	"grad_norm": 0.8015255928039551,
	"learning_rate": 1.212e-05,
	"loss": 1.538,
	"step": 6
	},
	{
	"epoch": 0.009114583333333334,
	"grad_norm": 0.7574004530906677,
	"learning_rate": 1.4140000000000002e-05,
	"loss": 1.5707,
	"step": 7
	},
	{
	"epoch": 0.010416666666666666,
	"grad_norm": 0.7140095233917236,
	"learning_rate": 1.616e-05,
	"loss": 1.4702,
	"step": 8
	},
	{
	"epoch": 0.01171875,
	"grad_norm": 0.770279049873352,
	"learning_rate": 1.818e-05,
	"loss": 1.5559,
	"step": 9
	},
	{
	"epoch": 0.013020833333333334,
	"grad_norm": 0.7535017728805542,
	"learning_rate": 2.0200000000000003e-05,
	"loss": 1.5051,
	"step": 10
	},
	{
	"epoch": 0.014322916666666666,
	"grad_norm": 0.7053647041320801,
	"learning_rate": 2.222e-05,
	"loss": 1.4195,
	"step": 11
	},
	{
	"epoch": 0.015625,
	"grad_norm": 0.8053725361824036,
	"learning_rate": 2.424e-05,
	"loss": 1.4431,
	"step": 12
	},
	{
	"epoch": 0.016927083333333332,
	"grad_norm": 0.7332000136375427,
	"learning_rate": 2.6260000000000003e-05,
	"loss": 1.3888,
	"step": 13
	},
	{
	"epoch": 0.018229166666666668,
	"grad_norm": 0.7415592670440674,
	"learning_rate": 2.8280000000000004e-05,
	"loss": 1.3524,
	"step": 14
	},
	{
	"epoch": 0.01953125,
	"grad_norm": 0.8849363327026367,
	"learning_rate": 3.0299999999999998e-05,
	"loss": 1.4205,
	"step": 15
	},
	{
	"epoch": 0.020833333333333332,
	"grad_norm": 0.8366559147834778,
	"learning_rate": 3.232e-05,
	"loss": 1.3502,
	"step": 16
	},
	{
	"epoch": 0.022135416666666668,
	"grad_norm": 0.8472776412963867,
	"learning_rate": 3.434e-05,
	"loss": 1.3127,
	"step": 17
	},
	{
	"epoch": 0.0234375,
	"grad_norm": 0.9324319958686829,
	"learning_rate": 3.636e-05,
	"loss": 1.3929,
	"step": 18
	},
	{
	"epoch": 0.024739583333333332,
	"grad_norm": 0.7191261649131775,
	"learning_rate": 3.838e-05,
	"loss": 1.2803,
	"step": 19
	},
	{
	"epoch": 0.026041666666666668,
	"grad_norm": 0.9117175936698914,
	"learning_rate": 4.0400000000000006e-05,
	"loss": 1.2158,
	"step": 20
	},
	{
	"epoch": 0.02734375,
	"grad_norm": 0.7863415479660034,
	"learning_rate": 4.242e-05,
	"loss": 1.273,
	"step": 21
	},
	{
	"epoch": 0.028645833333333332,
	"grad_norm": 0.7084434032440186,
	"learning_rate": 4.444e-05,
	"loss": 1.2066,
	"step": 22
	},
	{
	"epoch": 0.029947916666666668,
	"grad_norm": 0.695151686668396,
	"learning_rate": 4.6460000000000006e-05,
	"loss": 1.1198,
	"step": 23
	},
	{
	"epoch": 0.03125,
	"grad_norm": 0.49544116854667664,
	"learning_rate": 4.848e-05,
	"loss": 1.1062,
	"step": 24
	},
	{
	"epoch": 0.032552083333333336,
	"grad_norm": 0.47292080521583557,
	"learning_rate": 5.05e-05,
	"loss": 1.0123,
	"step": 25
	},
	{
	"epoch": 0.033854166666666664,
	"grad_norm": 0.5713898539543152,
	"learning_rate": 5.2520000000000005e-05,
	"loss": 1.057,
	"step": 26
	},
	{
	"epoch": 0.03515625,
	"grad_norm": 0.6084786653518677,
	"learning_rate": 5.454e-05,
	"loss": 1.0196,
	"step": 27
	},
	{
	"epoch": 0.036458333333333336,
	"grad_norm": 0.6218786239624023,
	"learning_rate": 5.656000000000001e-05,
	"loss": 1.0767,
	"step": 28
	},
	{
	"epoch": 0.037760416666666664,
	"grad_norm": 0.6100573539733887,
	"learning_rate": 5.858e-05,
	"loss": 1.0825,
	"step": 29
	},
	{
	"epoch": 0.0390625,
	"grad_norm": 0.5810414552688599,
	"learning_rate": 6.0599999999999996e-05,
	"loss": 1.0459,
	"step": 30
	},
	{
	"epoch": 0.040364583333333336,
	"grad_norm": 0.48789265751838684,
	"learning_rate": 6.262000000000001e-05,
	"loss": 0.9882,
	"step": 31
	},
	{
	"epoch": 0.041666666666666664,
	"grad_norm": 0.46344229578971863,
	"learning_rate": 6.464e-05,
	"loss": 1.0365,
	"step": 32
	},
	{
	"epoch": 0.04296875,
	"grad_norm": 0.5264561772346497,
	"learning_rate": 6.666e-05,
	"loss": 1.0536,
	"step": 33
	},
	{
	"epoch": 0.044270833333333336,
	"grad_norm": 0.5107188820838928,
	"learning_rate": 6.868e-05,
	"loss": 1.072,
	"step": 34
	},
	{
	"epoch": 0.045572916666666664,
	"grad_norm": 0.49732786417007446,
	"learning_rate": 7.07e-05,
	"loss": 1.0793,
	"step": 35
	},
	{
	"epoch": 0.046875,
	"grad_norm": 0.4549235999584198,
	"learning_rate": 7.272e-05,
	"loss": 0.9733,
	"step": 36
	},
	{
	"epoch": 0.048177083333333336,
	"grad_norm": 0.4460265636444092,
	"learning_rate": 7.474e-05,
	"loss": 1.0077,
	"step": 37
	},
	{
	"epoch": 0.049479166666666664,
	"grad_norm": 0.47252264618873596,
	"learning_rate": 7.676e-05,
	"loss": 1.0423,
	"step": 38
	},
	{
	"epoch": 0.05078125,
	"grad_norm": 0.3926396071910858,
	"learning_rate": 7.878e-05,
	"loss": 0.9915,
	"step": 39
	},
	{
	"epoch": 0.052083333333333336,
	"grad_norm": 0.4565116763114929,
	"learning_rate": 8.080000000000001e-05,
	"loss": 1.0371,
	"step": 40
	},
	{
	"epoch": 0.053385416666666664,
	"grad_norm": 0.36098912358283997,
	"learning_rate": 8.282e-05,
	"loss": 0.9437,
	"step": 41
	},
	{
	"epoch": 0.0546875,
	"grad_norm": 0.3953251242637634,
	"learning_rate": 8.484e-05,
	"loss": 0.9441,
	"step": 42
	},
	{
	"epoch": 0.055989583333333336,
	"grad_norm": 0.4209212064743042,
	"learning_rate": 8.686e-05,
	"loss": 1.0181,
	"step": 43
	},
	{
	"epoch": 0.057291666666666664,
	"grad_norm": 0.3656007647514343,
	"learning_rate": 8.888e-05,
	"loss": 1.0204,
	"step": 44
	},
	{
	"epoch": 0.05859375,
	"grad_norm": 0.4179205894470215,
	"learning_rate": 9.09e-05,
	"loss": 0.9894,
	"step": 45
	},
	{
	"epoch": 0.059895833333333336,
	"grad_norm": 0.4047180116176605,
	"learning_rate": 9.292000000000001e-05,
	"loss": 0.9743,
	"step": 46
	},
	{
	"epoch": 0.061197916666666664,
	"grad_norm": 0.36672013998031616,
	"learning_rate": 9.494e-05,
	"loss": 0.9355,
	"step": 47
	},
	{
	"epoch": 0.0625,
	"grad_norm": 0.4091084599494934,
	"learning_rate": 9.696e-05,
	"loss": 1.0145,
	"step": 48
	},
	{
	"epoch": 0.06380208333333333,
	"grad_norm": 0.4033145606517792,
	"learning_rate": 9.898e-05,
	"loss": 0.8795,
	"step": 49
	},
	{
	"epoch": 0.06510416666666667,
	"grad_norm": 0.4093867838382721,
	"learning_rate": 0.000101,
	"loss": 0.9118,
	"step": 50
	},
	{
	"epoch": 0.06640625,
	"grad_norm": 0.4064587354660034,
	"learning_rate": 0.00010302,
	"loss": 0.9846,
	"step": 51
	},
	{
	"epoch": 0.06770833333333333,
	"grad_norm": 0.4279826283454895,
	"learning_rate": 0.00010504000000000001,
	"loss": 0.9459,
	"step": 52
	},
	{
	"epoch": 0.06901041666666667,
	"grad_norm": 0.3995688855648041,
	"learning_rate": 0.00010706000000000001,
	"loss": 0.8842,
	"step": 53
	},
	{
	"epoch": 0.0703125,
	"grad_norm": 0.37477144598960876,
	"learning_rate": 0.00010908,
	"loss": 0.9676,
	"step": 54
	},
	{
	"epoch": 0.07161458333333333,
	"grad_norm": 0.4394771456718445,
	"learning_rate": 0.00011110000000000002,
	"loss": 1.0441,
	"step": 55
	},
	{
	"epoch": 0.07291666666666667,
	"grad_norm": 0.5129756331443787,
	"learning_rate": 0.00011312000000000001,
	"loss": 0.9511,
	"step": 56
	},
	{
	"epoch": 0.07421875,
	"grad_norm": 0.3840573728084564,
	"learning_rate": 0.00011514,
	"loss": 0.9381,
	"step": 57
	},
	{
	"epoch": 0.07552083333333333,
	"grad_norm": 0.3669443726539612,
	"learning_rate": 0.00011716,
	"loss": 0.9452,
	"step": 58
	},
	{
	"epoch": 0.07682291666666667,
	"grad_norm": 0.4047168791294098,
	"learning_rate": 0.00011918,
	"loss": 0.9662,
	"step": 59
	},
	{
	"epoch": 0.078125,
	"grad_norm": 0.43623411655426025,
	"learning_rate": 0.00012119999999999999,
	"loss": 0.9399,
	"step": 60
	},
	{
	"epoch": 0.07942708333333333,
	"grad_norm": 0.45791196823120117,
	"learning_rate": 0.00012322,
	"loss": 0.9579,
	"step": 61
	},
	{
	"epoch": 0.08072916666666667,
	"grad_norm": 0.3631390929222107,
	"learning_rate": 0.00012524000000000001,
	"loss": 0.9537,
	"step": 62
	},
	{
	"epoch": 0.08203125,
	"grad_norm": 0.44578367471694946,
	"learning_rate": 0.00012726,
	"loss": 0.969,
	"step": 63
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 0.3980722427368164,
	"learning_rate": 0.00012928,
	"loss": 0.9296,
	"step": 64
	},
	{
	"epoch": 0.08463541666666667,
	"grad_norm": 0.415637731552124,
	"learning_rate": 0.00013130000000000002,
	"loss": 0.871,
	"step": 65
	},
	{
	"epoch": 0.0859375,
	"grad_norm": 0.4139644503593445,
	"learning_rate": 0.00013332,
	"loss": 0.9521,
	"step": 66
	},
	{
	"epoch": 0.08723958333333333,
	"grad_norm": 0.38350746035575867,
	"learning_rate": 0.00013534000000000002,
	"loss": 0.8741,
	"step": 67
	},
	{
	"epoch": 0.08854166666666667,
	"grad_norm": 0.3766394555568695,
	"learning_rate": 0.00013736,
	"loss": 0.9806,
	"step": 68
	},
	{
	"epoch": 0.08984375,
	"grad_norm": 0.3952779769897461,
	"learning_rate": 0.00013937999999999998,
	"loss": 0.9444,
	"step": 69
	},
	{
	"epoch": 0.09114583333333333,
	"grad_norm": 0.3924815058708191,
	"learning_rate": 0.0001414,
	"loss": 0.9173,
	"step": 70
	},
	{
	"epoch": 0.09244791666666667,
	"grad_norm": 0.37496528029441833,
	"learning_rate": 0.00014342,
	"loss": 0.884,
	"step": 71
	},
	{
	"epoch": 0.09375,
	"grad_norm": 0.3437505066394806,
	"learning_rate": 0.00014544,
	"loss": 0.8915,
	"step": 72
	},
	{
	"epoch": 0.09505208333333333,
	"grad_norm": 0.4203055202960968,
	"learning_rate": 0.00014746,
	"loss": 0.8764,
	"step": 73
	},
	{
	"epoch": 0.09635416666666667,
	"grad_norm": 0.37117621302604675,
	"learning_rate": 0.00014948,
	"loss": 0.9337,
	"step": 74
	},
	{
	"epoch": 0.09765625,
	"grad_norm": 0.3810153305530548,
	"learning_rate": 0.0001515,
	"loss": 0.8872,
	"step": 75
	},
	{
	"epoch": 0.09895833333333333,
	"grad_norm": 0.3892213702201843,
	"learning_rate": 0.00015352,
	"loss": 0.8906,
	"step": 76
	},
	{
	"epoch": 0.10026041666666667,
	"grad_norm": 0.37222960591316223,
	"learning_rate": 0.00015554000000000002,
	"loss": 0.8289,
	"step": 77
	},
	{
	"epoch": 0.1015625,
	"grad_norm": 0.37449032068252563,
	"learning_rate": 0.00015756,
	"loss": 0.9172,
	"step": 78
	},
	{
	"epoch": 0.10286458333333333,
	"grad_norm": 0.4078482687473297,
	"learning_rate": 0.00015958000000000001,
	"loss": 0.8892,
	"step": 79
	},
	{
	"epoch": 0.10416666666666667,
	"grad_norm": 0.3846503794193268,
	"learning_rate": 0.00016160000000000002,
	"loss": 0.8464,
	"step": 80
	},
	{
	"epoch": 0.10546875,
	"grad_norm": 0.39846357703208923,
	"learning_rate": 0.00016362,
	"loss": 0.9439,
	"step": 81
	},
	{
	"epoch": 0.10677083333333333,
	"grad_norm": 0.3736095726490021,
	"learning_rate": 0.00016564,
	"loss": 0.9479,
	"step": 82
	},
	{
	"epoch": 0.10807291666666667,
	"grad_norm": 0.38269343972206116,
	"learning_rate": 0.00016766,
	"loss": 0.8499,
	"step": 83
	},
	{
	"epoch": 0.109375,
	"grad_norm": 0.4197899103164673,
	"learning_rate": 0.00016968,
	"loss": 0.9199,
	"step": 84
	},
	{
	"epoch": 0.11067708333333333,
	"grad_norm": 0.3637363016605377,
	"learning_rate": 0.0001717,
	"loss": 0.8569,
	"step": 85
	},
	{
	"epoch": 0.11197916666666667,
	"grad_norm": 0.36869698762893677,
	"learning_rate": 0.00017372,
	"loss": 0.9584,
	"step": 86
	},
	{
	"epoch": 0.11328125,
	"grad_norm": 0.35092616081237793,
	"learning_rate": 0.00017574,
	"loss": 0.9374,
	"step": 87
	},
	{
	"epoch": 0.11458333333333333,
	"grad_norm": 0.39582520723342896,
	"learning_rate": 0.00017776,
	"loss": 0.9239,
	"step": 88
	},
	{
	"epoch": 0.11588541666666667,
	"grad_norm": 0.3559093773365021,
	"learning_rate": 0.00017978000000000002,
	"loss": 0.8901,
	"step": 89
	},
	{
	"epoch": 0.1171875,
	"grad_norm": 0.3778141140937805,
	"learning_rate": 0.0001818,
	"loss": 0.8903,
	"step": 90
	},
	{
	"epoch": 0.11848958333333333,
	"grad_norm": 0.36067256331443787,
	"learning_rate": 0.00018382,
	"loss": 0.8905,
	"step": 91
	},
	{
	"epoch": 0.11979166666666667,
	"grad_norm": 0.36430442333221436,
	"learning_rate": 0.00018584000000000002,
	"loss": 0.8941,
	"step": 92
	},
	{
	"epoch": 0.12109375,
	"grad_norm": 0.40255868434906006,
	"learning_rate": 0.00018786,
	"loss": 0.9192,
	"step": 93
	},
	{
	"epoch": 0.12239583333333333,
	"grad_norm": 0.38338273763656616,
	"learning_rate": 0.00018988,
	"loss": 0.8976,
	"step": 94
	},
	{
	"epoch": 0.12369791666666667,
	"grad_norm": 0.3768159747123718,
	"learning_rate": 0.0001919,
	"loss": 0.9337,
	"step": 95
	},
	{
	"epoch": 0.125,
	"grad_norm": 0.3879520297050476,
	"learning_rate": 0.00019392,
	"loss": 0.8761,
	"step": 96
	},
	{
	"epoch": 0.12630208333333334,
	"grad_norm": 0.3825957477092743,
	"learning_rate": 0.00019594,
	"loss": 0.9051,
	"step": 97
	},
	{
	"epoch": 0.12760416666666666,
	"grad_norm": 0.3993157148361206,
	"learning_rate": 0.00019796,
	"loss": 0.8613,
	"step": 98
	},
	{
	"epoch": 0.12890625,
	"grad_norm": 0.3906169831752777,
	"learning_rate": 0.00019998,
	"loss": 0.9948,
	"step": 99
	},
	{
	"epoch": 0.13020833333333334,
	"grad_norm": 0.38024818897247314,
	"learning_rate": 0.000202,
	"loss": 0.981,
	"step": 100
	},
	{
	"epoch": 0.13151041666666666,
	"grad_norm": 0.3382592499256134,
	"learning_rate": 0.00020199688492212377,
	"loss": 0.8662,
	"step": 101
	},
	{
	"epoch": 0.1328125,
	"grad_norm": 0.42753666639328003,
	"learning_rate": 0.00020198753988064772,
	"loss": 0.858,
	"step": 102
	},
	{
	"epoch": 0.13411458333333334,
	"grad_norm": 0.36199378967285156,
	"learning_rate": 0.00020197196545201806,
	"loss": 0.863,
	"step": 103
	},
	{
	"epoch": 0.13541666666666666,
	"grad_norm": 0.30593058466911316,
	"learning_rate": 0.0002019501625969389,
	"loss": 0.9211,
	"step": 104
	},
	{
	"epoch": 0.13671875,
	"grad_norm": 0.40363338589668274,
	"learning_rate": 0.00020192213266031304,
	"loss": 0.9512,
	"step": 105
	},
	{
	"epoch": 0.13802083333333334,
	"grad_norm": 0.34124210476875305,
	"learning_rate": 0.00020188787737115897,
	"loss": 0.8821,
	"step": 106
	},
	{
	"epoch": 0.13932291666666666,
	"grad_norm": 0.324048787355423,
	"learning_rate": 0.00020184739884250436,
	"loss": 0.9053,
	"step": 107
	},
	{
	"epoch": 0.140625,
	"grad_norm": 0.32893842458724976,
	"learning_rate": 0.00020180069957125544,
	"loss": 0.8581,
	"step": 108
	},
	{
	"epoch": 0.14192708333333334,
	"grad_norm": 0.3708108067512512,
	"learning_rate": 0.0002017477824380433,
	"loss": 0.908,
	"step": 109
	},
	{
	"epoch": 0.14322916666666666,
	"grad_norm": 0.3627496361732483,
	"learning_rate": 0.00020168865070704594,
	"loss": 0.8493,
	"step": 110
	},
	{
	"epoch": 0.14453125,
	"grad_norm": 0.38643914461135864,
	"learning_rate": 0.00020162330802578706,
	"loss": 0.9305,
	"step": 111
	},
	{
	"epoch": 0.14583333333333334,
	"grad_norm": 0.3313356041908264,
	"learning_rate": 0.00020155175842491107,
	"loss": 0.9209,
	"step": 112
	},
	{
	"epoch": 0.14713541666666666,
	"grad_norm": 0.36708641052246094,
	"learning_rate": 0.0002014740063179344,
	"loss": 0.908,
	"step": 113
	},
	{
	"epoch": 0.1484375,
	"grad_norm": 0.3595336973667145,
	"learning_rate": 0.00020139005650097317,
	"loss": 0.8212,
	"step": 114
	},
	{
	"epoch": 0.14973958333333334,
	"grad_norm": 0.43490394949913025,
	"learning_rate": 0.00020129991415244756,
	"loss": 0.8863,
	"step": 115
	},
	{
	"epoch": 0.15104166666666666,
	"grad_norm": 0.35051169991493225,
	"learning_rate": 0.00020120358483276227,
	"loss": 0.9196,
	"step": 116
	},
	{
	"epoch": 0.15234375,
	"grad_norm": 0.36855900287628174,
	"learning_rate": 0.00020110107448396346,
	"loss": 0.8889,
	"step": 117
	},
	{
	"epoch": 0.15364583333333334,
	"grad_norm": 0.32522818446159363,
	"learning_rate": 0.0002009923894293723,
	"loss": 0.9072,
	"step": 118
	},
	{
	"epoch": 0.15494791666666666,
	"grad_norm": 0.3217287063598633,
	"learning_rate": 0.00020087753637319499,
	"loss": 0.8859,
	"step": 119
	},
	{
	"epoch": 0.15625,
	"grad_norm": 0.4293065667152405,
	"learning_rate": 0.00020075652240010892,
	"loss": 0.8551,
	"step": 120
	},
	{
	"epoch": 0.15755208333333334,
	"grad_norm": 0.3320338726043701,
	"learning_rate": 0.00020062935497482606,
	"loss": 0.9491,
	"step": 121
	},
	{
	"epoch": 0.15885416666666666,
	"grad_norm": 0.3622731864452362,
	"learning_rate": 0.00020049604194163217,
	"loss": 0.9246,
	"step": 122
	},
	{
	"epoch": 0.16015625,
	"grad_norm": 0.33044755458831787,
	"learning_rate": 0.00020035659152390313,
	"loss": 0.8979,
	"step": 123
	},
	{
	"epoch": 0.16145833333333334,
	"grad_norm": 0.3863113522529602,
	"learning_rate": 0.00020021101232359757,
	"loss": 0.8701,
	"step": 124
	},
	{
	"epoch": 0.16276041666666666,
	"grad_norm": 0.39442121982574463,
	"learning_rate": 0.0002000593133207263,
	"loss": 0.8516,
	"step": 125
	},
	{
	"epoch": 0.1640625,
	"grad_norm": 0.3625333309173584,
	"learning_rate": 0.00019990150387279835,
	"loss": 0.887,
	"step": 126
	},
	{
	"epoch": 0.16536458333333334,
	"grad_norm": 0.3347029983997345,
	"learning_rate": 0.00019973759371424388,
	"loss": 0.9712,
	"step": 127
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 0.34266117215156555,
	"learning_rate": 0.0001995675929558135,
	"loss": 0.9359,
	"step": 128
	},
	{
	"epoch": 0.16796875,
	"grad_norm": 0.34118279814720154,
	"learning_rate": 0.0001993915120839548,
	"loss": 0.9324,
	"step": 129
	},
	{
	"epoch": 0.16927083333333334,
	"grad_norm": 0.3674456477165222,
	"learning_rate": 0.00019920936196016534,
	"loss": 0.8567,
	"step": 130
	},
	{
	"epoch": 0.17057291666666666,
	"grad_norm": 0.3397194445133209,
	"learning_rate": 0.0001990211538203228,
	"loss": 0.9137,
	"step": 131
	},
	{
	"epoch": 0.171875,
	"grad_norm": 0.32985278964042664,
	"learning_rate": 0.00019882689927399174,
	"loss": 0.9193,
	"step": 132
	},
	{
	"epoch": 0.17317708333333334,
	"grad_norm": 0.3857951760292053,
	"learning_rate": 0.00019862661030370764,
	"loss": 0.896,
	"step": 133
	},
	{
	"epoch": 0.17447916666666666,
	"grad_norm": 0.3355730175971985,
	"learning_rate": 0.00019842029926423762,
	"loss": 0.9673,
	"step": 134
	},
	{
	"epoch": 0.17578125,
	"grad_norm": 0.3015749156475067,
	"learning_rate": 0.00019820797888181837,
	"loss": 0.9244,
	"step": 135
	},
	{
	"epoch": 0.17708333333333334,
	"grad_norm": 0.3197927474975586,
	"learning_rate": 0.00019798966225337126,
	"loss": 0.9298,
	"step": 136
	},
	{
	"epoch": 0.17838541666666666,
	"grad_norm": 0.31796562671661377,
	"learning_rate": 0.00019776536284569425,
	"loss": 0.9274,
	"step": 137
	},
	{
	"epoch": 0.1796875,
	"grad_norm": 0.37680956721305847,
	"learning_rate": 0.00019753509449463134,
	"loss": 0.8858,
	"step": 138
	},
	{
	"epoch": 0.18098958333333334,
	"grad_norm": 0.33456477522850037,
	"learning_rate": 0.00019729887140421912,
	"loss": 0.8654,
	"step": 139
	},
	{
	"epoch": 0.18229166666666666,
	"grad_norm": 0.3346468508243561,
	"learning_rate": 0.00019705670814581052,
	"loss": 0.7735,
	"step": 140
	},
	{
	"epoch": 0.18359375,
	"grad_norm": 0.33176180720329285,
	"learning_rate": 0.00019680861965717597,
	"loss": 0.938,
	"step": 141
	},
	{
	"epoch": 0.18489583333333334,
	"grad_norm": 0.36904606223106384,
	"learning_rate": 0.0001965546212415821,
	"loss": 0.9044,
	"step": 142
	},
	{
	"epoch": 0.18619791666666666,
	"grad_norm": 0.37553444504737854,
	"learning_rate": 0.00019629472856684755,
	"loss": 0.8976,
	"step": 143
	},
	{
	"epoch": 0.1875,
	"grad_norm": 0.30502942204475403,
	"learning_rate": 0.00019602895766437678,
	"loss": 0.8745,
	"step": 144
	},
	{
	"epoch": 0.18880208333333334,
	"grad_norm": 0.39606553316116333,
	"learning_rate": 0.00019575732492817092,
	"loss": 0.8426,
	"step": 145
	},
	{
	"epoch": 0.19010416666666666,
	"grad_norm": 0.3282630741596222,
	"learning_rate": 0.00019547984711381662,
	"loss": 0.8231,
	"step": 146
	},
	{
	"epoch": 0.19140625,
	"grad_norm": 0.3370037376880646,
	"learning_rate": 0.0001951965413374525,
	"loss": 0.7844,
	"step": 147
	},
	{
	"epoch": 0.19270833333333334,
	"grad_norm": 0.30234625935554504,
	"learning_rate": 0.00019490742507471338,
	"loss": 0.8674,
	"step": 148
	},
	{
	"epoch": 0.19401041666666666,
	"grad_norm": 0.34176871180534363,
	"learning_rate": 0.0001946125161596522,
	"loss": 0.9853,
	"step": 149
	},
	{
	"epoch": 0.1953125,
	"grad_norm": 0.322853684425354,
	"learning_rate": 0.00019431183278363997,
	"loss": 0.9021,
	"step": 150
	},
	{
	"epoch": 0.19661458333333334,
	"grad_norm": 0.32170554995536804,
	"learning_rate": 0.00019400539349424367,
	"loss": 0.8872,
	"step": 151
	},
	{
	"epoch": 0.19791666666666666,
	"grad_norm": 0.3576914072036743,
	"learning_rate": 0.0001936932171940821,
	"loss": 0.9812,
	"step": 152
	},
	{
	"epoch": 0.19921875,
	"grad_norm": 0.3470019996166229,
	"learning_rate": 0.00019337532313966,
	"loss": 0.9353,
	"step": 153
	},
	{
	"epoch": 0.20052083333333334,
	"grad_norm": 0.2939004600048065,
	"learning_rate": 0.00019305173094017996,
	"loss": 0.8564,
	"step": 154
	},
	{
	"epoch": 0.20182291666666666,
	"grad_norm": 0.353512167930603,
	"learning_rate": 0.0001927224605563332,
	"loss": 0.8534,
	"step": 155
	},
	{
	"epoch": 0.203125,
	"grad_norm": 0.330636203289032,
	"learning_rate": 0.00019238753229906797,
	"loss": 0.8046,
	"step": 156
	},
	{
	"epoch": 0.20442708333333334,
	"grad_norm": 0.2957157492637634,
	"learning_rate": 0.00019204696682833682,
	"loss": 0.8823,
	"step": 157
	},
	{
	"epoch": 0.20572916666666666,
	"grad_norm": 0.3297777473926544,
	"learning_rate": 0.00019170078515182216,
	"loss": 0.8739,
	"step": 158
	},
	{
	"epoch": 0.20703125,
	"grad_norm": 0.37313520908355713,
	"learning_rate": 0.00019134900862364054,
	"loss": 0.7445,
	"step": 159
	},
	{
	"epoch": 0.20833333333333334,
	"grad_norm": 0.3856740891933441,
	"learning_rate": 0.00019099165894302515,
	"loss": 0.9027,
	"step": 160
	},
	{
	"epoch": 0.20963541666666666,
	"grad_norm": 0.3400990664958954,
	"learning_rate": 0.00019062875815298763,
	"loss": 0.8591,
	"step": 161
	},
	{
	"epoch": 0.2109375,
	"grad_norm": 0.33788663148880005,
	"learning_rate": 0.00019026032863895805,
	"loss": 0.8587,
	"step": 162
	},
	{
	"epoch": 0.21223958333333334,
	"grad_norm": 0.31548887491226196,
	"learning_rate": 0.00018988639312740433,
	"loss": 0.8769,
	"step": 163
	},
	{
	"epoch": 0.21354166666666666,
	"grad_norm": 0.319621205329895,
	"learning_rate": 0.0001895069746844302,
	"loss": 0.8355,
	"step": 164
	},
	{
	"epoch": 0.21484375,
	"grad_norm": 0.32653823494911194,
	"learning_rate": 0.00018912209671435252,
	"loss": 0.9207,
	"step": 165
	},
	{
	"epoch": 0.21614583333333334,
	"grad_norm": 0.3283182978630066,
	"learning_rate": 0.00018873178295825732,
	"loss": 0.8737,
	"step": 166
	},
	{
	"epoch": 0.21744791666666666,
	"grad_norm": 0.32019880414009094,
	"learning_rate": 0.00018833605749253566,
	"loss": 0.9572,
	"step": 167
	},
	{
	"epoch": 0.21875,
	"grad_norm": 0.34993138909339905,
	"learning_rate": 0.00018793494472739831,
	"loss": 0.849,
	"step": 168
	},
	{
	"epoch": 0.22005208333333334,
	"grad_norm": 0.33055248856544495,
	"learning_rate": 0.00018752846940537003,
	"loss": 0.8668,
	"step": 169
	},
	{
	"epoch": 0.22135416666666666,
	"grad_norm": 0.31973016262054443,
	"learning_rate": 0.0001871166565997633,
	"loss": 0.8875,
	"step": 170
	},
	{
	"epoch": 0.22265625,
	"grad_norm": 0.3294101357460022,
	"learning_rate": 0.00018669953171313188,
	"loss": 0.9007,
	"step": 171
	},
	{
	"epoch": 0.22395833333333334,
	"grad_norm": 0.30089470744132996,
	"learning_rate": 0.00018627712047570352,
	"loss": 0.9276,
	"step": 172
	},
	{
	"epoch": 0.22526041666666666,
	"grad_norm": 0.3125169575214386,
	"learning_rate": 0.0001858494489437931,
	"loss": 0.8886,
	"step": 173
	},
	{
	"epoch": 0.2265625,
	"grad_norm": 0.34174057841300964,
	"learning_rate": 0.0001854165434981953,
	"loss": 0.8538,
	"step": 174
	},
	{
	"epoch": 0.22786458333333334,
	"grad_norm": 0.31229665875434875,
	"learning_rate": 0.00018497843084255708,
	"loss": 0.8942,
	"step": 175
	},
	{
	"epoch": 0.22916666666666666,
	"grad_norm": 0.35159239172935486,
	"learning_rate": 0.00018453513800173072,
	"loss": 0.8556,
	"step": 176
	},
	{
	"epoch": 0.23046875,
	"grad_norm": 0.3651125431060791,
	"learning_rate": 0.00018408669232010684,
	"loss": 0.8867,
	"step": 177
	},
	{
	"epoch": 0.23177083333333334,
	"grad_norm": 0.34238573908805847,
	"learning_rate": 0.00018363312145992737,
	"loss": 0.8788,
	"step": 178
	},
	{
	"epoch": 0.23307291666666666,
	"grad_norm": 0.3748724162578583,
	"learning_rate": 0.0001831744533995795,
	"loss": 0.8432,
	"step": 179
	},
	{
	"epoch": 0.234375,
	"grad_norm": 0.34040236473083496,
	"learning_rate": 0.00018271071643186968,
	"loss": 0.8855,
	"step": 180
	},
	{
	"epoch": 0.23567708333333334,
	"grad_norm": 0.3309285342693329,
	"learning_rate": 0.00018224193916227852,
	"loss": 0.7903,
	"step": 181
	},
	{
	"epoch": 0.23697916666666666,
	"grad_norm": 0.3496496379375458,
	"learning_rate": 0.00018176815050719615,
	"loss": 0.8447,
	"step": 182
	},
	{
	"epoch": 0.23828125,
	"grad_norm": 0.3104117810726166,
	"learning_rate": 0.00018128937969213852,
	"loss": 0.9041,
	"step": 183
	},
	{
	"epoch": 0.23958333333333334,
	"grad_norm": 0.35145995020866394,
	"learning_rate": 0.00018080565624994474,
	"loss": 0.8347,
	"step": 184
	},
	{
	"epoch": 0.24088541666666666,
	"grad_norm": 0.33385100960731506,
	"learning_rate": 0.00018031701001895524,
	"loss": 0.8578,
	"step": 185
	},
	{
	"epoch": 0.2421875,
	"grad_norm": 0.35553544759750366,
	"learning_rate": 0.0001798234711411713,
	"loss": 0.8204,
	"step": 186
	},
	{
	"epoch": 0.24348958333333334,
	"grad_norm": 0.365278422832489,
	"learning_rate": 0.00017932507006039567,
	"loss": 0.8957,
	"step": 187
	},
	{
	"epoch": 0.24479166666666666,
	"grad_norm": 0.3690166771411896,
	"learning_rate": 0.0001788218375203547,
	"loss": 0.906,
	"step": 188
	},
	{
	"epoch": 0.24609375,
	"grad_norm": 0.30934587121009827,
	"learning_rate": 0.00017831380456280192,
	"loss": 0.8963,
	"step": 189
	},
	{
	"epoch": 0.24739583333333334,
	"grad_norm": 0.3289198875427246,
	"learning_rate": 0.00017780100252560313,
	"loss": 0.9016,
	"step": 190
	},
	{
	"epoch": 0.24869791666666666,
	"grad_norm": 0.3520403206348419,
	"learning_rate": 0.00017728346304080357,
	"loss": 0.9407,
	"step": 191
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.3425486981868744,
	"learning_rate": 0.0001767612180326764,
	"loss": 0.8207,
	"step": 192
	},
	{
	"epoch": 0.2513020833333333,
	"grad_norm": 0.36947768926620483,
	"learning_rate": 0.00017623429971575384,
	"loss": 0.9397,
	"step": 193
	},
	{
	"epoch": 0.2526041666666667,
	"grad_norm": 0.3345178961753845,
	"learning_rate": 0.0001757027405928396,
	"loss": 0.9446,
	"step": 194
	},
	{
	"epoch": 0.25390625,
	"grad_norm": 0.35662034153938293,
	"learning_rate": 0.00017516657345300425,
	"loss": 0.8349,
	"step": 195
	},
	{
	"epoch": 0.2552083333333333,
	"grad_norm": 0.32738953828811646,
	"learning_rate": 0.00017462583136956258,
	"loss": 0.8485,
	"step": 196
	},
	{
	"epoch": 0.2565104166666667,
	"grad_norm": 0.35002079606056213,
	"learning_rate": 0.00017408054769803337,
	"loss": 0.8226,
	"step": 197
	},
	{
	"epoch": 0.2578125,
	"grad_norm": 0.3495853543281555,
	"learning_rate": 0.00017353075607408209,
	"loss": 0.8536,
	"step": 198
	},
	{
	"epoch": 0.2591145833333333,
	"grad_norm": 0.35052958130836487,
	"learning_rate": 0.00017297649041144575,
	"loss": 0.8592,
	"step": 199
	},
	{
	"epoch": 0.2604166666666667,
	"grad_norm": 0.328745573759079,
	"learning_rate": 0.0001724177848998413,
	"loss": 0.8492,
	"step": 200
	},
	{
	"epoch": 0.26171875,
	"grad_norm": 0.32306015491485596,
	"learning_rate": 0.00017185467400285644,
	"loss": 0.9631,
	"step": 201
	},
	{
	"epoch": 0.2630208333333333,
	"grad_norm": 0.33527088165283203,
	"learning_rate": 0.00017128719245582374,
	"loss": 0.923,
	"step": 202
	},
	{
	"epoch": 0.2643229166666667,
	"grad_norm": 0.31656643748283386,
	"learning_rate": 0.00017071537526367817,
	"loss": 0.814,
	"step": 203
	},
	{
	"epoch": 0.265625,
	"grad_norm": 0.3177151679992676,
	"learning_rate": 0.00017013925769879755,
	"loss": 0.8771,
	"step": 204
	},
	{
	"epoch": 0.2669270833333333,
	"grad_norm": 0.3306122124195099,
	"learning_rate": 0.00016955887529882714,
	"loss": 0.8597,
	"step": 205
	},
	{
	"epoch": 0.2682291666666667,
	"grad_norm": 0.34116023778915405,
	"learning_rate": 0.0001689742638644871,
	"loss": 0.8552,
	"step": 206
	},
	{
	"epoch": 0.26953125,
	"grad_norm": 0.3636139929294586,
	"learning_rate": 0.00016838545945736458,
	"loss": 0.8387,
	"step": 207
	},
	{
	"epoch": 0.2708333333333333,
	"grad_norm": 0.3404369652271271,
	"learning_rate": 0.00016779249839768884,
	"loss": 0.8186,
	"step": 208
	},
	{
	"epoch": 0.2721354166666667,
	"grad_norm": 0.3426530659198761,
	"learning_rate": 0.00016719541726209117,
	"loss": 0.9083,
	"step": 209
	},
	{
	"epoch": 0.2734375,
	"grad_norm": 0.34500670433044434,
	"learning_rate": 0.00016659425288134854,
	"loss": 0.8645,
	"step": 210
	},
	{
	"epoch": 0.2747395833333333,
	"grad_norm": 0.36617475748062134,
	"learning_rate": 0.00016598904233811168,
	"loss": 0.8138,
	"step": 211
	},
	{
	"epoch": 0.2760416666666667,
	"grad_norm": 0.349728524684906,
	"learning_rate": 0.00016537982296461768,
	"loss": 0.8747,
	"step": 212
	},
	{
	"epoch": 0.27734375,
	"grad_norm": 0.3206585645675659,
	"learning_rate": 0.00016476663234038717,
	"loss": 0.8638,
	"step": 213
	},
	{
	"epoch": 0.2786458333333333,
	"grad_norm": 0.3095620274543762,
	"learning_rate": 0.00016414950828990625,
	"loss": 0.8839,
	"step": 214
	},
	{
	"epoch": 0.2799479166666667,
	"grad_norm": 0.3462662100791931,
	"learning_rate": 0.00016352848888029326,
	"loss": 0.8475,
	"step": 215
	},
	{
	"epoch": 0.28125,
	"grad_norm": 0.30881351232528687,
	"learning_rate": 0.00016290361241895064,
	"loss": 0.875,
	"step": 216
	},
	{
	"epoch": 0.2825520833333333,
	"grad_norm": 0.3559829294681549,
	"learning_rate": 0.00016227491745120196,
	"loss": 0.8667,
	"step": 217
	},
	{
	"epoch": 0.2838541666666667,
	"grad_norm": 0.3805384039878845,
	"learning_rate": 0.0001616424427579143,
	"loss": 0.8644,
	"step": 218
	},
	{
	"epoch": 0.28515625,
	"grad_norm": 0.288903146982193,
	"learning_rate": 0.0001610062273531059,
	"loss": 0.9587,
	"step": 219
	},
	{
	"epoch": 0.2864583333333333,
	"grad_norm": 0.3124583959579468,
	"learning_rate": 0.00016036631048153979,
	"loss": 0.9036,
	"step": 220
	},
	{
	"epoch": 0.2877604166666667,
	"grad_norm": 0.3762437403202057,
	"learning_rate": 0.0001597227316163029,
	"loss": 0.8723,
	"step": 221
	},
	{
	"epoch": 0.2890625,
	"grad_norm": 0.2969296872615814,
	"learning_rate": 0.00015907553045637116,
	"loss": 0.9165,
	"step": 222
	},
	{
	"epoch": 0.2903645833333333,
	"grad_norm": 0.3156786561012268,
	"learning_rate": 0.00015842474692416068,
	"loss": 0.8797,
	"step": 223
	},
	{
	"epoch": 0.2916666666666667,
	"grad_norm": 0.3499281406402588,
	"learning_rate": 0.0001577704211630652,
	"loss": 0.9325,
	"step": 224
	},
	{
	"epoch": 0.29296875,
	"grad_norm": 0.32044610381126404,
	"learning_rate": 0.00015711259353497981,
	"loss": 0.9274,
	"step": 225
	},
	{
	"epoch": 0.2942708333333333,
	"grad_norm": 0.3384315073490143,
	"learning_rate": 0.0001564513046178113,
	"loss": 0.8486,
	"step": 226
	},
	{
	"epoch": 0.2955729166666667,
	"grad_norm": 0.35218653082847595,
	"learning_rate": 0.000155786595202975,
	"loss": 0.815,
	"step": 227
	},
	{
	"epoch": 0.296875,
	"grad_norm": 0.308248907327652,
	"learning_rate": 0.00015511850629287865,
	"loss": 0.8801,
	"step": 228
	},
	{
	"epoch": 0.2981770833333333,
	"grad_norm": 0.3766931891441345,
	"learning_rate": 0.00015444707909839325,
	"loss": 0.7229,
	"step": 229
	},
	{
	"epoch": 0.2994791666666667,
	"grad_norm": 0.3386388421058655,
	"learning_rate": 0.00015377235503631083,
	"loss": 0.8249,
	"step": 230
	},
	{
	"epoch": 0.30078125,
	"grad_norm": 0.3271256983280182,
	"learning_rate": 0.0001530943757267898,
	"loss": 0.8026,
	"step": 231
	},
	{
	"epoch": 0.3020833333333333,
	"grad_norm": 0.3631853461265564,
	"learning_rate": 0.00015241318299078751,
	"loss": 0.8691,
	"step": 232
	},
	{
	"epoch": 0.3033854166666667,
	"grad_norm": 0.32474151253700256,
	"learning_rate": 0.00015172881884748063,
	"loss": 0.8536,
	"step": 233
	},
	{
	"epoch": 0.3046875,
	"grad_norm": 0.3289790153503418,
	"learning_rate": 0.00015104132551167318,
	"loss": 0.9035,
	"step": 234
	},
	{
	"epoch": 0.3059895833333333,
	"grad_norm": 0.32092922925949097,
	"learning_rate": 0.00015035074539119248,
	"loss": 0.8217,
	"step": 235
	},
	{
	"epoch": 0.3072916666666667,
	"grad_norm": 0.350707471370697,
	"learning_rate": 0.00014965712108427323,
	"loss": 0.8041,
	"step": 236
	},
	{
	"epoch": 0.30859375,
	"grad_norm": 0.33856043219566345,
	"learning_rate": 0.00014896049537693005,
	"loss": 0.8546,
	"step": 237
	},
	{
	"epoch": 0.3098958333333333,
	"grad_norm": 0.3133806884288788,
	"learning_rate": 0.00014826091124031792,
	"loss": 0.9246,
	"step": 238
	},
	{
	"epoch": 0.3111979166666667,
	"grad_norm": 0.37403765320777893,
	"learning_rate": 0.0001475584118280817,
	"loss": 0.8921,
	"step": 239
	},
	{
	"epoch": 0.3125,
	"grad_norm": 0.3411153256893158,
	"learning_rate": 0.00014685304047369423,
	"loss": 0.8605,
	"step": 240
	},
	{
	"epoch": 0.3138020833333333,
	"grad_norm": 0.3260857164859772,
	"learning_rate": 0.00014614484068778324,
	"loss": 0.8922,
	"step": 241
	},
	{
	"epoch": 0.3151041666666667,
	"grad_norm": 0.32127058506011963,
	"learning_rate": 0.00014543385615544744,
	"loss": 0.8851,
	"step": 242
	},
	{
	"epoch": 0.31640625,
	"grad_norm": 0.30613449215888977,
	"learning_rate": 0.00014472013073356184,
	"loss": 0.8732,
	"step": 243
	},
	{
	"epoch": 0.3177083333333333,
	"grad_norm": 0.3390278220176697,
	"learning_rate": 0.00014400370844807234,
	"loss": 0.8251,
	"step": 244
	},
	{
	"epoch": 0.3190104166666667,
	"grad_norm": 0.34041738510131836,
	"learning_rate": 0.00014328463349128025,
	"loss": 0.8146,
	"step": 245
	},
	{
	"epoch": 0.3203125,
	"grad_norm": 0.3534432053565979,
	"learning_rate": 0.000142562950219116,
	"loss": 0.8614,
	"step": 246
	},
	{
	"epoch": 0.3216145833333333,
	"grad_norm": 0.3607141673564911,
	"learning_rate": 0.00014183870314840325,
	"loss": 0.8102,
	"step": 247
	},
	{
	"epoch": 0.3229166666666667,
	"grad_norm": 0.3430651128292084,
	"learning_rate": 0.00014111193695411285,
	"loss": 0.8703,
	"step": 248
	},
	{
	"epoch": 0.32421875,
	"grad_norm": 0.35520392656326294,
	"learning_rate": 0.00014038269646660703,
	"loss": 0.8424,
	"step": 249
	},
	{
	"epoch": 0.3255208333333333,
	"grad_norm": 0.35280680656433105,
	"learning_rate": 0.00013965102666887408,
	"loss": 0.8588,
	"step": 250
	},
	{
	"epoch": 0.3268229166666667,
	"grad_norm": 0.29341921210289,
	"learning_rate": 0.0001389169726937536,
	"loss": 0.8856,
	"step": 251
	},
	{
	"epoch": 0.328125,
	"grad_norm": 0.344706267118454,
	"learning_rate": 0.0001381805798211525,
	"loss": 0.8694,
	"step": 252
	},
	{
	"epoch": 0.3294270833333333,
	"grad_norm": 0.3089728355407715,
	"learning_rate": 0.00013744189347525182,
	"loss": 0.8805,
	"step": 253
	},
	{
	"epoch": 0.3307291666666667,
	"grad_norm": 0.2982807159423828,
	"learning_rate": 0.00013670095922170498,
	"loss": 0.9559,
	"step": 254
	},
	{
	"epoch": 0.33203125,
	"grad_norm": 0.35118257999420166,
	"learning_rate": 0.00013595782276482678,
	"loss": 0.8535,
	"step": 255
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.31711286306381226,
	"learning_rate": 0.00013521252994477446,
	"loss": 0.9169,
	"step": 256
	},
	{
	"epoch": 0.3346354166666667,
	"grad_norm": 0.28975602984428406,
	"learning_rate": 0.00013446512673471965,
	"loss": 0.9879,
	"step": 257
	},
	{
	"epoch": 0.3359375,
	"grad_norm": 0.3587123453617096,
	"learning_rate": 0.0001337156592380131,
	"loss": 0.8419,
	"step": 258
	},
	{
	"epoch": 0.3372395833333333,
	"grad_norm": 0.32705414295196533,
	"learning_rate": 0.0001329641736853402,
	"loss": 0.8646,
	"step": 259
	},
	{
	"epoch": 0.3385416666666667,
	"grad_norm": 0.301553338766098,
	"learning_rate": 0.0001322107164318697,
	"loss": 0.8199,
	"step": 260
	},
	{
	"epoch": 0.33984375,
	"grad_norm": 0.31590837240219116,
	"learning_rate": 0.00013145533395439405,
	"loss": 0.8675,
	"step": 261
	},
	{
	"epoch": 0.3411458333333333,
	"grad_norm": 0.28727132081985474,
	"learning_rate": 0.0001306980728484627,
	"loss": 0.8971,
	"step": 262
	},
	{
	"epoch": 0.3424479166666667,
	"grad_norm": 0.38094404339790344,
	"learning_rate": 0.00012993897982550764,
	"loss": 0.8053,
	"step": 263
	},
	{
	"epoch": 0.34375,
	"grad_norm": 0.3682737648487091,
	"learning_rate": 0.00012917810170996218,
	"loss": 0.8066,
	"step": 264
	},
	{
	"epoch": 0.3450520833333333,
	"grad_norm": 0.34040960669517517,
	"learning_rate": 0.0001284154854363725,
	"loss": 1.0175,
	"step": 265
	},
	{
	"epoch": 0.3463541666666667,
	"grad_norm": 0.3567488193511963,
	"learning_rate": 0.00012765117804650267,
	"loss": 0.8878,
	"step": 266
	},
	{
	"epoch": 0.34765625,
	"grad_norm": 0.3080446720123291,
	"learning_rate": 0.00012688522668643268,
	"loss": 0.7767,
	"step": 267
	},
	{
	"epoch": 0.3489583333333333,
	"grad_norm": 0.29930922389030457,
	"learning_rate": 0.00012611767860365038,
	"loss": 0.8593,
	"step": 268
	},
	{
	"epoch": 0.3502604166666667,
	"grad_norm": 0.3136909008026123,
	"learning_rate": 0.00012534858114413692,
	"loss": 0.8393,
	"step": 269
	},
	{
	"epoch": 0.3515625,
	"grad_norm": 0.3064602017402649,
	"learning_rate": 0.00012457798174944645,
	"loss": 0.8666,
	"step": 270
	},
	{
	"epoch": 0.3528645833333333,
	"grad_norm": 0.3652801215648651,
	"learning_rate": 0.0001238059279537795,
	"loss": 0.8608,
	"step": 271
	},
	{
	"epoch": 0.3541666666666667,
	"grad_norm": 0.3020021319389343,
	"learning_rate": 0.00012303246738105082,
	"loss": 0.8949,
	"step": 272
	},
	{
	"epoch": 0.35546875,
	"grad_norm": 0.3343137502670288,
	"learning_rate": 0.00012225764774195186,
	"loss": 0.8392,
	"step": 273
	},
	{
	"epoch": 0.3567708333333333,
	"grad_norm": 0.33666467666625977,
	"learning_rate": 0.00012148151683100776,
	"loss": 0.8073,
	"step": 274
	},
	{
	"epoch": 0.3580729166666667,
	"grad_norm": 0.3414088189601898,
	"learning_rate": 0.00012070412252362897,
	"loss": 0.7982,
	"step": 275
	},
	{
	"epoch": 0.359375,
	"grad_norm": 0.34131115674972534,
	"learning_rate": 0.0001199255127731582,
	"loss": 0.8725,
	"step": 276
	},
	{
	"epoch": 0.3606770833333333,
	"grad_norm": 0.3253263235092163,
	"learning_rate": 0.00011914573560791246,
	"loss": 0.8502,
	"step": 277
	},
	{
	"epoch": 0.3619791666666667,
	"grad_norm": 0.2974787652492523,
	"learning_rate": 0.00011836483912822035,
	"loss": 0.8696,
	"step": 278
	},
	{
	"epoch": 0.36328125,
	"grad_norm": 0.310968816280365,
	"learning_rate": 0.00011758287150345516,
	"loss": 0.8618,
	"step": 279
	},
	{
	"epoch": 0.3645833333333333,
	"grad_norm": 0.30811068415641785,
	"learning_rate": 0.00011679988096906333,
	"loss": 0.7827,
	"step": 280
	},
	{
	"epoch": 0.3658854166666667,
	"grad_norm": 0.31703218817710876,
	"learning_rate": 0.00011601591582358924,
	"loss": 0.8557,
	"step": 281
	},
	{
	"epoch": 0.3671875,
	"grad_norm": 0.3499086797237396,
	"learning_rate": 0.00011523102442569585,
	"loss": 0.8819,
	"step": 282
	},
	{
	"epoch": 0.3684895833333333,
	"grad_norm": 0.3098037838935852,
	"learning_rate": 0.00011444525519118179,
	"loss": 0.928,
	"step": 283
	},
	{
	"epoch": 0.3697916666666667,
	"grad_norm": 0.30361640453338623,
	"learning_rate": 0.00011365865658999474,
	"loss": 0.8187,
	"step": 284
	},
	{
	"epoch": 0.37109375,
	"grad_norm": 0.3158656060695648,
	"learning_rate": 0.00011287127714324162,
	"loss": 0.8389,
	"step": 285
	},
	{
	"epoch": 0.3723958333333333,
	"grad_norm": 0.31333765387535095,
	"learning_rate": 0.00011208316542019556,
	"loss": 0.874,
	"step": 286
	},
	{
	"epoch": 0.3736979166666667,
	"grad_norm": 0.3238910734653473,
	"learning_rate": 0.00011129437003530006,
	"loss": 0.8417,
	"step": 287
	},
	{
	"epoch": 0.375,
	"grad_norm": 0.31688323616981506,
	"learning_rate": 0.00011050493964516997,
	"loss": 0.7645,
	"step": 288
	},
	{
	"epoch": 0.3763020833333333,
	"grad_norm": 0.32902631163597107,
	"learning_rate": 0.00010971492294559029,
	"loss": 0.785,
	"step": 289
	},
	{
	"epoch": 0.3776041666666667,
	"grad_norm": 0.3547747731208801,
	"learning_rate": 0.00010892436866851235,
	"loss": 0.8035,
	"step": 290
	},
	{
	"epoch": 0.37890625,
	"grad_norm": 0.34230130910873413,
	"learning_rate": 0.00010813332557904784,
	"loss": 0.8288,
	"step": 291
	},
	{
	"epoch": 0.3802083333333333,
	"grad_norm": 0.3104645013809204,
	"learning_rate": 0.00010734184247246066,
	"loss": 0.8458,
	"step": 292
	},
	{
	"epoch": 0.3815104166666667,
	"grad_norm": 0.3715684711933136,
	"learning_rate": 0.00010654996817115704,
	"loss": 0.9265,
	"step": 293
	},
	{
	"epoch": 0.3828125,
	"grad_norm": 0.30713942646980286,
	"learning_rate": 0.00010575775152167391,
	"loss": 0.904,
	"step": 294
	},
	{
	"epoch": 0.3841145833333333,
	"grad_norm": 0.32410570979118347,
	"learning_rate": 0.00010496524139166594,
	"loss": 0.8621,
	"step": 295
	},
	{
	"epoch": 0.3854166666666667,
	"grad_norm": 0.3331278860569,
	"learning_rate": 0.00010417248666689095,
	"loss": 0.8377,
	"step": 296
	},
	{
	"epoch": 0.38671875,
	"grad_norm": 0.3093259334564209,
	"learning_rate": 0.00010337953624819464,
	"loss": 0.8502,
	"step": 297
	},
	{
	"epoch": 0.3880208333333333,
	"grad_norm": 0.3295346796512604,
	"learning_rate": 0.0001025864390484939,
	"loss": 0.8671,
	"step": 298
	},
	{
	"epoch": 0.3893229166666667,
	"grad_norm": 0.2909308075904846,
	"learning_rate": 0.00010179324398975984,
	"loss": 0.8519,
	"step": 299
	},
	{
	"epoch": 0.390625,
	"grad_norm": 0.3205868899822235,
	"learning_rate": 0.000101,
	"loss": 0.8516,
	"step": 300
	},
	{
	"epoch": 0.3919270833333333,
	"grad_norm": 0.3373914659023285,
	"learning_rate": 0.00010020675601024019,
	"loss": 0.9442,
	"step": 301
	},
	{
	"epoch": 0.3932291666666667,
	"grad_norm": 0.31464096903800964,
	"learning_rate": 9.941356095150613e-05,
	"loss": 0.8757,
	"step": 302
	},
	{
	"epoch": 0.39453125,
	"grad_norm": 0.32743626832962036,
	"learning_rate": 9.862046375180539e-05,
	"loss": 0.811,
	"step": 303
	},
	{
	"epoch": 0.3958333333333333,
	"grad_norm": 0.36112740635871887,
	"learning_rate": 9.782751333310905e-05,
	"loss": 0.8523,
	"step": 304
	},
	{
	"epoch": 0.3971354166666667,
	"grad_norm": 0.3145286738872528,
	"learning_rate": 9.70347586083341e-05,
	"loss": 0.9191,
	"step": 305
	},
	{
	"epoch": 0.3984375,
	"grad_norm": 0.3485451638698578,
	"learning_rate": 9.62422484783261e-05,
	"loss": 0.8646,
	"step": 306
	},
	{
	"epoch": 0.3997395833333333,
	"grad_norm": 0.33839061856269836,
	"learning_rate": 9.5450031828843e-05,
	"loss": 0.9219,
	"step": 307
	},
	{
	"epoch": 0.4010416666666667,
	"grad_norm": 0.29558366537094116,
	"learning_rate": 9.465815752753935e-05,
	"loss": 0.8581,
	"step": 308
	},
	{
	"epoch": 0.40234375,
	"grad_norm": 0.30999499559402466,
	"learning_rate": 9.386667442095219e-05,
	"loss": 0.9484,
	"step": 309
	},
	{
	"epoch": 0.4036458333333333,
	"grad_norm": 0.3167370557785034,
	"learning_rate": 9.307563133148767e-05,
	"loss": 0.8414,
	"step": 310
	},
	{
	"epoch": 0.4049479166666667,
	"grad_norm": 0.34423360228538513,
	"learning_rate": 9.228507705440976e-05,
	"loss": 0.8577,
	"step": 311
	},
	{
	"epoch": 0.40625,
	"grad_norm": 0.33800390362739563,
	"learning_rate": 9.149506035483005e-05,
	"loss": 0.866,
	"step": 312
	},
	{
	"epoch": 0.4075520833333333,
	"grad_norm": 0.31321457028388977,
	"learning_rate": 9.070562996469997e-05,
	"loss": 0.8437,
	"step": 313
	},
	{
	"epoch": 0.4088541666666667,
	"grad_norm": 0.3370513916015625,
	"learning_rate": 8.991683457980443e-05,
	"loss": 0.8091,
	"step": 314
	},
	{
	"epoch": 0.41015625,
	"grad_norm": 0.31457364559173584,
	"learning_rate": 8.912872285675841e-05,
	"loss": 0.7871,
	"step": 315
	},
	{
	"epoch": 0.4114583333333333,
	"grad_norm": 0.3068949282169342,
	"learning_rate": 8.834134341000527e-05,
	"loss": 0.8504,
	"step": 316
	},
	{
	"epoch": 0.4127604166666667,
	"grad_norm": 0.33699652552604675,
	"learning_rate": 8.755474480881823e-05,
	"loss": 0.8919,
	"step": 317
	},
	{
	"epoch": 0.4140625,
	"grad_norm": 0.2944529056549072,
	"learning_rate": 8.676897557430415e-05,
	"loss": 0.8644,
	"step": 318
	},
	{
	"epoch": 0.4153645833333333,
	"grad_norm": 0.3244035840034485,
	"learning_rate": 8.598408417641078e-05,
	"loss": 0.901,
	"step": 319
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 0.29464152455329895,
	"learning_rate": 8.520011903093666e-05,
	"loss": 0.8057,
	"step": 320
	},
	{
	"epoch": 0.41796875,
	"grad_norm": 0.347151517868042,
	"learning_rate": 8.441712849654485e-05,
	"loss": 0.8939,
	"step": 321
	},
	{
	"epoch": 0.4192708333333333,
	"grad_norm": 0.3080258369445801,
	"learning_rate": 8.363516087177962e-05,
	"loss": 0.9819,
	"step": 322
	},
	{
	"epoch": 0.4205729166666667,
	"grad_norm": 0.3100193440914154,
	"learning_rate": 8.285426439208755e-05,
	"loss": 0.8772,
	"step": 323
	},
	{
	"epoch": 0.421875,
	"grad_norm": 0.34320497512817383,
	"learning_rate": 8.20744872268418e-05,
	"loss": 0.7966,
	"step": 324
	},
	{
	"epoch": 0.4231770833333333,
	"grad_norm": 0.30067065358161926,
	"learning_rate": 8.129587747637105e-05,
	"loss": 0.8682,
	"step": 325
	},
	{
	"epoch": 0.4244791666666667,
	"grad_norm": 0.34988993406295776,
	"learning_rate": 8.051848316899227e-05,
	"loss": 0.8989,
	"step": 326
	},
	{
	"epoch": 0.42578125,
	"grad_norm": 0.34072110056877136,
	"learning_rate": 7.974235225804814e-05,
	"loss": 0.7937,
	"step": 327
	},
	{
	"epoch": 0.4270833333333333,
	"grad_norm": 0.33146417140960693,
	"learning_rate": 7.896753261894923e-05,
	"loss": 0.7794,
	"step": 328
	},
	{
	"epoch": 0.4283854166666667,
	"grad_norm": 0.31865736842155457,
	"learning_rate": 7.819407204622054e-05,
	"loss": 0.8462,
	"step": 329
	},
	{
	"epoch": 0.4296875,
	"grad_norm": 0.35836029052734375,
	"learning_rate": 7.74220182505536e-05,
	"loss": 0.929,
	"step": 330
	},
	{
	"epoch": 0.4309895833333333,
	"grad_norm": 0.3302249014377594,
	"learning_rate": 7.665141885586312e-05,
	"loss": 0.8297,
	"step": 331
	},
	{
	"epoch": 0.4322916666666667,
	"grad_norm": 0.36180800199508667,
	"learning_rate": 7.588232139634968e-05,
	"loss": 0.8518,
	"step": 332
	},
	{
	"epoch": 0.43359375,
	"grad_norm": 0.30696389079093933,
	"learning_rate": 7.511477331356733e-05,
	"loss": 0.8821,
	"step": 333
	},
	{
	"epoch": 0.4348958333333333,
	"grad_norm": 0.3090788424015045,
	"learning_rate": 7.434882195349736e-05,
	"loss": 0.8593,
	"step": 334
	},
	{
	"epoch": 0.4361979166666667,
	"grad_norm": 0.32818740606307983,
	"learning_rate": 7.358451456362751e-05,
	"loss": 0.8474,
	"step": 335
	},
	{
	"epoch": 0.4375,
	"grad_norm": 0.33500784635543823,
	"learning_rate": 7.282189829003785e-05,
	"loss": 0.7979,
	"step": 336
	},
	{
	"epoch": 0.4388020833333333,
	"grad_norm": 0.37808653712272644,
	"learning_rate": 7.206102017449237e-05,
	"loss": 0.857,
	"step": 337
	},
	{
	"epoch": 0.4401041666666667,
	"grad_norm": 0.31529998779296875,
	"learning_rate": 7.130192715153731e-05,
	"loss": 0.8831,
	"step": 338
	},
	{
	"epoch": 0.44140625,
	"grad_norm": 0.2927025556564331,
	"learning_rate": 7.054466604560595e-05,
	"loss": 0.8116,
	"step": 339
	},
	{
	"epoch": 0.4427083333333333,
	"grad_norm": 0.3082600235939026,
	"learning_rate": 6.978928356813031e-05,
	"loss": 0.796,
	"step": 340
	},
	{
	"epoch": 0.4440104166666667,
	"grad_norm": 0.30604058504104614,
	"learning_rate": 6.90358263146598e-05,
	"loss": 0.9001,
	"step": 341
	},
	{
	"epoch": 0.4453125,
	"grad_norm": 0.320302814245224,
	"learning_rate": 6.828434076198693e-05,
	"loss": 0.8057,
	"step": 342
	},
	{
	"epoch": 0.4466145833333333,
	"grad_norm": 0.34440967440605164,
	"learning_rate": 6.753487326528033e-05,
	"loss": 0.8786,
	"step": 343
	},
	{
	"epoch": 0.4479166666666667,
	"grad_norm": 0.313021719455719,
	"learning_rate": 6.678747005522557e-05,
	"loss": 0.8573,
	"step": 344
	},
	{
	"epoch": 0.44921875,
	"grad_norm": 0.3133790194988251,
	"learning_rate": 6.60421772351732e-05,
	"loss": 0.8614,
	"step": 345
	},
	{
	"epoch": 0.4505208333333333,
	"grad_norm": 0.32770583033561707,
	"learning_rate": 6.529904077829505e-05,
	"loss": 0.829,
	"step": 346
	},
	{
	"epoch": 0.4518229166666667,
	"grad_norm": 0.327179491519928,
	"learning_rate": 6.455810652474817e-05,
	"loss": 0.8383,
	"step": 347
	},
	{
	"epoch": 0.453125,
	"grad_norm": 0.30281123518943787,
	"learning_rate": 6.381942017884753e-05,
	"loss": 0.871,
	"step": 348
	},
	{
	"epoch": 0.4544270833333333,
	"grad_norm": 0.3344803750514984,
	"learning_rate": 6.30830273062464e-05,
	"loss": 0.7489,
	"step": 349
	},
	{
	"epoch": 0.4557291666666667,
	"grad_norm": 0.3110140860080719,
	"learning_rate": 6.234897333112594e-05,
	"loss": 0.8757,
	"step": 350
	},
	{
	"epoch": 0.45703125,
	"grad_norm": 0.33310666680336,
	"learning_rate": 6.161730353339302e-05,
	"loss": 0.9292,
	"step": 351
	},
	{
	"epoch": 0.4583333333333333,
	"grad_norm": 0.3537331521511078,
	"learning_rate": 6.088806304588717e-05,
	"loss": 0.8505,
	"step": 352
	},
	{
	"epoch": 0.4596354166666667,
	"grad_norm": 0.3160480856895447,
	"learning_rate": 6.0161296851596766e-05,
	"loss": 0.867,
	"step": 353
	},
	{
	"epoch": 0.4609375,
	"grad_norm": 0.32747846841812134,
	"learning_rate": 5.943704978088402e-05,
	"loss": 0.8153,
	"step": 354
	},
	{
	"epoch": 0.4622395833333333,
	"grad_norm": 0.342339426279068,
	"learning_rate": 5.871536650871979e-05,
	"loss": 0.8754,
	"step": 355
	},
	{
	"epoch": 0.4635416666666667,
	"grad_norm": 0.31615254282951355,
	"learning_rate": 5.7996291551927666e-05,
	"loss": 0.8338,
	"step": 356
	},
	{
	"epoch": 0.46484375,
	"grad_norm": 0.31168562173843384,
	"learning_rate": 5.7279869266438234e-05,
	"loss": 0.7774,
	"step": 357
	},
	{
	"epoch": 0.4661458333333333,
	"grad_norm": 0.31545719504356384,
	"learning_rate": 5.656614384455257e-05,
	"loss": 0.8077,
	"step": 358
	},
	{
	"epoch": 0.4674479166666667,
	"grad_norm": 0.31938084959983826,
	"learning_rate": 5.585515931221677e-05,
	"loss": 0.8627,
	"step": 359
	},
	{
	"epoch": 0.46875,
	"grad_norm": 0.30571112036705017,
	"learning_rate": 5.514695952630578e-05,
	"loss": 0.8631,
	"step": 360
	},
	{
	"epoch": 0.4700520833333333,
	"grad_norm": 0.31153225898742676,
	"learning_rate": 5.444158817191832e-05,
	"loss": 0.8503,
	"step": 361
	},
	{
	"epoch": 0.4713541666666667,
	"grad_norm": 0.32617253065109253,
	"learning_rate": 5.373908875968211e-05,
	"loss": 0.8148,
	"step": 362
	},
	{
	"epoch": 0.47265625,
	"grad_norm": 0.3407813608646393,
	"learning_rate": 5.3039504623069965e-05,
	"loss": 0.8903,
	"step": 363
	},
	{
	"epoch": 0.4739583333333333,
	"grad_norm": 0.32965362071990967,
	"learning_rate": 5.234287891572674e-05,
	"loss": 0.8629,
	"step": 364
	},
	{
	"epoch": 0.4752604166666667,
	"grad_norm": 0.3094812035560608,
	"learning_rate": 5.164925460880758e-05,
	"loss": 0.8478,
	"step": 365
	},
	{
	"epoch": 0.4765625,
	"grad_norm": 0.3095204532146454,
	"learning_rate": 5.095867448832683e-05,
	"loss": 0.9215,
	"step": 366
	},
	{
	"epoch": 0.4778645833333333,
	"grad_norm": 0.3161752223968506,
	"learning_rate": 5.027118115251938e-05,
	"loss": 0.8831,
	"step": 367
	},
	{
	"epoch": 0.4791666666666667,
	"grad_norm": 0.2942347824573517,
	"learning_rate": 4.95868170092125e-05,
	"loss": 0.8385,
	"step": 368
	},
	{
	"epoch": 0.48046875,
	"grad_norm": 0.3367157280445099,
	"learning_rate": 4.890562427321021e-05,
	"loss": 0.8329,
	"step": 369
	},
	{
	"epoch": 0.4817708333333333,
	"grad_norm": 0.3312656283378601,
	"learning_rate": 4.822764496368917e-05,
	"loss": 0.8909,
	"step": 370
	},
	{
	"epoch": 0.4830729166666667,
	"grad_norm": 0.2954017221927643,
	"learning_rate": 4.755292090160676e-05,
	"loss": 0.82,
	"step": 371
	},
	{
	"epoch": 0.484375,
	"grad_norm": 0.28649380803108215,
	"learning_rate": 4.6881493707121315e-05,
	"loss": 0.8349,
	"step": 372
	},
	{
	"epoch": 0.4856770833333333,
	"grad_norm": 0.3034970462322235,
	"learning_rate": 4.621340479702503e-05,
	"loss": 0.8533,
	"step": 373
	},
	{
	"epoch": 0.4869791666666667,
	"grad_norm": 0.3515808582305908,
	"learning_rate": 4.554869538218868e-05,
	"loss": 0.8255,
	"step": 374
	},
	{
	"epoch": 0.48828125,
	"grad_norm": 0.3340248763561249,
	"learning_rate": 4.48874064650202e-05,
	"loss": 0.7953,
	"step": 375
	},
	{
	"epoch": 0.4895833333333333,
	"grad_norm": 0.3169967532157898,
	"learning_rate": 4.422957883693483e-05,
	"loss": 0.7667,
	"step": 376
	},
	{
	"epoch": 0.4908854166666667,
	"grad_norm": 0.33045902848243713,
	"learning_rate": 4.357525307583933e-05,
	"loss": 0.8221,
	"step": 377
	},
	{
	"epoch": 0.4921875,
	"grad_norm": 0.27641358971595764,
	"learning_rate": 4.29244695436289e-05,
	"loss": 0.8908,
	"step": 378
	},
	{
	"epoch": 0.4934895833333333,
	"grad_norm": 0.34106072783470154,
	"learning_rate": 4.227726838369711e-05,
	"loss": 0.8107,
	"step": 379
	},
	{
	"epoch": 0.4947916666666667,
	"grad_norm": 0.3046337962150574,
	"learning_rate": 4.1633689518460225e-05,
	"loss": 0.8278,
	"step": 380
	},
	{
	"epoch": 0.49609375,
	"grad_norm": 0.3120030462741852,
	"learning_rate": 4.0993772646894116e-05,
	"loss": 0.8378,
	"step": 381
	},
	{
	"epoch": 0.4973958333333333,
	"grad_norm": 0.3395197093486786,
	"learning_rate": 4.035755724208573e-05,
	"loss": 0.8597,
	"step": 382
	},
	{
	"epoch": 0.4986979166666667,
	"grad_norm": 0.33718255162239075,
	"learning_rate": 3.972508254879805e-05,
	"loss": 0.7818,
	"step": 383
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.3265829086303711,
	"learning_rate": 3.90963875810494e-05,
	"loss": 0.8203,
	"step": 384
	},
	{
	"epoch": 0.5013020833333334,
	"grad_norm": 0.3368302583694458,
	"learning_rate": 3.847151111970676e-05,
	"loss": 0.8319,
	"step": 385
	},
	{
	"epoch": 0.5026041666666666,
	"grad_norm": 0.39881670475006104,
	"learning_rate": 3.785049171009381e-05,
	"loss": 0.7538,
	"step": 386
	},
	{
	"epoch": 0.50390625,
	"grad_norm": 0.31735971570014954,
	"learning_rate": 3.723336765961285e-05,
	"loss": 0.8627,
	"step": 387
	},
	{
	"epoch": 0.5052083333333334,
	"grad_norm": 0.2991076707839966,
	"learning_rate": 3.662017703538234e-05,
	"loss": 0.8189,
	"step": 388
	},
	{
	"epoch": 0.5065104166666666,
	"grad_norm": 0.3316771686077118,
	"learning_rate": 3.601095766188833e-05,
	"loss": 0.8321,
	"step": 389
	},
	{
	"epoch": 0.5078125,
	"grad_norm": 0.32285547256469727,
	"learning_rate": 3.540574711865146e-05,
	"loss": 0.8444,
	"step": 390
	},
	{
	"epoch": 0.5091145833333334,
	"grad_norm": 0.30543044209480286,
	"learning_rate": 3.4804582737908825e-05,
	"loss": 0.8559,
	"step": 391
	},
	{
	"epoch": 0.5104166666666666,
	"grad_norm": 0.36356985569000244,
	"learning_rate": 3.420750160231118e-05,
	"loss": 0.7583,
	"step": 392
	},
	{
	"epoch": 0.51171875,
	"grad_norm": 0.3065100908279419,
	"learning_rate": 3.361454054263541e-05,
	"loss": 0.8257,
	"step": 393
	},
	{
	"epoch": 0.5130208333333334,
	"grad_norm": 0.3157348334789276,
	"learning_rate": 3.302573613551292e-05,
	"loss": 0.8502,
	"step": 394
	},
	{
	"epoch": 0.5143229166666666,
	"grad_norm": 0.337979257106781,
	"learning_rate": 3.244112470117288e-05,
	"loss": 0.8172,
	"step": 395
	},
	{
	"epoch": 0.515625,
	"grad_norm": 0.34926459193229675,
	"learning_rate": 3.186074230120244e-05,
	"loss": 0.8366,
	"step": 396
	},
	{
	"epoch": 0.5169270833333334,
	"grad_norm": 0.2944015860557556,
	"learning_rate": 3.1284624736321846e-05,
	"loss": 0.8571,
	"step": 397
	},
	{
	"epoch": 0.5182291666666666,
	"grad_norm": 0.27319666743278503,
	"learning_rate": 3.071280754417626e-05,
	"loss": 0.8694,
	"step": 398
	},
	{
	"epoch": 0.51953125,
	"grad_norm": 0.3642820417881012,
	"learning_rate": 3.0145325997143577e-05,
	"loss": 0.8504,
	"step": 399
	},
	{
	"epoch": 0.5208333333333334,
	"grad_norm": 0.33083510398864746,
	"learning_rate": 2.9582215100158706e-05,
	"loss": 0.8655,
	"step": 400
	},
	{
	"epoch": 0.5221354166666666,
	"grad_norm": 0.32897526025772095,
	"learning_rate": 2.902350958855426e-05,
	"loss": 0.9169,
	"step": 401
	},
	{
	"epoch": 0.5234375,
	"grad_norm": 0.3111579418182373,
	"learning_rate": 2.846924392591794e-05,
	"loss": 0.869,
	"step": 402
	},
	{
	"epoch": 0.5247395833333334,
	"grad_norm": 0.31903326511383057,
	"learning_rate": 2.791945230196663e-05,
	"loss": 0.7606,
	"step": 403
	},
	{
	"epoch": 0.5260416666666666,
	"grad_norm": 0.32733333110809326,
	"learning_rate": 2.7374168630437456e-05,
	"loss": 0.815,
	"step": 404
	},
	{
	"epoch": 0.52734375,
	"grad_norm": 0.3421482443809509,
	"learning_rate": 2.6833426546995782e-05,
	"loss": 0.7627,
	"step": 405
	},
	{
	"epoch": 0.5286458333333334,
	"grad_norm": 0.3265641927719116,
	"learning_rate": 2.629725940716041e-05,
	"loss": 0.8013,
	"step": 406
	},
	{
	"epoch": 0.5299479166666666,
	"grad_norm": 0.3222253918647766,
	"learning_rate": 2.57657002842462e-05,
	"loss": 0.83,
	"step": 407
	},
	{
	"epoch": 0.53125,
	"grad_norm": 0.36147239804267883,
	"learning_rate": 2.523878196732358e-05,
	"loss": 0.8342,
	"step": 408
	},
	{
	"epoch": 0.5325520833333334,
	"grad_norm": 0.30930349230766296,
	"learning_rate": 2.4716536959196462e-05,
	"loss": 0.9737,
	"step": 409
	},
	{
	"epoch": 0.5338541666666666,
	"grad_norm": 0.33043771982192993,
	"learning_rate": 2.4198997474396877e-05,
	"loss": 0.7793,
	"step": 410
	},
	{
	"epoch": 0.53515625,
	"grad_norm": 0.3458073139190674,
	"learning_rate": 2.3686195437198112e-05,
	"loss": 0.8822,
	"step": 411
	},
	{
	"epoch": 0.5364583333333334,
	"grad_norm": 0.31358662247657776,
	"learning_rate": 2.31781624796453e-05,
	"loss": 0.8938,
	"step": 412
	},
	{
	"epoch": 0.5377604166666666,
	"grad_norm": 0.32773175835609436,
	"learning_rate": 2.2674929939604332e-05,
	"loss": 0.8978,
	"step": 413
	},
	{
	"epoch": 0.5390625,
	"grad_norm": 0.3206295073032379,
	"learning_rate": 2.217652885882869e-05,
	"loss": 0.8898,
	"step": 414
	},
	{
	"epoch": 0.5403645833333334,
	"grad_norm": 0.31542304158210754,
	"learning_rate": 2.1682989981044783e-05,
	"loss": 0.8635,
	"step": 415
	},
	{
	"epoch": 0.5416666666666666,
	"grad_norm": 0.3245406150817871,
	"learning_rate": 2.119434375005527e-05,
	"loss": 0.8411,
	"step": 416
	},
	{
	"epoch": 0.54296875,
	"grad_norm": 0.3141809105873108,
	"learning_rate": 2.071062030786149e-05,
	"loss": 0.7775,
	"step": 417
	},
	{
	"epoch": 0.5442708333333334,
	"grad_norm": 0.2986677885055542,
	"learning_rate": 2.0231849492803852e-05,
	"loss": 0.8618,
	"step": 418
	},
	{
	"epoch": 0.5455729166666666,
	"grad_norm": 0.3049768805503845,
	"learning_rate": 1.9758060837721467e-05,
	"loss": 0.8662,
	"step": 419
	},
	{
	"epoch": 0.546875,
	"grad_norm": 0.2944938838481903,
	"learning_rate": 1.928928356813032e-05,
	"loss": 0.8116,
	"step": 420
	},
	{
	"epoch": 0.5481770833333334,
	"grad_norm": 0.31740906834602356,
	"learning_rate": 1.882554660042052e-05,
	"loss": 0.8354,
	"step": 421
	},
	{
	"epoch": 0.5494791666666666,
	"grad_norm": 0.3051731288433075,
	"learning_rate": 1.8366878540072614e-05,
	"loss": 0.8606,
	"step": 422
	},
	{
	"epoch": 0.55078125,
	"grad_norm": 0.3050106465816498,
	"learning_rate": 1.7913307679893173e-05,
	"loss": 0.8115,
	"step": 423
	},
	{
	"epoch": 0.5520833333333334,
	"grad_norm": 0.2921428084373474,
	"learning_rate": 1.7464861998269243e-05,
	"loss": 0.8507,
	"step": 424
	},
	{
	"epoch": 0.5533854166666666,
	"grad_norm": 0.3205814063549042,
	"learning_rate": 1.702156915744292e-05,
	"loss": 0.8631,
	"step": 425
	},
	{
	"epoch": 0.5546875,
	"grad_norm": 0.33637183904647827,
	"learning_rate": 1.6583456501804725e-05,
	"loss": 0.8691,
	"step": 426
	},
	{
	"epoch": 0.5559895833333334,
	"grad_norm": 0.31378889083862305,
	"learning_rate": 1.6150551056206867e-05,
	"loss": 0.8181,
	"step": 427
	},
	{
	"epoch": 0.5572916666666666,
	"grad_norm": 0.33184900879859924,
	"learning_rate": 1.57228795242965e-05,
	"loss": 0.7768,
	"step": 428
	},
	{
	"epoch": 0.55859375,
	"grad_norm": 0.3419734537601471,
	"learning_rate": 1.5300468286868137e-05,
	"loss": 0.8905,
	"step": 429
	},
	{
	"epoch": 0.5598958333333334,
	"grad_norm": 0.33187946677207947,
	"learning_rate": 1.488334340023669e-05,
	"loss": 0.8324,
	"step": 430
	},
	{
	"epoch": 0.5611979166666666,
	"grad_norm": 0.30014726519584656,
	"learning_rate": 1.4471530594629996e-05,
	"loss": 0.8708,
	"step": 431
	},
	{
	"epoch": 0.5625,
	"grad_norm": 0.27040472626686096,
	"learning_rate": 1.4065055272601703e-05,
	"loss": 0.8852,
	"step": 432
	},
	{
	"epoch": 0.5638020833333334,
	"grad_norm": 0.31325167417526245,
	"learning_rate": 1.3663942507464348e-05,
	"loss": 0.7781,
	"step": 433
	},
	{
	"epoch": 0.5651041666666666,
	"grad_norm": 0.3078592121601105,
	"learning_rate": 1.3268217041742701e-05,
	"loss": 0.84,
	"step": 434
	},
	{
	"epoch": 0.56640625,
	"grad_norm": 0.32804566621780396,
	"learning_rate": 1.2877903285647486e-05,
	"loss": 0.8676,
	"step": 435
	},
	{
	"epoch": 0.5677083333333334,
	"grad_norm": 0.3207748234272003,
	"learning_rate": 1.2493025315569801e-05,
	"loss": 0.858,
	"step": 436
	},
	{
	"epoch": 0.5690104166666666,
	"grad_norm": 0.3700745105743408,
	"learning_rate": 1.2113606872595673e-05,
	"loss": 0.9087,
	"step": 437
	},
	{
	"epoch": 0.5703125,
	"grad_norm": 0.33619681000709534,
	"learning_rate": 1.173967136104196e-05,
	"loss": 0.8805,
	"step": 438
	},
	{
	"epoch": 0.5716145833333334,
	"grad_norm": 0.3331134617328644,
	"learning_rate": 1.1371241847012401e-05,
	"loss": 0.8811,
	"step": 439
	},
	{
	"epoch": 0.5729166666666666,
	"grad_norm": 0.3446657061576843,
	"learning_rate": 1.1008341056974854e-05,
	"loss": 0.8863,
	"step": 440
	},
	{
	"epoch": 0.57421875,
	"grad_norm": 0.298917680978775,
	"learning_rate": 1.0650991376359473e-05,
	"loss": 0.7943,
	"step": 441
	},
	{
	"epoch": 0.5755208333333334,
	"grad_norm": 0.36596038937568665,
	"learning_rate": 1.029921484817783e-05,
	"loss": 0.7989,
	"step": 442
	},
	{
	"epoch": 0.5768229166666666,
	"grad_norm": 0.3092229664325714,
	"learning_rate": 9.953033171663175e-06,
	"loss": 0.9328,
	"step": 443
	},
	{
	"epoch": 0.578125,
	"grad_norm": 0.2970651090145111,
	"learning_rate": 9.612467700932045e-06,
	"loss": 0.7675,
	"step": 444
	},
	{
	"epoch": 0.5794270833333334,
	"grad_norm": 0.3474785089492798,
	"learning_rate": 9.277539443666783e-06,
	"loss": 0.846,
	"step": 445
	},
	{
	"epoch": 0.5807291666666666,
	"grad_norm": 0.28902187943458557,
	"learning_rate": 8.948269059820025e-06,
	"loss": 0.8712,
	"step": 446
	},
	{
	"epoch": 0.58203125,
	"grad_norm": 0.3022470772266388,
	"learning_rate": 8.624676860340025e-06,
	"loss": 0.8763,
	"step": 447
	},
	{
	"epoch": 0.5833333333333334,
	"grad_norm": 0.2670323848724365,
	"learning_rate": 8.306782805917904e-06,
	"loss": 0.886,
	"step": 448
	},
	{
	"epoch": 0.5846354166666666,
	"grad_norm": 0.2715941369533539,
	"learning_rate": 7.994606505756355e-06,
	"loss": 0.8477,
	"step": 449
	},
	{
	"epoch": 0.5859375,
	"grad_norm": 0.32153239846229553,
	"learning_rate": 7.68816721636004e-06,
	"loss": 0.8436,
	"step": 450
	},
	{
	"epoch": 0.5872395833333334,
	"grad_norm": 0.33201107382774353,
	"learning_rate": 7.3874838403478e-06,
	"loss": 0.887,
	"step": 451
	},
	{
	"epoch": 0.5885416666666666,
	"grad_norm": 0.3307580053806305,
	"learning_rate": 7.092574925286614e-06,
	"loss": 0.8239,
	"step": 452
	},
	{
	"epoch": 0.58984375,
	"grad_norm": 0.31865382194519043,
	"learning_rate": 6.803458662547507e-06,
	"loss": 0.8073,
	"step": 453
	},
	{
	"epoch": 0.5911458333333334,
	"grad_norm": 0.30783191323280334,
	"learning_rate": 6.520152886183406e-06,
	"loss": 0.8604,
	"step": 454
	},
	{
	"epoch": 0.5924479166666666,
	"grad_norm": 0.32232406735420227,
	"learning_rate": 6.242675071829111e-06,
	"loss": 0.8612,
	"step": 455
	},
	{
	"epoch": 0.59375,
	"grad_norm": 0.35587257146835327,
	"learning_rate": 5.971042335623229e-06,
	"loss": 0.8706,
	"step": 456
	},
	{
	"epoch": 0.5950520833333334,
	"grad_norm": 0.2914402484893799,
	"learning_rate": 5.705271433152458e-06,
	"loss": 0.8478,
	"step": 457
	},
	{
	"epoch": 0.5963541666666666,
	"grad_norm": 0.36631619930267334,
	"learning_rate": 5.445378758417925e-06,
	"loss": 0.7445,
	"step": 458
	},
	{
	"epoch": 0.59765625,
	"grad_norm": 0.31569549441337585,
	"learning_rate": 5.191380342824035e-06,
	"loss": 0.8365,
	"step": 459
	},
	{
	"epoch": 0.5989583333333334,
	"grad_norm": 0.31928232312202454,
	"learning_rate": 4.943291854189493e-06,
	"loss": 0.8951,
	"step": 460
	},
	{
	"epoch": 0.6002604166666666,
	"grad_norm": 0.31012532114982605,
	"learning_rate": 4.701128595780878e-06,
	"loss": 0.9263,
	"step": 461
	},
	{
	"epoch": 0.6015625,
	"grad_norm": 0.30832427740097046,
	"learning_rate": 4.464905505368658e-06,
	"loss": 0.8536,
	"step": 462
	},
	{
	"epoch": 0.6028645833333334,
	"grad_norm": 0.32320111989974976,
	"learning_rate": 4.23463715430577e-06,
	"loss": 0.8638,
	"step": 463
	},
	{
	"epoch": 0.6041666666666666,
	"grad_norm": 0.3501695990562439,
	"learning_rate": 4.010337746628751e-06,
	"loss": 0.7462,
	"step": 464
	},
	{
	"epoch": 0.60546875,
	"grad_norm": 0.3446730673313141,
	"learning_rate": 3.792021118181636e-06,
	"loss": 0.8484,
	"step": 465
	},
	{
	"epoch": 0.6067708333333334,
	"grad_norm": 0.3519136309623718,
	"learning_rate": 3.5797007357623945e-06,
	"loss": 0.8201,
	"step": 466
	},
	{
	"epoch": 0.6080729166666666,
	"grad_norm": 0.30372154712677,
	"learning_rate": 3.3733896962923658e-06,
	"loss": 0.8871,
	"step": 467
	},
	{
	"epoch": 0.609375,
	"grad_norm": 0.3335200250148773,
	"learning_rate": 3.1731007260082616e-06,
	"loss": 0.8273,
	"step": 468
	},
	{
	"epoch": 0.6106770833333334,
	"grad_norm": 0.3028860092163086,
	"learning_rate": 2.9788461796772114e-06,
	"loss": 0.8267,
	"step": 469
	},
	{
	"epoch": 0.6119791666666666,
	"grad_norm": 0.33701807260513306,
	"learning_rate": 2.790638039834668e-06,
	"loss": 0.8493,
	"step": 470
	},
	{
	"epoch": 0.61328125,
	"grad_norm": 0.3008849620819092,
	"learning_rate": 2.6084879160452166e-06,
	"loss": 0.7696,
	"step": 471
	},
	{
	"epoch": 0.6145833333333334,
	"grad_norm": 0.37394464015960693,
	"learning_rate": 2.432407044186509e-06,
	"loss": 0.939,
	"step": 472
	},
	{
	"epoch": 0.6158854166666666,
	"grad_norm": 0.3297758102416992,
	"learning_rate": 2.26240628575615e-06,
	"loss": 0.8087,
	"step": 473
	},
	{
	"epoch": 0.6171875,
	"grad_norm": 0.28165456652641296,
	"learning_rate": 2.098496127201648e-06,
	"loss": 0.8894,
	"step": 474
	},
	{
	"epoch": 0.6184895833333334,
	"grad_norm": 0.315613716840744,
	"learning_rate": 1.9406866792737267e-06,
	"loss": 0.8807,
	"step": 475
	},
	{
	"epoch": 0.6197916666666666,
	"grad_norm": 0.3206324279308319,
	"learning_rate": 1.7889876764024505e-06,
	"loss": 0.8192,
	"step": 476
	},
	{
	"epoch": 0.62109375,
	"grad_norm": 0.3201400339603424,
	"learning_rate": 1.6434084760968697e-06,
	"loss": 0.8754,
	"step": 477
	},
	{
	"epoch": 0.6223958333333334,
	"grad_norm": 0.3509829640388489,
	"learning_rate": 1.5039580583678393e-06,
	"loss": 0.86,
	"step": 478
	},
	{
	"epoch": 0.6236979166666666,
	"grad_norm": 0.2788860499858856,
	"learning_rate": 1.3706450251739613e-06,
	"loss": 0.8008,
	"step": 479
	},
	{
	"epoch": 0.625,
	"grad_norm": 0.3174276649951935,
	"learning_rate": 1.2434775998910964e-06,
	"loss": 0.8038,
	"step": 480
	},
	{
	"epoch": 0.6263020833333334,
	"grad_norm": 0.3377770483493805,
	"learning_rate": 1.1224636268050439e-06,
	"loss": 0.8609,
	"step": 481
	},
	{
	"epoch": 0.6276041666666666,
	"grad_norm": 0.29502376914024353,
	"learning_rate": 1.0076105706276888e-06,
	"loss": 0.8764,
	"step": 482
	},
	{
	"epoch": 0.62890625,
	"grad_norm": 0.30970874428749084,
	"learning_rate": 8.989255160365527e-07,
	"loss": 0.8442,
	"step": 483
	},
	{
	"epoch": 0.6302083333333334,
	"grad_norm": 0.3286643624305725,
	"learning_rate": 7.964151672377458e-07,
	"loss": 0.7697,
	"step": 484
	},
	{
	"epoch": 0.6315104166666666,
	"grad_norm": 0.32877275347709656,
	"learning_rate": 7.000858475524444e-07,
	"loss": 0.8386,
	"step": 485
	},
	{
	"epoch": 0.6328125,
	"grad_norm": 0.31582364439964294,
	"learning_rate": 6.099434990268609e-07,
	"loss": 0.799,
	"step": 486
	},
	{
	"epoch": 0.6341145833333334,
	"grad_norm": 0.32822880148887634,
	"learning_rate": 5.259936820656257e-07,
	"loss": 0.7853,
	"step": 487
	},
	{
	"epoch": 0.6354166666666666,
	"grad_norm": 0.31782621145248413,
	"learning_rate": 4.482415750889204e-07,
	"loss": 0.8704,
	"step": 488
	},
	{
	"epoch": 0.63671875,
	"grad_norm": 0.30536094307899475,
	"learning_rate": 3.766919742129331e-07,
	"loss": 0.8136,
	"step": 489
	},
	{
	"epoch": 0.6380208333333334,
	"grad_norm": 0.31908681988716125,
	"learning_rate": 3.1134929295407564e-07,
	"loss": 0.8366,
	"step": 490
	},
	{
	"epoch": 0.6393229166666666,
	"grad_norm": 0.32564041018486023,
	"learning_rate": 2.5221756195672563e-07,
	"loss": 0.7645,
	"step": 491
	},
	{
	"epoch": 0.640625,
	"grad_norm": 0.30761629343032837,
	"learning_rate": 1.9930042874457254e-07,
	"loss": 0.8334,
	"step": 492
	},
	{
	"epoch": 0.6419270833333334,
	"grad_norm": 0.31079787015914917,
	"learning_rate": 1.5260115749566882e-07,
	"loss": 0.8626,
	"step": 493
	},
	{
	"epoch": 0.6432291666666666,
	"grad_norm": 0.34176650643348694,
	"learning_rate": 1.1212262884103974e-07,
	"loss": 0.69,
	"step": 494
	},
	{
	"epoch": 0.64453125,
	"grad_norm": 0.31278514862060547,
	"learning_rate": 7.7867339686987e-08,
	"loss": 0.8859,
	"step": 495
	},
	{
	"epoch": 0.6458333333333334,
	"grad_norm": 0.30534476041793823,
	"learning_rate": 4.98374030611084e-08,
	"loss": 0.8918,
	"step": 496
	},
	{
	"epoch": 0.6471354166666666,
	"grad_norm": 0.3080224096775055,
	"learning_rate": 2.8034547981943713e-08,
	"loss": 0.8508,
	"step": 497
	},
	{
	"epoch": 0.6484375,
	"grad_norm": 0.3025684654712677,
	"learning_rate": 1.246011935228064e-08,
	"loss": 0.8545,
	"step": 498
	},
	{
	"epoch": 0.6497395833333334,
	"grad_norm": 0.3287234604358673,
	"learning_rate": 3.115077876243988e-09,
	"loss": 0.8297,
	"step": 499
	},
	{
	"epoch": 0.6510416666666666,
	"grad_norm": 0.34251466393470764,
	"learning_rate": 0.0,
	"loss": 0.8901,
	"step": 500
	}
	],
	"logging_steps": 1,
	"max_steps": 500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.827040194259845e+17,
	"train_batch_size": 6,
	"trial_name": null,
	"trial_params": null
	}