gemma-2-2b-it-LoRA / checkpoint-240 /trainer_state.json

Upload folder using huggingface_hub

64ba071 verified 3 months ago

20.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 240,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.016666666666666666,
	"grad_norm": 4.380008697509766,
	"learning_rate": 8.333333333333334e-06,
	"loss": 3.8472,
	"step": 2
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 5.4320220947265625,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 4.4355,
	"step": 4
	},
	{
	"epoch": 0.05,
	"grad_norm": 5.495668411254883,
	"learning_rate": 2.5e-05,
	"loss": 4.0183,
	"step": 6
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 5.333839416503906,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 4.4543,
	"step": 8
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 4.8141961097717285,
	"learning_rate": 4.166666666666667e-05,
	"loss": 4.0576,
	"step": 10
	},
	{
	"epoch": 0.1,
	"grad_norm": 4.4542341232299805,
	"learning_rate": 5e-05,
	"loss": 3.3098,
	"step": 12
	},
	{
	"epoch": 0.11666666666666667,
	"grad_norm": 4.608759880065918,
	"learning_rate": 5.833333333333334e-05,
	"loss": 3.3983,
	"step": 14
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 3.7876033782958984,
	"learning_rate": 6.666666666666667e-05,
	"loss": 2.7265,
	"step": 16
	},
	{
	"epoch": 0.15,
	"grad_norm": 4.206045627593994,
	"learning_rate": 7.500000000000001e-05,
	"loss": 2.4786,
	"step": 18
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 4.687928676605225,
	"learning_rate": 8.333333333333334e-05,
	"loss": 2.2298,
	"step": 20
	},
	{
	"epoch": 0.18333333333333332,
	"grad_norm": 4.639834880828857,
	"learning_rate": 9.166666666666667e-05,
	"loss": 2.5465,
	"step": 22
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.179326057434082,
	"learning_rate": 0.0001,
	"loss": 2.0804,
	"step": 24
	},
	{
	"epoch": 0.21666666666666667,
	"grad_norm": 4.4850287437438965,
	"learning_rate": 0.00010833333333333333,
	"loss": 2.0512,
	"step": 26
	},
	{
	"epoch": 0.23333333333333334,
	"grad_norm": 5.006600379943848,
	"learning_rate": 0.00011666666666666668,
	"loss": 2.1484,
	"step": 28
	},
	{
	"epoch": 0.25,
	"grad_norm": 4.475966453552246,
	"learning_rate": 0.000125,
	"loss": 1.9871,
	"step": 30
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 4.605421543121338,
	"learning_rate": 0.00013333333333333334,
	"loss": 2.1455,
	"step": 32
	},
	{
	"epoch": 0.2833333333333333,
	"grad_norm": 4.921014785766602,
	"learning_rate": 0.00014166666666666668,
	"loss": 1.9162,
	"step": 34
	},
	{
	"epoch": 0.3,
	"grad_norm": 4.6443634033203125,
	"learning_rate": 0.00015000000000000001,
	"loss": 2.0503,
	"step": 36
	},
	{
	"epoch": 0.31666666666666665,
	"grad_norm": 4.234635353088379,
	"learning_rate": 0.00015833333333333332,
	"loss": 2.0901,
	"step": 38
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 4.628840446472168,
	"learning_rate": 0.0001666666666666667,
	"loss": 1.8014,
	"step": 40
	},
	{
	"epoch": 0.35,
	"grad_norm": 3.8235278129577637,
	"learning_rate": 0.000175,
	"loss": 1.8156,
	"step": 42
	},
	{
	"epoch": 0.36666666666666664,
	"grad_norm": 5.939589500427246,
	"learning_rate": 0.00018333333333333334,
	"loss": 1.7782,
	"step": 44
	},
	{
	"epoch": 0.38333333333333336,
	"grad_norm": 4.921348571777344,
	"learning_rate": 0.00019166666666666667,
	"loss": 1.7167,
	"step": 46
	},
	{
	"epoch": 0.4,
	"grad_norm": 4.549618244171143,
	"learning_rate": 0.0002,
	"loss": 2.2041,
	"step": 48
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 4.085502624511719,
	"learning_rate": 0.00019998942319271077,
	"loss": 1.8483,
	"step": 50
	},
	{
	"epoch": 0.43333333333333335,
	"grad_norm": 3.6243653297424316,
	"learning_rate": 0.0001999576950082201,
	"loss": 2.0321,
	"step": 52
	},
	{
	"epoch": 0.45,
	"grad_norm": 3.530813455581665,
	"learning_rate": 0.0001999048221581858,
	"loss": 1.819,
	"step": 54
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 3.175443649291992,
	"learning_rate": 0.00019983081582712685,
	"loss": 1.7011,
	"step": 56
	},
	{
	"epoch": 0.48333333333333334,
	"grad_norm": 3.0620853900909424,
	"learning_rate": 0.00019973569167005723,
	"loss": 1.6158,
	"step": 58
	},
	{
	"epoch": 0.5,
	"grad_norm": 3.984229564666748,
	"learning_rate": 0.00019961946980917456,
	"loss": 1.8606,
	"step": 60
	},
	{
	"epoch": 0.5166666666666667,
	"grad_norm": 3.717822313308716,
	"learning_rate": 0.0001994821748296033,
	"loss": 1.7937,
	"step": 62
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 4.549349308013916,
	"learning_rate": 0.00019932383577419432,
	"loss": 1.9389,
	"step": 64
	},
	{
	"epoch": 0.55,
	"grad_norm": 4.229006767272949,
	"learning_rate": 0.00019914448613738106,
	"loss": 1.5434,
	"step": 66
	},
	{
	"epoch": 0.5666666666666667,
	"grad_norm": 3.5755157470703125,
	"learning_rate": 0.00019894416385809444,
	"loss": 1.6555,
	"step": 68
	},
	{
	"epoch": 0.5833333333333334,
	"grad_norm": 3.2299246788024902,
	"learning_rate": 0.00019872291131173742,
	"loss": 1.7088,
	"step": 70
	},
	{
	"epoch": 0.6,
	"grad_norm": 3.777369260787964,
	"learning_rate": 0.00019848077530122083,
	"loss": 1.7569,
	"step": 72
	},
	{
	"epoch": 0.6166666666666667,
	"grad_norm": 3.143406629562378,
	"learning_rate": 0.00019821780704706307,
	"loss": 1.7495,
	"step": 74
	},
	{
	"epoch": 0.6333333333333333,
	"grad_norm": 3.655970811843872,
	"learning_rate": 0.00019793406217655517,
	"loss": 1.6553,
	"step": 76
	},
	{
	"epoch": 0.65,
	"grad_norm": 3.4324283599853516,
	"learning_rate": 0.00019762960071199333,
	"loss": 1.5155,
	"step": 78
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 3.7328310012817383,
	"learning_rate": 0.00019730448705798239,
	"loss": 1.8168,
	"step": 80
	},
	{
	"epoch": 0.6833333333333333,
	"grad_norm": 3.8750150203704834,
	"learning_rate": 0.0001969587899878116,
	"loss": 1.705,
	"step": 82
	},
	{
	"epoch": 0.7,
	"grad_norm": 4.362231254577637,
	"learning_rate": 0.00019659258262890683,
	"loss": 1.3282,
	"step": 84
	},
	{
	"epoch": 0.7166666666666667,
	"grad_norm": 3.3029322624206543,
	"learning_rate": 0.00019620594244736133,
	"loss": 1.4785,
	"step": 86
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 3.272670269012451,
	"learning_rate": 0.0001957989512315489,
	"loss": 1.7328,
	"step": 88
	},
	{
	"epoch": 0.75,
	"grad_norm": 4.447598457336426,
	"learning_rate": 0.0001953716950748227,
	"loss": 1.8185,
	"step": 90
	},
	{
	"epoch": 0.7666666666666667,
	"grad_norm": 2.942129373550415,
	"learning_rate": 0.0001949242643573034,
	"loss": 1.6651,
	"step": 92
	},
	{
	"epoch": 0.7833333333333333,
	"grad_norm": 3.0011799335479736,
	"learning_rate": 0.0001944567537267605,
	"loss": 1.8555,
	"step": 94
	},
	{
	"epoch": 0.8,
	"grad_norm": 3.2934067249298096,
	"learning_rate": 0.00019396926207859084,
	"loss": 1.5531,
	"step": 96
	},
	{
	"epoch": 0.8166666666666667,
	"grad_norm": 3.1889824867248535,
	"learning_rate": 0.00019346189253489885,
	"loss": 1.8412,
	"step": 98
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 2.921942949295044,
	"learning_rate": 0.00019293475242268223,
	"loss": 1.4985,
	"step": 100
	},
	{
	"epoch": 0.85,
	"grad_norm": 3.1884875297546387,
	"learning_rate": 0.0001923879532511287,
	"loss": 1.5736,
	"step": 102
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 3.4869801998138428,
	"learning_rate": 0.00019182161068802741,
	"loss": 1.4873,
	"step": 104
	},
	{
	"epoch": 0.8833333333333333,
	"grad_norm": 2.8857343196868896,
	"learning_rate": 0.00019123584453530144,
	"loss": 1.4827,
	"step": 106
	},
	{
	"epoch": 0.9,
	"grad_norm": 4.214871406555176,
	"learning_rate": 0.000190630778703665,
	"loss": 1.6214,
	"step": 108
	},
	{
	"epoch": 0.9166666666666666,
	"grad_norm": 3.495774984359741,
	"learning_rate": 0.00019000654118641211,
	"loss": 1.6193,
	"step": 110
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 3.5762667655944824,
	"learning_rate": 0.00018936326403234125,
	"loss": 1.5264,
	"step": 112
	},
	{
	"epoch": 0.95,
	"grad_norm": 3.465022563934326,
	"learning_rate": 0.00018870108331782217,
	"loss": 1.6963,
	"step": 114
	},
	{
	"epoch": 0.9666666666666667,
	"grad_norm": 3.743870973587036,
	"learning_rate": 0.00018802013911801112,
	"loss": 1.6291,
	"step": 116
	},
	{
	"epoch": 0.9833333333333333,
	"grad_norm": 4.362145900726318,
	"learning_rate": 0.0001873205754772196,
	"loss": 1.3957,
	"step": 118
	},
	{
	"epoch": 1.0,
	"grad_norm": 3.093210220336914,
	"learning_rate": 0.00018660254037844388,
	"loss": 1.5895,
	"step": 120
	},
	{
	"epoch": 1.0166666666666666,
	"grad_norm": 3.2383241653442383,
	"learning_rate": 0.00018586618571206134,
	"loss": 1.1764,
	"step": 122
	},
	{
	"epoch": 1.0333333333333334,
	"grad_norm": 3.522508144378662,
	"learning_rate": 0.00018511166724369997,
	"loss": 1.225,
	"step": 124
	},
	{
	"epoch": 1.05,
	"grad_norm": 2.7789227962493896,
	"learning_rate": 0.0001843391445812886,
	"loss": 1.0999,
	"step": 126
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 3.2942252159118652,
	"learning_rate": 0.00018354878114129367,
	"loss": 1.1459,
	"step": 128
	},
	{
	"epoch": 1.0833333333333333,
	"grad_norm": 3.0693302154541016,
	"learning_rate": 0.00018274074411415105,
	"loss": 1.0881,
	"step": 130
	},
	{
	"epoch": 1.1,
	"grad_norm": NaN,
	"learning_rate": 0.00018233015127566807,
	"loss": 1.2143,
	"step": 132
	},
	{
	"epoch": 1.1166666666666667,
	"grad_norm": 3.5694239139556885,
	"learning_rate": 0.0001814959255181988,
	"loss": 0.9691,
	"step": 134
	},
	{
	"epoch": 1.1333333333333333,
	"grad_norm": 3.9906177520751953,
	"learning_rate": 0.00018064446042674828,
	"loss": 1.1584,
	"step": 136
	},
	{
	"epoch": 1.15,
	"grad_norm": 3.965775966644287,
	"learning_rate": 0.00017977593611696015,
	"loss": 0.985,
	"step": 138
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 5.350390911102295,
	"learning_rate": 0.00017889053631311947,
	"loss": 1.3574,
	"step": 140
	},
	{
	"epoch": 1.1833333333333333,
	"grad_norm": 3.8706905841827393,
	"learning_rate": 0.00017798844830928817,
	"loss": 1.159,
	"step": 142
	},
	{
	"epoch": 1.2,
	"grad_norm": 3.463747024536133,
	"learning_rate": 0.00017706986292968582,
	"loss": 1.046,
	"step": 144
	},
	{
	"epoch": 1.2166666666666668,
	"grad_norm": 3.620864152908325,
	"learning_rate": 0.00017613497448832312,
	"loss": 0.9971,
	"step": 146
	},
	{
	"epoch": 1.2333333333333334,
	"grad_norm": 3.640916347503662,
	"learning_rate": 0.00017518398074789775,
	"loss": 0.8718,
	"step": 148
	},
	{
	"epoch": 1.25,
	"grad_norm": 3.4872817993164062,
	"learning_rate": 0.00017421708287796017,
	"loss": 1.1691,
	"step": 150
	},
	{
	"epoch": 1.2666666666666666,
	"grad_norm": 4.584655284881592,
	"learning_rate": 0.00017323448541235924,
	"loss": 1.1967,
	"step": 152
	},
	{
	"epoch": 1.2833333333333332,
	"grad_norm": 3.5487728118896484,
	"learning_rate": 0.00017223639620597556,
	"loss": 1.0054,
	"step": 154
	},
	{
	"epoch": 1.3,
	"grad_norm": 5.228781223297119,
	"learning_rate": 0.0001712230263907531,
	"loss": 1.4971,
	"step": 156
	},
	{
	"epoch": 1.3166666666666667,
	"grad_norm": 3.641235828399658,
	"learning_rate": 0.00017019459033103682,
	"loss": 0.8541,
	"step": 158
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 3.952843427658081,
	"learning_rate": 0.00016915130557822695,
	"loss": 0.9685,
	"step": 160
	},
	{
	"epoch": 1.35,
	"grad_norm": 3.3446860313415527,
	"learning_rate": 0.00016809339282475904,
	"loss": 0.7522,
	"step": 162
	},
	{
	"epoch": 1.3666666666666667,
	"grad_norm": 2.8159420490264893,
	"learning_rate": 0.0001670210758574196,
	"loss": 0.7398,
	"step": 164
	},
	{
	"epoch": 1.3833333333333333,
	"grad_norm": 4.205153942108154,
	"learning_rate": 0.00016593458151000688,
	"loss": 1.1048,
	"step": 166
	},
	{
	"epoch": 1.4,
	"grad_norm": 3.777249336242676,
	"learning_rate": 0.00016483413961534762,
	"loss": 1.0596,
	"step": 168
	},
	{
	"epoch": 1.4166666666666667,
	"grad_norm": 4.2157440185546875,
	"learning_rate": 0.00016371998295667886,
	"loss": 0.8744,
	"step": 170
	},
	{
	"epoch": 1.4333333333333333,
	"grad_norm": 5.198025703430176,
	"learning_rate": 0.00016259234721840591,
	"loss": 1.1068,
	"step": 172
	},
	{
	"epoch": 1.45,
	"grad_norm": 4.17173957824707,
	"learning_rate": 0.00016145147093624677,
	"loss": 0.7444,
	"step": 174
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 5.4046311378479,
	"learning_rate": 0.00016029759544677297,
	"loss": 1.0724,
	"step": 176
	},
	{
	"epoch": 1.4833333333333334,
	"grad_norm": 3.2475147247314453,
	"learning_rate": 0.00015913096483635824,
	"loss": 0.9882,
	"step": 178
	},
	{
	"epoch": 1.5,
	"grad_norm": 3.927030324935913,
	"learning_rate": 0.0001579518258895455,
	"loss": 0.7172,
	"step": 180
	},
	{
	"epoch": 1.5166666666666666,
	"grad_norm": 3.783529758453369,
	"learning_rate": 0.00015676042803684288,
	"loss": 1.117,
	"step": 182
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 4.151139736175537,
	"learning_rate": 0.00015555702330196023,
	"loss": 0.8876,
	"step": 184
	},
	{
	"epoch": 1.55,
	"grad_norm": 4.858468055725098,
	"learning_rate": 0.000154341866248497,
	"loss": 0.818,
	"step": 186
	},
	{
	"epoch": 1.5666666666666667,
	"grad_norm": 5.292931079864502,
	"learning_rate": 0.00015311521392609282,
	"loss": 1.1459,
	"step": 188
	},
	{
	"epoch": 1.5833333333333335,
	"grad_norm": 5.330478668212891,
	"learning_rate": 0.00015187732581605217,
	"loss": 1.1276,
	"step": 190
	},
	{
	"epoch": 1.6,
	"grad_norm": 4.155002117156982,
	"learning_rate": 0.00015062846377645475,
	"loss": 1.0617,
	"step": 192
	},
	{
	"epoch": 1.6166666666666667,
	"grad_norm": 4.212536334991455,
	"learning_rate": 0.00014936889198676303,
	"loss": 0.7472,
	"step": 194
	},
	{
	"epoch": 1.6333333333333333,
	"grad_norm": 3.7566754817962646,
	"learning_rate": 0.00014809887689193877,
	"loss": 1.1331,
	"step": 196
	},
	{
	"epoch": 1.65,
	"grad_norm": 3.677277088165283,
	"learning_rate": 0.0001468186871460802,
	"loss": 0.7747,
	"step": 198
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 4.946069717407227,
	"learning_rate": 0.00014552859355559204,
	"loss": 1.333,
	"step": 200
	},
	{
	"epoch": 1.6833333333333333,
	"grad_norm": 4.023520469665527,
	"learning_rate": 0.00014422886902190014,
	"loss": 0.8673,
	"step": 202
	},
	{
	"epoch": 1.7,
	"grad_norm": 3.5782713890075684,
	"learning_rate": 0.00014291978848372293,
	"loss": 0.8761,
	"step": 204
	},
	{
	"epoch": 1.7166666666666668,
	"grad_norm": 2.9059038162231445,
	"learning_rate": 0.00014160162885891193,
	"loss": 0.7392,
	"step": 206
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 4.512781143188477,
	"learning_rate": 0.00014027466898587374,
	"loss": 1.0393,
	"step": 208
	},
	{
	"epoch": 1.75,
	"grad_norm": 4.064301013946533,
	"learning_rate": 0.00013893918956458552,
	"loss": 1.1425,
	"step": 210
	},
	{
	"epoch": 1.7666666666666666,
	"grad_norm": 3.854093313217163,
	"learning_rate": 0.0001375954730972168,
	"loss": 0.8584,
	"step": 212
	},
	{
	"epoch": 1.7833333333333332,
	"grad_norm": 4.655716896057129,
	"learning_rate": 0.00013624380382837016,
	"loss": 1.0068,
	"step": 214
	},
	{
	"epoch": 1.8,
	"grad_norm": 4.099919319152832,
	"learning_rate": 0.0001348844676849531,
	"loss": 1.0037,
	"step": 216
	},
	{
	"epoch": 1.8166666666666667,
	"grad_norm": 4.197730541229248,
	"learning_rate": 0.00013351775221569415,
	"loss": 0.9886,
	"step": 218
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 4.721825122833252,
	"learning_rate": 0.00013214394653031616,
	"loss": 0.7593,
	"step": 220
	},
	{
	"epoch": 1.85,
	"grad_norm": 3.716853618621826,
	"learning_rate": 0.00013076334123837883,
	"loss": 1.0082,
	"step": 222
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 3.670105218887329,
	"learning_rate": 0.00012937622838780444,
	"loss": 1.0315,
	"step": 224
	},
	{
	"epoch": 1.8833333333333333,
	"grad_norm": 4.269951343536377,
	"learning_rate": 0.00012798290140309923,
	"loss": 0.8955,
	"step": 226
	},
	{
	"epoch": 1.9,
	"grad_norm": 3.60205078125,
	"learning_rate": 0.0001265836550232833,
	"loss": 1.1489,
	"step": 228
	},
	{
	"epoch": 1.9166666666666665,
	"grad_norm": 3.538810968399048,
	"learning_rate": 0.00012517878523954286,
	"loss": 0.799,
	"step": 230
	},
	{
	"epoch": 1.9333333333333333,
	"grad_norm": 4.749423980712891,
	"learning_rate": 0.00012376858923261733,
	"loss": 1.1039,
	"step": 232
	},
	{
	"epoch": 1.95,
	"grad_norm": 4.193479537963867,
	"learning_rate": 0.00012235336530993474,
	"loss": 0.8296,
	"step": 234
	},
	{
	"epoch": 1.9666666666666668,
	"grad_norm": 4.116739273071289,
	"learning_rate": 0.0001209334128425092,
	"loss": 1.0921,
	"step": 236
	},
	{
	"epoch": 1.9833333333333334,
	"grad_norm": 4.641618728637695,
	"learning_rate": 0.00011950903220161285,
	"loss": 1.0626,
	"step": 238
	},
	{
	"epoch": 2.0,
	"grad_norm": 3.8030502796173096,
	"learning_rate": 0.00011808052469523654,
	"loss": 0.8727,
	"step": 240
	}
	],
	"logging_steps": 2,
	"max_steps": 480,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 120,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 6031789743144960.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}