gemma-2-2b-it-LoRA / checkpoint-240 /trainer_state.json
Serveurperso's picture
Upload folder using huggingface_hub
64ba071 verified
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 2.0,
"eval_steps": 500,
"global_step": 240,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.016666666666666666,
"grad_norm": 4.380008697509766,
"learning_rate": 8.333333333333334e-06,
"loss": 3.8472,
"step": 2
},
{
"epoch": 0.03333333333333333,
"grad_norm": 5.4320220947265625,
"learning_rate": 1.6666666666666667e-05,
"loss": 4.4355,
"step": 4
},
{
"epoch": 0.05,
"grad_norm": 5.495668411254883,
"learning_rate": 2.5e-05,
"loss": 4.0183,
"step": 6
},
{
"epoch": 0.06666666666666667,
"grad_norm": 5.333839416503906,
"learning_rate": 3.3333333333333335e-05,
"loss": 4.4543,
"step": 8
},
{
"epoch": 0.08333333333333333,
"grad_norm": 4.8141961097717285,
"learning_rate": 4.166666666666667e-05,
"loss": 4.0576,
"step": 10
},
{
"epoch": 0.1,
"grad_norm": 4.4542341232299805,
"learning_rate": 5e-05,
"loss": 3.3098,
"step": 12
},
{
"epoch": 0.11666666666666667,
"grad_norm": 4.608759880065918,
"learning_rate": 5.833333333333334e-05,
"loss": 3.3983,
"step": 14
},
{
"epoch": 0.13333333333333333,
"grad_norm": 3.7876033782958984,
"learning_rate": 6.666666666666667e-05,
"loss": 2.7265,
"step": 16
},
{
"epoch": 0.15,
"grad_norm": 4.206045627593994,
"learning_rate": 7.500000000000001e-05,
"loss": 2.4786,
"step": 18
},
{
"epoch": 0.16666666666666666,
"grad_norm": 4.687928676605225,
"learning_rate": 8.333333333333334e-05,
"loss": 2.2298,
"step": 20
},
{
"epoch": 0.18333333333333332,
"grad_norm": 4.639834880828857,
"learning_rate": 9.166666666666667e-05,
"loss": 2.5465,
"step": 22
},
{
"epoch": 0.2,
"grad_norm": 4.179326057434082,
"learning_rate": 0.0001,
"loss": 2.0804,
"step": 24
},
{
"epoch": 0.21666666666666667,
"grad_norm": 4.4850287437438965,
"learning_rate": 0.00010833333333333333,
"loss": 2.0512,
"step": 26
},
{
"epoch": 0.23333333333333334,
"grad_norm": 5.006600379943848,
"learning_rate": 0.00011666666666666668,
"loss": 2.1484,
"step": 28
},
{
"epoch": 0.25,
"grad_norm": 4.475966453552246,
"learning_rate": 0.000125,
"loss": 1.9871,
"step": 30
},
{
"epoch": 0.26666666666666666,
"grad_norm": 4.605421543121338,
"learning_rate": 0.00013333333333333334,
"loss": 2.1455,
"step": 32
},
{
"epoch": 0.2833333333333333,
"grad_norm": 4.921014785766602,
"learning_rate": 0.00014166666666666668,
"loss": 1.9162,
"step": 34
},
{
"epoch": 0.3,
"grad_norm": 4.6443634033203125,
"learning_rate": 0.00015000000000000001,
"loss": 2.0503,
"step": 36
},
{
"epoch": 0.31666666666666665,
"grad_norm": 4.234635353088379,
"learning_rate": 0.00015833333333333332,
"loss": 2.0901,
"step": 38
},
{
"epoch": 0.3333333333333333,
"grad_norm": 4.628840446472168,
"learning_rate": 0.0001666666666666667,
"loss": 1.8014,
"step": 40
},
{
"epoch": 0.35,
"grad_norm": 3.8235278129577637,
"learning_rate": 0.000175,
"loss": 1.8156,
"step": 42
},
{
"epoch": 0.36666666666666664,
"grad_norm": 5.939589500427246,
"learning_rate": 0.00018333333333333334,
"loss": 1.7782,
"step": 44
},
{
"epoch": 0.38333333333333336,
"grad_norm": 4.921348571777344,
"learning_rate": 0.00019166666666666667,
"loss": 1.7167,
"step": 46
},
{
"epoch": 0.4,
"grad_norm": 4.549618244171143,
"learning_rate": 0.0002,
"loss": 2.2041,
"step": 48
},
{
"epoch": 0.4166666666666667,
"grad_norm": 4.085502624511719,
"learning_rate": 0.00019998942319271077,
"loss": 1.8483,
"step": 50
},
{
"epoch": 0.43333333333333335,
"grad_norm": 3.6243653297424316,
"learning_rate": 0.0001999576950082201,
"loss": 2.0321,
"step": 52
},
{
"epoch": 0.45,
"grad_norm": 3.530813455581665,
"learning_rate": 0.0001999048221581858,
"loss": 1.819,
"step": 54
},
{
"epoch": 0.4666666666666667,
"grad_norm": 3.175443649291992,
"learning_rate": 0.00019983081582712685,
"loss": 1.7011,
"step": 56
},
{
"epoch": 0.48333333333333334,
"grad_norm": 3.0620853900909424,
"learning_rate": 0.00019973569167005723,
"loss": 1.6158,
"step": 58
},
{
"epoch": 0.5,
"grad_norm": 3.984229564666748,
"learning_rate": 0.00019961946980917456,
"loss": 1.8606,
"step": 60
},
{
"epoch": 0.5166666666666667,
"grad_norm": 3.717822313308716,
"learning_rate": 0.0001994821748296033,
"loss": 1.7937,
"step": 62
},
{
"epoch": 0.5333333333333333,
"grad_norm": 4.549349308013916,
"learning_rate": 0.00019932383577419432,
"loss": 1.9389,
"step": 64
},
{
"epoch": 0.55,
"grad_norm": 4.229006767272949,
"learning_rate": 0.00019914448613738106,
"loss": 1.5434,
"step": 66
},
{
"epoch": 0.5666666666666667,
"grad_norm": 3.5755157470703125,
"learning_rate": 0.00019894416385809444,
"loss": 1.6555,
"step": 68
},
{
"epoch": 0.5833333333333334,
"grad_norm": 3.2299246788024902,
"learning_rate": 0.00019872291131173742,
"loss": 1.7088,
"step": 70
},
{
"epoch": 0.6,
"grad_norm": 3.777369260787964,
"learning_rate": 0.00019848077530122083,
"loss": 1.7569,
"step": 72
},
{
"epoch": 0.6166666666666667,
"grad_norm": 3.143406629562378,
"learning_rate": 0.00019821780704706307,
"loss": 1.7495,
"step": 74
},
{
"epoch": 0.6333333333333333,
"grad_norm": 3.655970811843872,
"learning_rate": 0.00019793406217655517,
"loss": 1.6553,
"step": 76
},
{
"epoch": 0.65,
"grad_norm": 3.4324283599853516,
"learning_rate": 0.00019762960071199333,
"loss": 1.5155,
"step": 78
},
{
"epoch": 0.6666666666666666,
"grad_norm": 3.7328310012817383,
"learning_rate": 0.00019730448705798239,
"loss": 1.8168,
"step": 80
},
{
"epoch": 0.6833333333333333,
"grad_norm": 3.8750150203704834,
"learning_rate": 0.0001969587899878116,
"loss": 1.705,
"step": 82
},
{
"epoch": 0.7,
"grad_norm": 4.362231254577637,
"learning_rate": 0.00019659258262890683,
"loss": 1.3282,
"step": 84
},
{
"epoch": 0.7166666666666667,
"grad_norm": 3.3029322624206543,
"learning_rate": 0.00019620594244736133,
"loss": 1.4785,
"step": 86
},
{
"epoch": 0.7333333333333333,
"grad_norm": 3.272670269012451,
"learning_rate": 0.0001957989512315489,
"loss": 1.7328,
"step": 88
},
{
"epoch": 0.75,
"grad_norm": 4.447598457336426,
"learning_rate": 0.0001953716950748227,
"loss": 1.8185,
"step": 90
},
{
"epoch": 0.7666666666666667,
"grad_norm": 2.942129373550415,
"learning_rate": 0.0001949242643573034,
"loss": 1.6651,
"step": 92
},
{
"epoch": 0.7833333333333333,
"grad_norm": 3.0011799335479736,
"learning_rate": 0.0001944567537267605,
"loss": 1.8555,
"step": 94
},
{
"epoch": 0.8,
"grad_norm": 3.2934067249298096,
"learning_rate": 0.00019396926207859084,
"loss": 1.5531,
"step": 96
},
{
"epoch": 0.8166666666666667,
"grad_norm": 3.1889824867248535,
"learning_rate": 0.00019346189253489885,
"loss": 1.8412,
"step": 98
},
{
"epoch": 0.8333333333333334,
"grad_norm": 2.921942949295044,
"learning_rate": 0.00019293475242268223,
"loss": 1.4985,
"step": 100
},
{
"epoch": 0.85,
"grad_norm": 3.1884875297546387,
"learning_rate": 0.0001923879532511287,
"loss": 1.5736,
"step": 102
},
{
"epoch": 0.8666666666666667,
"grad_norm": 3.4869801998138428,
"learning_rate": 0.00019182161068802741,
"loss": 1.4873,
"step": 104
},
{
"epoch": 0.8833333333333333,
"grad_norm": 2.8857343196868896,
"learning_rate": 0.00019123584453530144,
"loss": 1.4827,
"step": 106
},
{
"epoch": 0.9,
"grad_norm": 4.214871406555176,
"learning_rate": 0.000190630778703665,
"loss": 1.6214,
"step": 108
},
{
"epoch": 0.9166666666666666,
"grad_norm": 3.495774984359741,
"learning_rate": 0.00019000654118641211,
"loss": 1.6193,
"step": 110
},
{
"epoch": 0.9333333333333333,
"grad_norm": 3.5762667655944824,
"learning_rate": 0.00018936326403234125,
"loss": 1.5264,
"step": 112
},
{
"epoch": 0.95,
"grad_norm": 3.465022563934326,
"learning_rate": 0.00018870108331782217,
"loss": 1.6963,
"step": 114
},
{
"epoch": 0.9666666666666667,
"grad_norm": 3.743870973587036,
"learning_rate": 0.00018802013911801112,
"loss": 1.6291,
"step": 116
},
{
"epoch": 0.9833333333333333,
"grad_norm": 4.362145900726318,
"learning_rate": 0.0001873205754772196,
"loss": 1.3957,
"step": 118
},
{
"epoch": 1.0,
"grad_norm": 3.093210220336914,
"learning_rate": 0.00018660254037844388,
"loss": 1.5895,
"step": 120
},
{
"epoch": 1.0166666666666666,
"grad_norm": 3.2383241653442383,
"learning_rate": 0.00018586618571206134,
"loss": 1.1764,
"step": 122
},
{
"epoch": 1.0333333333333334,
"grad_norm": 3.522508144378662,
"learning_rate": 0.00018511166724369997,
"loss": 1.225,
"step": 124
},
{
"epoch": 1.05,
"grad_norm": 2.7789227962493896,
"learning_rate": 0.0001843391445812886,
"loss": 1.0999,
"step": 126
},
{
"epoch": 1.0666666666666667,
"grad_norm": 3.2942252159118652,
"learning_rate": 0.00018354878114129367,
"loss": 1.1459,
"step": 128
},
{
"epoch": 1.0833333333333333,
"grad_norm": 3.0693302154541016,
"learning_rate": 0.00018274074411415105,
"loss": 1.0881,
"step": 130
},
{
"epoch": 1.1,
"grad_norm": NaN,
"learning_rate": 0.00018233015127566807,
"loss": 1.2143,
"step": 132
},
{
"epoch": 1.1166666666666667,
"grad_norm": 3.5694239139556885,
"learning_rate": 0.0001814959255181988,
"loss": 0.9691,
"step": 134
},
{
"epoch": 1.1333333333333333,
"grad_norm": 3.9906177520751953,
"learning_rate": 0.00018064446042674828,
"loss": 1.1584,
"step": 136
},
{
"epoch": 1.15,
"grad_norm": 3.965775966644287,
"learning_rate": 0.00017977593611696015,
"loss": 0.985,
"step": 138
},
{
"epoch": 1.1666666666666667,
"grad_norm": 5.350390911102295,
"learning_rate": 0.00017889053631311947,
"loss": 1.3574,
"step": 140
},
{
"epoch": 1.1833333333333333,
"grad_norm": 3.8706905841827393,
"learning_rate": 0.00017798844830928817,
"loss": 1.159,
"step": 142
},
{
"epoch": 1.2,
"grad_norm": 3.463747024536133,
"learning_rate": 0.00017706986292968582,
"loss": 1.046,
"step": 144
},
{
"epoch": 1.2166666666666668,
"grad_norm": 3.620864152908325,
"learning_rate": 0.00017613497448832312,
"loss": 0.9971,
"step": 146
},
{
"epoch": 1.2333333333333334,
"grad_norm": 3.640916347503662,
"learning_rate": 0.00017518398074789775,
"loss": 0.8718,
"step": 148
},
{
"epoch": 1.25,
"grad_norm": 3.4872817993164062,
"learning_rate": 0.00017421708287796017,
"loss": 1.1691,
"step": 150
},
{
"epoch": 1.2666666666666666,
"grad_norm": 4.584655284881592,
"learning_rate": 0.00017323448541235924,
"loss": 1.1967,
"step": 152
},
{
"epoch": 1.2833333333333332,
"grad_norm": 3.5487728118896484,
"learning_rate": 0.00017223639620597556,
"loss": 1.0054,
"step": 154
},
{
"epoch": 1.3,
"grad_norm": 5.228781223297119,
"learning_rate": 0.0001712230263907531,
"loss": 1.4971,
"step": 156
},
{
"epoch": 1.3166666666666667,
"grad_norm": 3.641235828399658,
"learning_rate": 0.00017019459033103682,
"loss": 0.8541,
"step": 158
},
{
"epoch": 1.3333333333333333,
"grad_norm": 3.952843427658081,
"learning_rate": 0.00016915130557822695,
"loss": 0.9685,
"step": 160
},
{
"epoch": 1.35,
"grad_norm": 3.3446860313415527,
"learning_rate": 0.00016809339282475904,
"loss": 0.7522,
"step": 162
},
{
"epoch": 1.3666666666666667,
"grad_norm": 2.8159420490264893,
"learning_rate": 0.0001670210758574196,
"loss": 0.7398,
"step": 164
},
{
"epoch": 1.3833333333333333,
"grad_norm": 4.205153942108154,
"learning_rate": 0.00016593458151000688,
"loss": 1.1048,
"step": 166
},
{
"epoch": 1.4,
"grad_norm": 3.777249336242676,
"learning_rate": 0.00016483413961534762,
"loss": 1.0596,
"step": 168
},
{
"epoch": 1.4166666666666667,
"grad_norm": 4.2157440185546875,
"learning_rate": 0.00016371998295667886,
"loss": 0.8744,
"step": 170
},
{
"epoch": 1.4333333333333333,
"grad_norm": 5.198025703430176,
"learning_rate": 0.00016259234721840591,
"loss": 1.1068,
"step": 172
},
{
"epoch": 1.45,
"grad_norm": 4.17173957824707,
"learning_rate": 0.00016145147093624677,
"loss": 0.7444,
"step": 174
},
{
"epoch": 1.4666666666666668,
"grad_norm": 5.4046311378479,
"learning_rate": 0.00016029759544677297,
"loss": 1.0724,
"step": 176
},
{
"epoch": 1.4833333333333334,
"grad_norm": 3.2475147247314453,
"learning_rate": 0.00015913096483635824,
"loss": 0.9882,
"step": 178
},
{
"epoch": 1.5,
"grad_norm": 3.927030324935913,
"learning_rate": 0.0001579518258895455,
"loss": 0.7172,
"step": 180
},
{
"epoch": 1.5166666666666666,
"grad_norm": 3.783529758453369,
"learning_rate": 0.00015676042803684288,
"loss": 1.117,
"step": 182
},
{
"epoch": 1.5333333333333332,
"grad_norm": 4.151139736175537,
"learning_rate": 0.00015555702330196023,
"loss": 0.8876,
"step": 184
},
{
"epoch": 1.55,
"grad_norm": 4.858468055725098,
"learning_rate": 0.000154341866248497,
"loss": 0.818,
"step": 186
},
{
"epoch": 1.5666666666666667,
"grad_norm": 5.292931079864502,
"learning_rate": 0.00015311521392609282,
"loss": 1.1459,
"step": 188
},
{
"epoch": 1.5833333333333335,
"grad_norm": 5.330478668212891,
"learning_rate": 0.00015187732581605217,
"loss": 1.1276,
"step": 190
},
{
"epoch": 1.6,
"grad_norm": 4.155002117156982,
"learning_rate": 0.00015062846377645475,
"loss": 1.0617,
"step": 192
},
{
"epoch": 1.6166666666666667,
"grad_norm": 4.212536334991455,
"learning_rate": 0.00014936889198676303,
"loss": 0.7472,
"step": 194
},
{
"epoch": 1.6333333333333333,
"grad_norm": 3.7566754817962646,
"learning_rate": 0.00014809887689193877,
"loss": 1.1331,
"step": 196
},
{
"epoch": 1.65,
"grad_norm": 3.677277088165283,
"learning_rate": 0.0001468186871460802,
"loss": 0.7747,
"step": 198
},
{
"epoch": 1.6666666666666665,
"grad_norm": 4.946069717407227,
"learning_rate": 0.00014552859355559204,
"loss": 1.333,
"step": 200
},
{
"epoch": 1.6833333333333333,
"grad_norm": 4.023520469665527,
"learning_rate": 0.00014422886902190014,
"loss": 0.8673,
"step": 202
},
{
"epoch": 1.7,
"grad_norm": 3.5782713890075684,
"learning_rate": 0.00014291978848372293,
"loss": 0.8761,
"step": 204
},
{
"epoch": 1.7166666666666668,
"grad_norm": 2.9059038162231445,
"learning_rate": 0.00014160162885891193,
"loss": 0.7392,
"step": 206
},
{
"epoch": 1.7333333333333334,
"grad_norm": 4.512781143188477,
"learning_rate": 0.00014027466898587374,
"loss": 1.0393,
"step": 208
},
{
"epoch": 1.75,
"grad_norm": 4.064301013946533,
"learning_rate": 0.00013893918956458552,
"loss": 1.1425,
"step": 210
},
{
"epoch": 1.7666666666666666,
"grad_norm": 3.854093313217163,
"learning_rate": 0.0001375954730972168,
"loss": 0.8584,
"step": 212
},
{
"epoch": 1.7833333333333332,
"grad_norm": 4.655716896057129,
"learning_rate": 0.00013624380382837016,
"loss": 1.0068,
"step": 214
},
{
"epoch": 1.8,
"grad_norm": 4.099919319152832,
"learning_rate": 0.0001348844676849531,
"loss": 1.0037,
"step": 216
},
{
"epoch": 1.8166666666666667,
"grad_norm": 4.197730541229248,
"learning_rate": 0.00013351775221569415,
"loss": 0.9886,
"step": 218
},
{
"epoch": 1.8333333333333335,
"grad_norm": 4.721825122833252,
"learning_rate": 0.00013214394653031616,
"loss": 0.7593,
"step": 220
},
{
"epoch": 1.85,
"grad_norm": 3.716853618621826,
"learning_rate": 0.00013076334123837883,
"loss": 1.0082,
"step": 222
},
{
"epoch": 1.8666666666666667,
"grad_norm": 3.670105218887329,
"learning_rate": 0.00012937622838780444,
"loss": 1.0315,
"step": 224
},
{
"epoch": 1.8833333333333333,
"grad_norm": 4.269951343536377,
"learning_rate": 0.00012798290140309923,
"loss": 0.8955,
"step": 226
},
{
"epoch": 1.9,
"grad_norm": 3.60205078125,
"learning_rate": 0.0001265836550232833,
"loss": 1.1489,
"step": 228
},
{
"epoch": 1.9166666666666665,
"grad_norm": 3.538810968399048,
"learning_rate": 0.00012517878523954286,
"loss": 0.799,
"step": 230
},
{
"epoch": 1.9333333333333333,
"grad_norm": 4.749423980712891,
"learning_rate": 0.00012376858923261733,
"loss": 1.1039,
"step": 232
},
{
"epoch": 1.95,
"grad_norm": 4.193479537963867,
"learning_rate": 0.00012235336530993474,
"loss": 0.8296,
"step": 234
},
{
"epoch": 1.9666666666666668,
"grad_norm": 4.116739273071289,
"learning_rate": 0.0001209334128425092,
"loss": 1.0921,
"step": 236
},
{
"epoch": 1.9833333333333334,
"grad_norm": 4.641618728637695,
"learning_rate": 0.00011950903220161285,
"loss": 1.0626,
"step": 238
},
{
"epoch": 2.0,
"grad_norm": 3.8030502796173096,
"learning_rate": 0.00011808052469523654,
"loss": 0.8727,
"step": 240
}
],
"logging_steps": 2,
"max_steps": 480,
"num_input_tokens_seen": 0,
"num_train_epochs": 4,
"save_steps": 120,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 6031789743144960.0,
"train_batch_size": 1,
"trial_name": null,
"trial_params": null
}