Training in progress, step 300, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +713 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:142fddf7597ba8af566a65dd7556c5175782b026760e9e645b83aab257655746
 size 328603864

 version https://git-lfs.github.com/spec/v1
+oid sha256:20bafa183fbf3bbe9c9905563495213e38cef9ee3c7cd345adcb253be884cd6f
 size 328603864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3f697b4b654fbc5577d476540fba027f5e83c6e274c7aa397d35a87934fe777
 size 657550198

 version https://git-lfs.github.com/spec/v1
+oid sha256:42362df9ec696d3d0320f768a0bdb5b397ef5004355b755028fc2eecf05c932a
 size 657550198

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51cd36ad2605ec4cab21e475c1ac7fb8b347fb6abdcfe5bc4f63aecf3d71d8ce
 size 16048

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0eaf4305d2c5e42a4f55f7afbe09af37fe7e4788ba422b48e04415bf88585bc
 size 16048

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:261bbc763adac7d03c1a082867309667f8fb83fc7a1b84c5402b6347df42fe46
 size 16048

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc8fb32fe9b2c01dd6e4f18169bd171991f967f5fa0ffc420d77cc0db6efb24a
 size 16048

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c623db235bb71bffb776e0eab3b558456f134b1b73107cd8c23b1c40ced5689
 size 16048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a3f73d17ae338d8cac6481951019e365941b252022e7d0243a7fc8772314e59
 size 16048

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2cd5bc26454d617fd60fe08010ba4a195c8e3a7f72f12cd3a767d4186b02c70
 size 16048

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d88dd21f7a8c6a81cd6b8f8e5c08a387d55c3de0e6893d149c96275b5808881
 size 16048

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e469f052cb05e5cf49a235d076e0d255d7c8ab10ecd0688597c90d24aa91271f
 size 16048

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bc88c834df7dbdf28112af82a0fbc77b3633a0bd734c746cbd963868cd1638d
 size 16048

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4661e3c8087f3f1d2de392f52cf8afa125c865e290cc1f82744a9c62c75eb7b3
 size 16048

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f202a252593acda702f147cf7bd3a31174b510a25497f7cd9e72cd64c938ddb
 size 16048

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65e243bce56a5724d4707edf307955d94a50103507be1f90af964b7177780b77
 size 16048

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa7fa98f002472e6436680d6e814a6a2fe757de9ae3aae9cbaba8f4114ee7b8c
 size 16048

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:854fedc83edb427d64d1a4e41243a4a9a600619ca1c3230bf82f3fe10f0df54a
 size 16048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a239bf4d6b122a3f95861bfe8a309a94daf464bb026a78fa5c15e4524a467f9
 size 16048

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfd6018b3bcc09be37863312cd9f5a1abeb208b2c8175343ea9ccbd7c6111ccd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d07ac0fea5745c187bb33a34833c94c0ef719c462575fe061a42340c90be4024
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 200,
   "best_metric": 0.1393619030714035,
   "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 4.66193853427896,
   "eval_steps": 100,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1432,6 +1432,714 @@
       "eval_samples_per_second": 148.12,
       "eval_steps_per_second": 1.163,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1446,7 +2154,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -1455,12 +2163,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.159623608500486e+18,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 200,
   "best_metric": 0.1393619030714035,
   "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 6.99290780141844,
   "eval_steps": 100,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 148.12,
       "eval_steps_per_second": 1.163,
       "step": 200
+    },
+    {
+      "epoch": 4.685579196217494,
+      "grad_norm": 0.24888208508491516,
+      "learning_rate": 0.00012243745415914883,
+      "loss": 0.0975,
+      "step": 201
+    },
+    {
+      "epoch": 4.709219858156028,
+      "grad_norm": 0.22495469450950623,
+      "learning_rate": 0.00012113826236296244,
+      "loss": 0.0935,
+      "step": 202
+    },
+    {
+      "epoch": 4.732860520094563,
+      "grad_norm": 0.20877662301063538,
+      "learning_rate": 0.0001198353248183118,
+      "loss": 0.095,
+      "step": 203
+    },
+    {
+      "epoch": 4.756501182033097,
+      "grad_norm": 0.25470611453056335,
+      "learning_rate": 0.00011852887240871145,
+      "loss": 0.0952,
+      "step": 204
+    },
+    {
+      "epoch": 4.780141843971631,
+      "grad_norm": 0.21587012708187103,
+      "learning_rate": 0.00011721913664051813,
+      "loss": 0.0836,
+      "step": 205
+    },
+    {
+      "epoch": 4.803782505910165,
+      "grad_norm": 0.22231656312942505,
+      "learning_rate": 0.00011590634960190721,
+      "loss": 0.0911,
+      "step": 206
+    },
+    {
+      "epoch": 4.8274231678487,
+      "grad_norm": 0.2475675344467163,
+      "learning_rate": 0.00011459074392174618,
+      "loss": 0.0937,
+      "step": 207
+    },
+    {
+      "epoch": 4.851063829787234,
+      "grad_norm": 0.19742602109909058,
+      "learning_rate": 0.00011327255272837221,
+      "loss": 0.0973,
+      "step": 208
+    },
+    {
+      "epoch": 4.874704491725768,
+      "grad_norm": 0.18842868506908417,
+      "learning_rate": 0.00011195200960828139,
+      "loss": 0.0888,
+      "step": 209
+    },
+    {
+      "epoch": 4.898345153664303,
+      "grad_norm": 0.1946844905614853,
+      "learning_rate": 0.00011062934856473655,
+      "loss": 0.0903,
+      "step": 210
+    },
+    {
+      "epoch": 4.921985815602837,
+      "grad_norm": 0.2090204656124115,
+      "learning_rate": 0.00010930480397630145,
+      "loss": 0.1069,
+      "step": 211
+    },
+    {
+      "epoch": 4.945626477541371,
+      "grad_norm": 0.21296799182891846,
+      "learning_rate": 0.00010797861055530831,
+      "loss": 0.0993,
+      "step": 212
+    },
+    {
+      "epoch": 4.969267139479905,
+      "grad_norm": 0.22559182345867157,
+      "learning_rate": 0.00010665100330626625,
+      "loss": 0.0937,
+      "step": 213
+    },
+    {
+      "epoch": 4.99290780141844,
+      "grad_norm": 0.18918611109256744,
+      "learning_rate": 0.00010532221748421787,
+      "loss": 0.0943,
+      "step": 214
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.40800580382347107,
+      "learning_rate": 0.00010399248855305176,
+      "loss": 0.1196,
+      "step": 215
+    },
+    {
+      "epoch": 5.0236406619385345,
+      "grad_norm": 0.23491446673870087,
+      "learning_rate": 0.00010266205214377748,
+      "loss": 0.0763,
+      "step": 216
+    },
+    {
+      "epoch": 5.047281323877068,
+      "grad_norm": 0.24946476519107819,
+      "learning_rate": 0.00010133114401277139,
+      "loss": 0.0805,
+      "step": 217
+    },
+    {
+      "epoch": 5.070921985815603,
+      "grad_norm": 0.23227405548095703,
+      "learning_rate": 0.0001,
+      "loss": 0.0732,
+      "step": 218
+    },
+    {
+      "epoch": 5.094562647754137,
+      "grad_norm": 0.24616649746894836,
+      "learning_rate": 9.866885598722863e-05,
+      "loss": 0.0867,
+      "step": 219
+    },
+    {
+      "epoch": 5.118203309692672,
+      "grad_norm": 0.24532361328601837,
+      "learning_rate": 9.733794785622253e-05,
+      "loss": 0.0908,
+      "step": 220
+    },
+    {
+      "epoch": 5.141843971631205,
+      "grad_norm": 0.19941219687461853,
+      "learning_rate": 9.600751144694827e-05,
+      "loss": 0.0799,
+      "step": 221
+    },
+    {
+      "epoch": 5.16548463356974,
+      "grad_norm": 0.20473811030387878,
+      "learning_rate": 9.467778251578217e-05,
+      "loss": 0.0796,
+      "step": 222
+    },
+    {
+      "epoch": 5.1891252955082745,
+      "grad_norm": 0.222214475274086,
+      "learning_rate": 9.334899669373379e-05,
+      "loss": 0.0785,
+      "step": 223
+    },
+    {
+      "epoch": 5.212765957446808,
+      "grad_norm": 0.21746733784675598,
+      "learning_rate": 9.202138944469168e-05,
+      "loss": 0.0725,
+      "step": 224
+    },
+    {
+      "epoch": 5.236406619385343,
+      "grad_norm": 0.203547403216362,
+      "learning_rate": 9.069519602369856e-05,
+      "loss": 0.0773,
+      "step": 225
+    },
+    {
+      "epoch": 5.260047281323877,
+      "grad_norm": 0.24523097276687622,
+      "learning_rate": 8.937065143526347e-05,
+      "loss": 0.082,
+      "step": 226
+    },
+    {
+      "epoch": 5.283687943262412,
+      "grad_norm": 0.23100948333740234,
+      "learning_rate": 8.804799039171863e-05,
+      "loss": 0.0759,
+      "step": 227
+    },
+    {
+      "epoch": 5.307328605200945,
+      "grad_norm": 0.2774072289466858,
+      "learning_rate": 8.672744727162781e-05,
+      "loss": 0.0857,
+      "step": 228
+    },
+    {
+      "epoch": 5.33096926713948,
+      "grad_norm": 0.24797679483890533,
+      "learning_rate": 8.540925607825384e-05,
+      "loss": 0.0766,
+      "step": 229
+    },
+    {
+      "epoch": 5.3546099290780145,
+      "grad_norm": 0.20143181085586548,
+      "learning_rate": 8.409365039809281e-05,
+      "loss": 0.0828,
+      "step": 230
+    },
+    {
+      "epoch": 5.378250591016548,
+      "grad_norm": 0.2065824419260025,
+      "learning_rate": 8.27808633594819e-05,
+      "loss": 0.0742,
+      "step": 231
+    },
+    {
+      "epoch": 5.401891252955083,
+      "grad_norm": 0.22358693182468414,
+      "learning_rate": 8.147112759128859e-05,
+      "loss": 0.0706,
+      "step": 232
+    },
+    {
+      "epoch": 5.425531914893617,
+      "grad_norm": 0.24426457285881042,
+      "learning_rate": 8.016467518168821e-05,
+      "loss": 0.0773,
+      "step": 233
+    },
+    {
+      "epoch": 5.449172576832151,
+      "grad_norm": 0.18924954533576965,
+      "learning_rate": 7.886173763703757e-05,
+      "loss": 0.0752,
+      "step": 234
+    },
+    {
+      "epoch": 5.472813238770685,
+      "grad_norm": 0.24037088453769684,
+      "learning_rate": 7.756254584085121e-05,
+      "loss": 0.084,
+      "step": 235
+    },
+    {
+      "epoch": 5.49645390070922,
+      "grad_norm": 0.2293759435415268,
+      "learning_rate": 7.626733001288851e-05,
+      "loss": 0.0669,
+      "step": 236
+    },
+    {
+      "epoch": 5.520094562647754,
+      "grad_norm": 0.1983073204755783,
+      "learning_rate": 7.497631966835828e-05,
+      "loss": 0.0823,
+      "step": 237
+    },
+    {
+      "epoch": 5.543735224586288,
+      "grad_norm": 0.2341061383485794,
+      "learning_rate": 7.368974357724789e-05,
+      "loss": 0.0882,
+      "step": 238
+    },
+    {
+      "epoch": 5.567375886524823,
+      "grad_norm": 0.1973034292459488,
+      "learning_rate": 7.240782972378496e-05,
+      "loss": 0.0671,
+      "step": 239
+    },
+    {
+      "epoch": 5.591016548463357,
+      "grad_norm": 0.19070158898830414,
+      "learning_rate": 7.113080526603792e-05,
+      "loss": 0.0837,
+      "step": 240
+    },
+    {
+      "epoch": 5.614657210401891,
+      "grad_norm": 0.2356303334236145,
+      "learning_rate": 6.985889649566305e-05,
+      "loss": 0.0933,
+      "step": 241
+    },
+    {
+      "epoch": 5.638297872340425,
+      "grad_norm": 0.2121330201625824,
+      "learning_rate": 6.859232879780515e-05,
+      "loss": 0.0823,
+      "step": 242
+    },
+    {
+      "epoch": 5.66193853427896,
+      "grad_norm": 0.20877498388290405,
+      "learning_rate": 6.73313266111587e-05,
+      "loss": 0.0899,
+      "step": 243
+    },
+    {
+      "epoch": 5.685579196217494,
+      "grad_norm": 0.21572048962116241,
+      "learning_rate": 6.607611338819697e-05,
+      "loss": 0.0749,
+      "step": 244
+    },
+    {
+      "epoch": 5.709219858156028,
+      "grad_norm": 0.19401253759860992,
+      "learning_rate": 6.48269115555755e-05,
+      "loss": 0.0718,
+      "step": 245
+    },
+    {
+      "epoch": 5.732860520094563,
+      "grad_norm": 0.20852094888687134,
+      "learning_rate": 6.358394247471778e-05,
+      "loss": 0.0754,
+      "step": 246
+    },
+    {
+      "epoch": 5.756501182033097,
+      "grad_norm": 0.2070273458957672,
+      "learning_rate": 6.234742640258938e-05,
+      "loss": 0.0733,
+      "step": 247
+    },
+    {
+      "epoch": 5.780141843971631,
+      "grad_norm": 0.1823720633983612,
+      "learning_rate": 6.111758245266794e-05,
+      "loss": 0.0636,
+      "step": 248
+    },
+    {
+      "epoch": 5.803782505910165,
+      "grad_norm": 0.2146531492471695,
+      "learning_rate": 5.9894628556115854e-05,
+      "loss": 0.0821,
+      "step": 249
+    },
+    {
+      "epoch": 5.8274231678487,
+      "grad_norm": 0.20586134493350983,
+      "learning_rate": 5.867878142316221e-05,
+      "loss": 0.0861,
+      "step": 250
+    },
+    {
+      "epoch": 5.851063829787234,
+      "grad_norm": 0.1832318753004074,
+      "learning_rate": 5.7470256504701347e-05,
+      "loss": 0.0694,
+      "step": 251
+    },
+    {
+      "epoch": 5.874704491725768,
+      "grad_norm": 0.17847847938537598,
+      "learning_rate": 5.626926795411447e-05,
+      "loss": 0.0748,
+      "step": 252
+    },
+    {
+      "epoch": 5.898345153664303,
+      "grad_norm": 0.19474737346172333,
+      "learning_rate": 5.507602858932113e-05,
+      "loss": 0.0754,
+      "step": 253
+    },
+    {
+      "epoch": 5.921985815602837,
+      "grad_norm": 0.20228345692157745,
+      "learning_rate": 5.38907498550674e-05,
+      "loss": 0.0741,
+      "step": 254
+    },
+    {
+      "epoch": 5.945626477541371,
+      "grad_norm": 0.19571395218372345,
+      "learning_rate": 5.27136417854575e-05,
+      "loss": 0.0808,
+      "step": 255
+    },
+    {
+      "epoch": 5.969267139479905,
+      "grad_norm": 0.1964896023273468,
+      "learning_rate": 5.1544912966734994e-05,
+      "loss": 0.0722,
+      "step": 256
+    },
+    {
+      "epoch": 5.99290780141844,
+      "grad_norm": 0.21053136885166168,
+      "learning_rate": 5.0384770500321176e-05,
+      "loss": 0.0748,
+      "step": 257
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.32032114267349243,
+      "learning_rate": 4.9233419966116036e-05,
+      "loss": 0.0792,
+      "step": 258
+    },
+    {
+      "epoch": 6.0236406619385345,
+      "grad_norm": 0.18689100444316864,
+      "learning_rate": 4.809106538606896e-05,
+      "loss": 0.0672,
+      "step": 259
+    },
+    {
+      "epoch": 6.047281323877068,
+      "grad_norm": 0.19790929555892944,
+      "learning_rate": 4.695790918802576e-05,
+      "loss": 0.0612,
+      "step": 260
+    },
+    {
+      "epoch": 6.070921985815603,
+      "grad_norm": 0.17803865671157837,
+      "learning_rate": 4.58341521698579e-05,
+      "loss": 0.0567,
+      "step": 261
+    },
+    {
+      "epoch": 6.094562647754137,
+      "grad_norm": 0.16323284804821014,
+      "learning_rate": 4.47199934638807e-05,
+      "loss": 0.0623,
+      "step": 262
+    },
+    {
+      "epoch": 6.118203309692672,
+      "grad_norm": 0.183246910572052,
+      "learning_rate": 4.3615630501566384e-05,
+      "loss": 0.0727,
+      "step": 263
+    },
+    {
+      "epoch": 6.141843971631205,
+      "grad_norm": 0.1922691911458969,
+      "learning_rate": 4.252125897855932e-05,
+      "loss": 0.0729,
+      "step": 264
+    },
+    {
+      "epoch": 6.16548463356974,
+      "grad_norm": 0.18657496571540833,
+      "learning_rate": 4.143707281999767e-05,
+      "loss": 0.0601,
+      "step": 265
+    },
+    {
+      "epoch": 6.1891252955082745,
+      "grad_norm": 0.1704358607530594,
+      "learning_rate": 4.036326414614985e-05,
+      "loss": 0.0677,
+      "step": 266
+    },
+    {
+      "epoch": 6.212765957446808,
+      "grad_norm": 0.1788199245929718,
+      "learning_rate": 3.930002323837025e-05,
+      "loss": 0.0605,
+      "step": 267
+    },
+    {
+      "epoch": 6.236406619385343,
+      "grad_norm": 0.1892111450433731,
+      "learning_rate": 3.824753850538082e-05,
+      "loss": 0.0621,
+      "step": 268
+    },
+    {
+      "epoch": 6.260047281323877,
+      "grad_norm": 0.1900961846113205,
+      "learning_rate": 3.720599644988482e-05,
+      "loss": 0.0727,
+      "step": 269
+    },
+    {
+      "epoch": 6.283687943262412,
+      "grad_norm": 0.25505387783050537,
+      "learning_rate": 3.617558163551802e-05,
+      "loss": 0.0639,
+      "step": 270
+    },
+    {
+      "epoch": 6.307328605200945,
+      "grad_norm": 0.17928794026374817,
+      "learning_rate": 3.5156476654143497e-05,
+      "loss": 0.0595,
+      "step": 271
+    },
+    {
+      "epoch": 6.33096926713948,
+      "grad_norm": 0.17975100874900818,
+      "learning_rate": 3.414886209349615e-05,
+      "loss": 0.0697,
+      "step": 272
+    },
+    {
+      "epoch": 6.3546099290780145,
+      "grad_norm": 0.16846145689487457,
+      "learning_rate": 3.315291650518197e-05,
+      "loss": 0.0593,
+      "step": 273
+    },
+    {
+      "epoch": 6.378250591016548,
+      "grad_norm": 0.15943646430969238,
+      "learning_rate": 3.216881637303839e-05,
+      "loss": 0.0597,
+      "step": 274
+    },
+    {
+      "epoch": 6.401891252955083,
+      "grad_norm": 0.16623468697071075,
+      "learning_rate": 3.119673608186085e-05,
+      "loss": 0.0595,
+      "step": 275
+    },
+    {
+      "epoch": 6.425531914893617,
+      "grad_norm": 0.17790904641151428,
+      "learning_rate": 3.0236847886501542e-05,
+      "loss": 0.0604,
+      "step": 276
+    },
+    {
+      "epoch": 6.449172576832151,
+      "grad_norm": 0.18511582911014557,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 0.0678,
+      "step": 277
+    },
+    {
+      "epoch": 6.472813238770685,
+      "grad_norm": 0.17497338354587555,
+      "learning_rate": 2.8354325970168484e-05,
+      "loss": 0.0568,
+      "step": 278
+    },
+    {
+      "epoch": 6.49645390070922,
+      "grad_norm": 0.1610943078994751,
+      "learning_rate": 2.743202583638641e-05,
+      "loss": 0.068,
+      "step": 279
+    },
+    {
+      "epoch": 6.520094562647754,
+      "grad_norm": 0.1880873739719391,
+      "learning_rate": 2.6522584913693294e-05,
+      "loss": 0.06,
+      "step": 280
+    },
+    {
+      "epoch": 6.543735224586288,
+      "grad_norm": 0.17921674251556396,
+      "learning_rate": 2.5626164357101857e-05,
+      "loss": 0.0593,
+      "step": 281
+    },
+    {
+      "epoch": 6.567375886524823,
+      "grad_norm": 0.17583315074443817,
+      "learning_rate": 2.4742923014386156e-05,
+      "loss": 0.0664,
+      "step": 282
+    },
+    {
+      "epoch": 6.591016548463357,
+      "grad_norm": 0.19071973860263824,
+      "learning_rate": 2.3873017397933327e-05,
+      "loss": 0.0644,
+      "step": 283
+    },
+    {
+      "epoch": 6.614657210401891,
+      "grad_norm": 0.1757621169090271,
+      "learning_rate": 2.301660165700936e-05,
+      "loss": 0.0612,
+      "step": 284
+    },
+    {
+      "epoch": 6.638297872340425,
+      "grad_norm": 0.15712977945804596,
+      "learning_rate": 2.2173827550443417e-05,
+      "loss": 0.0663,
+      "step": 285
+    },
+    {
+      "epoch": 6.66193853427896,
+      "grad_norm": 0.16134823858737946,
+      "learning_rate": 2.1344844419735755e-05,
+      "loss": 0.0551,
+      "step": 286
+    },
+    {
+      "epoch": 6.685579196217494,
+      "grad_norm": 0.168061301112175,
+      "learning_rate": 2.0529799162594244e-05,
+      "loss": 0.06,
+      "step": 287
+    },
+    {
+      "epoch": 6.709219858156028,
+      "grad_norm": 0.1770693063735962,
+      "learning_rate": 1.9728836206903656e-05,
+      "loss": 0.0664,
+      "step": 288
+    },
+    {
+      "epoch": 6.732860520094563,
+      "grad_norm": 0.18103648722171783,
+      "learning_rate": 1.8942097485132626e-05,
+      "loss": 0.062,
+      "step": 289
+    },
+    {
+      "epoch": 6.756501182033097,
+      "grad_norm": 0.18184252083301544,
+      "learning_rate": 1.8169722409183097e-05,
+      "loss": 0.059,
+      "step": 290
+    },
+    {
+      "epoch": 6.780141843971631,
+      "grad_norm": 0.1702430248260498,
+      "learning_rate": 1.741184784568608e-05,
+      "loss": 0.062,
+      "step": 291
+    },
+    {
+      "epoch": 6.803782505910165,
+      "grad_norm": 0.16067641973495483,
+      "learning_rate": 1.6668608091748495e-05,
+      "loss": 0.0574,
+      "step": 292
+    },
+    {
+      "epoch": 6.8274231678487,
+      "grad_norm": 0.1779567003250122,
+      "learning_rate": 1.5940134851155697e-05,
+      "loss": 0.0593,
+      "step": 293
+    },
+    {
+      "epoch": 6.851063829787234,
+      "grad_norm": 0.17295385897159576,
+      "learning_rate": 1.522655721103291e-05,
+      "loss": 0.0695,
+      "step": 294
+    },
+    {
+      "epoch": 6.874704491725768,
+      "grad_norm": 0.1924130916595459,
+      "learning_rate": 1.4528001618970966e-05,
+      "loss": 0.0719,
+      "step": 295
+    },
+    {
+      "epoch": 6.898345153664303,
+      "grad_norm": 0.17258019745349884,
+      "learning_rate": 1.3844591860619383e-05,
+      "loss": 0.0646,
+      "step": 296
+    },
+    {
+      "epoch": 6.921985815602837,
+      "grad_norm": 0.17023594677448273,
+      "learning_rate": 1.3176449037751293e-05,
+      "loss": 0.0608,
+      "step": 297
+    },
+    {
+      "epoch": 6.945626477541371,
+      "grad_norm": 0.1798073947429657,
+      "learning_rate": 1.2523691546803873e-05,
+      "loss": 0.0774,
+      "step": 298
+    },
+    {
+      "epoch": 6.969267139479905,
+      "grad_norm": 0.1567268669605255,
+      "learning_rate": 1.1886435057898337e-05,
+      "loss": 0.0809,
+      "step": 299
+    },
+    {
+      "epoch": 6.99290780141844,
+      "grad_norm": 0.1746884137392044,
+      "learning_rate": 1.1264792494342857e-05,
+      "loss": 0.0597,
+      "step": 300
+    },
+    {
+      "epoch": 6.99290780141844,
+      "eval_loss": 0.13989537954330444,
+      "eval_runtime": 26.7265,
+      "eval_samples_per_second": 147.756,
+      "eval_steps_per_second": 1.16,
+      "step": 300
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.239523305766781e+18,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null