dabrown commited on
Commit
7e95335
·
verified ·
1 Parent(s): bfdb0fd

Training in progress, step 958, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:607be725f52f077357c0dd6b617e4d0b6082e8caeb1b6dae914a0be70dc86f38
3
  size 48679352
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4f5a00a78e423620e021fbd8a144680909f3b3b316b4db72cc2433120e14140f
3
  size 48679352
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:738b4d6e522c4d141b49b0fd83fec1621c7393c078ed22d6966243f70dca6d4f
3
  size 25152884
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:00d91609100f05aa7550e6c90fd1e83339d641e8c40058a4b6a728b366749b3a
3
  size 25152884
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3ec4f7cc50fb21bbb2ce05c58bfc343a8e8e934252ffd2ecec54dcd950a87a42
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:aa34e95f3b762e82210d69d9159af8a97768bdd66bdbac85961d502cc41f3157
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7c1861a03fc626556465a433fa3f619dd9f923bb33ff04b1959c4edb562d5130
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fafd9a7c6dbc3f71076a7b5b864e1667067c311eadec3f4837b9340812da01f0
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7515657620041754,
5
  "eval_steps": 240,
6
- "global_step": 720,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5079,6 +5079,1672 @@
5079
  "eval_samples_per_second": 19.864,
5080
  "eval_steps_per_second": 9.932,
5081
  "step": 720
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5082
  }
5083
  ],
5084
  "logging_steps": 1,
@@ -5093,12 +6759,12 @@
5093
  "should_evaluate": false,
5094
  "should_log": false,
5095
  "should_save": true,
5096
- "should_training_stop": false
5097
  },
5098
  "attributes": {}
5099
  }
5100
  },
5101
- "total_flos": 4.025453542322995e+17,
5102
  "train_batch_size": 2,
5103
  "trial_name": null,
5104
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0,
5
  "eval_steps": 240,
6
+ "global_step": 958,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5079
  "eval_samples_per_second": 19.864,
5080
  "eval_steps_per_second": 9.932,
5081
  "step": 720
5082
+ },
5083
+ {
5084
+ "epoch": 0.7526096033402923,
5085
+ "grad_norm": 0.43510791659355164,
5086
+ "learning_rate": 2.9289321881345254e-05,
5087
+ "loss": 0.1719,
5088
+ "step": 721
5089
+ },
5090
+ {
5091
+ "epoch": 0.7536534446764092,
5092
+ "grad_norm": 0.4775535762310028,
5093
+ "learning_rate": 2.905538131479376e-05,
5094
+ "loss": 0.1874,
5095
+ "step": 722
5096
+ },
5097
+ {
5098
+ "epoch": 0.7546972860125261,
5099
+ "grad_norm": 0.5398250818252563,
5100
+ "learning_rate": 2.8822219864258272e-05,
5101
+ "loss": 0.1667,
5102
+ "step": 723
5103
+ },
5104
+ {
5105
+ "epoch": 0.755741127348643,
5106
+ "grad_norm": 0.4013484716415405,
5107
+ "learning_rate": 2.8589840090325027e-05,
5108
+ "loss": 0.1252,
5109
+ "step": 724
5110
+ },
5111
+ {
5112
+ "epoch": 0.7567849686847599,
5113
+ "grad_norm": 0.8314927816390991,
5114
+ "learning_rate": 2.8358244544996038e-05,
5115
+ "loss": 0.3924,
5116
+ "step": 725
5117
+ },
5118
+ {
5119
+ "epoch": 0.7578288100208769,
5120
+ "grad_norm": 0.8482892513275146,
5121
+ "learning_rate": 2.8127435771660747e-05,
5122
+ "loss": 0.3675,
5123
+ "step": 726
5124
+ },
5125
+ {
5126
+ "epoch": 0.7588726513569938,
5127
+ "grad_norm": 0.6500058770179749,
5128
+ "learning_rate": 2.7897416305068323e-05,
5129
+ "loss": 0.3016,
5130
+ "step": 727
5131
+ },
5132
+ {
5133
+ "epoch": 0.7599164926931107,
5134
+ "grad_norm": 0.6976576447486877,
5135
+ "learning_rate": 2.7668188671299755e-05,
5136
+ "loss": 0.3133,
5137
+ "step": 728
5138
+ },
5139
+ {
5140
+ "epoch": 0.7609603340292276,
5141
+ "grad_norm": 0.7735400795936584,
5142
+ "learning_rate": 2.743975538774002e-05,
5143
+ "loss": 0.3557,
5144
+ "step": 729
5145
+ },
5146
+ {
5147
+ "epoch": 0.7620041753653445,
5148
+ "grad_norm": 0.7905307412147522,
5149
+ "learning_rate": 2.7212118963050592e-05,
5150
+ "loss": 0.3316,
5151
+ "step": 730
5152
+ },
5153
+ {
5154
+ "epoch": 0.7630480167014614,
5155
+ "grad_norm": 0.7098974585533142,
5156
+ "learning_rate": 2.6985281897141812e-05,
5157
+ "loss": 0.2877,
5158
+ "step": 731
5159
+ },
5160
+ {
5161
+ "epoch": 0.7640918580375783,
5162
+ "grad_norm": 0.6374404430389404,
5163
+ "learning_rate": 2.675924668114537e-05,
5164
+ "loss": 0.2589,
5165
+ "step": 732
5166
+ },
5167
+ {
5168
+ "epoch": 0.7651356993736952,
5169
+ "grad_norm": 0.7561594247817993,
5170
+ "learning_rate": 2.65340157973871e-05,
5171
+ "loss": 0.2953,
5172
+ "step": 733
5173
+ },
5174
+ {
5175
+ "epoch": 0.7661795407098121,
5176
+ "grad_norm": 0.7232580780982971,
5177
+ "learning_rate": 2.630959171935956e-05,
5178
+ "loss": 0.3002,
5179
+ "step": 734
5180
+ },
5181
+ {
5182
+ "epoch": 0.767223382045929,
5183
+ "grad_norm": 0.7140358686447144,
5184
+ "learning_rate": 2.6085976911694987e-05,
5185
+ "loss": 0.2545,
5186
+ "step": 735
5187
+ },
5188
+ {
5189
+ "epoch": 0.7682672233820459,
5190
+ "grad_norm": 0.749450147151947,
5191
+ "learning_rate": 2.586317383013821e-05,
5192
+ "loss": 0.25,
5193
+ "step": 736
5194
+ },
5195
+ {
5196
+ "epoch": 0.7693110647181628,
5197
+ "grad_norm": 0.847427248954773,
5198
+ "learning_rate": 2.564118492151957e-05,
5199
+ "loss": 0.2887,
5200
+ "step": 737
5201
+ },
5202
+ {
5203
+ "epoch": 0.7703549060542797,
5204
+ "grad_norm": 0.5772815346717834,
5205
+ "learning_rate": 2.5420012623728208e-05,
5206
+ "loss": 0.2101,
5207
+ "step": 738
5208
+ },
5209
+ {
5210
+ "epoch": 0.7713987473903967,
5211
+ "grad_norm": 0.6374946236610413,
5212
+ "learning_rate": 2.5199659365685235e-05,
5213
+ "loss": 0.2193,
5214
+ "step": 739
5215
+ },
5216
+ {
5217
+ "epoch": 0.7724425887265136,
5218
+ "grad_norm": 0.642776370048523,
5219
+ "learning_rate": 2.4980127567316948e-05,
5220
+ "loss": 0.2168,
5221
+ "step": 740
5222
+ },
5223
+ {
5224
+ "epoch": 0.7734864300626305,
5225
+ "grad_norm": 0.6233210563659668,
5226
+ "learning_rate": 2.4761419639528437e-05,
5227
+ "loss": 0.1986,
5228
+ "step": 741
5229
+ },
5230
+ {
5231
+ "epoch": 0.7745302713987474,
5232
+ "grad_norm": 0.47856077551841736,
5233
+ "learning_rate": 2.4543537984176978e-05,
5234
+ "loss": 0.1681,
5235
+ "step": 742
5236
+ },
5237
+ {
5238
+ "epoch": 0.7755741127348643,
5239
+ "grad_norm": 0.5664119720458984,
5240
+ "learning_rate": 2.4326484994045752e-05,
5241
+ "loss": 0.1847,
5242
+ "step": 743
5243
+ },
5244
+ {
5245
+ "epoch": 0.7766179540709812,
5246
+ "grad_norm": 0.5382654666900635,
5247
+ "learning_rate": 2.4110263052817394e-05,
5248
+ "loss": 0.1765,
5249
+ "step": 744
5250
+ },
5251
+ {
5252
+ "epoch": 0.7776617954070981,
5253
+ "grad_norm": 0.46047693490982056,
5254
+ "learning_rate": 2.3894874535048063e-05,
5255
+ "loss": 0.1487,
5256
+ "step": 745
5257
+ },
5258
+ {
5259
+ "epoch": 0.778705636743215,
5260
+ "grad_norm": 0.5149843096733093,
5261
+ "learning_rate": 2.368032180614118e-05,
5262
+ "loss": 0.1817,
5263
+ "step": 746
5264
+ },
5265
+ {
5266
+ "epoch": 0.7797494780793319,
5267
+ "grad_norm": 0.4655948579311371,
5268
+ "learning_rate": 2.346660722232148e-05,
5269
+ "loss": 0.1548,
5270
+ "step": 747
5271
+ },
5272
+ {
5273
+ "epoch": 0.7807933194154488,
5274
+ "grad_norm": 0.5313979387283325,
5275
+ "learning_rate": 2.325373313060919e-05,
5276
+ "loss": 0.1504,
5277
+ "step": 748
5278
+ },
5279
+ {
5280
+ "epoch": 0.7818371607515657,
5281
+ "grad_norm": 0.5336787700653076,
5282
+ "learning_rate": 2.3041701868794287e-05,
5283
+ "loss": 0.1306,
5284
+ "step": 749
5285
+ },
5286
+ {
5287
+ "epoch": 0.7828810020876826,
5288
+ "grad_norm": 0.7393002510070801,
5289
+ "learning_rate": 2.2830515765410622e-05,
5290
+ "loss": 0.1137,
5291
+ "step": 750
5292
+ },
5293
+ {
5294
+ "epoch": 0.7839248434237995,
5295
+ "grad_norm": 0.5598475933074951,
5296
+ "learning_rate": 2.262017713971063e-05,
5297
+ "loss": 0.3354,
5298
+ "step": 751
5299
+ },
5300
+ {
5301
+ "epoch": 0.7849686847599165,
5302
+ "grad_norm": 0.5945207476615906,
5303
+ "learning_rate": 2.2410688301639616e-05,
5304
+ "loss": 0.2804,
5305
+ "step": 752
5306
+ },
5307
+ {
5308
+ "epoch": 0.7860125260960334,
5309
+ "grad_norm": 0.4905988574028015,
5310
+ "learning_rate": 2.2202051551810565e-05,
5311
+ "loss": 0.2229,
5312
+ "step": 753
5313
+ },
5314
+ {
5315
+ "epoch": 0.7870563674321504,
5316
+ "grad_norm": 0.607475996017456,
5317
+ "learning_rate": 2.19942691814788e-05,
5318
+ "loss": 0.289,
5319
+ "step": 754
5320
+ },
5321
+ {
5322
+ "epoch": 0.7881002087682673,
5323
+ "grad_norm": 0.6597141027450562,
5324
+ "learning_rate": 2.178734347251673e-05,
5325
+ "loss": 0.2965,
5326
+ "step": 755
5327
+ },
5328
+ {
5329
+ "epoch": 0.7891440501043842,
5330
+ "grad_norm": 0.6289554238319397,
5331
+ "learning_rate": 2.1581276697388975e-05,
5332
+ "loss": 0.2582,
5333
+ "step": 756
5334
+ },
5335
+ {
5336
+ "epoch": 0.7901878914405011,
5337
+ "grad_norm": 0.6147776246070862,
5338
+ "learning_rate": 2.1376071119127338e-05,
5339
+ "loss": 0.2848,
5340
+ "step": 757
5341
+ },
5342
+ {
5343
+ "epoch": 0.791231732776618,
5344
+ "grad_norm": 0.5135255455970764,
5345
+ "learning_rate": 2.1171728991305795e-05,
5346
+ "loss": 0.2306,
5347
+ "step": 758
5348
+ },
5349
+ {
5350
+ "epoch": 0.7922755741127349,
5351
+ "grad_norm": 0.5475291013717651,
5352
+ "learning_rate": 2.0968252558016055e-05,
5353
+ "loss": 0.2394,
5354
+ "step": 759
5355
+ },
5356
+ {
5357
+ "epoch": 0.7933194154488518,
5358
+ "grad_norm": 0.6322019696235657,
5359
+ "learning_rate": 2.076564405384258e-05,
5360
+ "loss": 0.2066,
5361
+ "step": 760
5362
+ },
5363
+ {
5364
+ "epoch": 0.7943632567849687,
5365
+ "grad_norm": 0.5838301181793213,
5366
+ "learning_rate": 2.0563905703838316e-05,
5367
+ "loss": 0.2321,
5368
+ "step": 761
5369
+ },
5370
+ {
5371
+ "epoch": 0.7954070981210856,
5372
+ "grad_norm": 0.47901853919029236,
5373
+ "learning_rate": 2.0363039723500156e-05,
5374
+ "loss": 0.1445,
5375
+ "step": 762
5376
+ },
5377
+ {
5378
+ "epoch": 0.7964509394572025,
5379
+ "grad_norm": 0.6136653423309326,
5380
+ "learning_rate": 2.0163048318744493e-05,
5381
+ "loss": 0.2168,
5382
+ "step": 763
5383
+ },
5384
+ {
5385
+ "epoch": 0.7974947807933194,
5386
+ "grad_norm": 0.49966001510620117,
5387
+ "learning_rate": 1.9963933685883253e-05,
5388
+ "loss": 0.1414,
5389
+ "step": 764
5390
+ },
5391
+ {
5392
+ "epoch": 0.7985386221294363,
5393
+ "grad_norm": 0.5253435373306274,
5394
+ "learning_rate": 1.9765698011599466e-05,
5395
+ "loss": 0.1513,
5396
+ "step": 765
5397
+ },
5398
+ {
5399
+ "epoch": 0.7995824634655533,
5400
+ "grad_norm": 0.3400777578353882,
5401
+ "learning_rate": 1.9568343472923524e-05,
5402
+ "loss": 0.1112,
5403
+ "step": 766
5404
+ },
5405
+ {
5406
+ "epoch": 0.8006263048016702,
5407
+ "grad_norm": 0.5851226449012756,
5408
+ "learning_rate": 1.9371872237209165e-05,
5409
+ "loss": 0.1619,
5410
+ "step": 767
5411
+ },
5412
+ {
5413
+ "epoch": 0.8016701461377871,
5414
+ "grad_norm": 0.30553382635116577,
5415
+ "learning_rate": 1.917628646210957e-05,
5416
+ "loss": 0.0872,
5417
+ "step": 768
5418
+ },
5419
+ {
5420
+ "epoch": 0.802713987473904,
5421
+ "grad_norm": 0.5676819682121277,
5422
+ "learning_rate": 1.8981588295553853e-05,
5423
+ "loss": 0.2251,
5424
+ "step": 769
5425
+ },
5426
+ {
5427
+ "epoch": 0.8037578288100209,
5428
+ "grad_norm": 0.5648460984230042,
5429
+ "learning_rate": 1.878777987572339e-05,
5430
+ "loss": 0.2181,
5431
+ "step": 770
5432
+ },
5433
+ {
5434
+ "epoch": 0.8048016701461378,
5435
+ "grad_norm": 0.607913076877594,
5436
+ "learning_rate": 1.8594863331028224e-05,
5437
+ "loss": 0.2216,
5438
+ "step": 771
5439
+ },
5440
+ {
5441
+ "epoch": 0.8058455114822547,
5442
+ "grad_norm": 0.49821627140045166,
5443
+ "learning_rate": 1.840284078008393e-05,
5444
+ "loss": 0.1845,
5445
+ "step": 772
5446
+ },
5447
+ {
5448
+ "epoch": 0.8068893528183716,
5449
+ "grad_norm": 0.42891865968704224,
5450
+ "learning_rate": 1.821171433168809e-05,
5451
+ "loss": 0.1302,
5452
+ "step": 773
5453
+ },
5454
+ {
5455
+ "epoch": 0.8079331941544885,
5456
+ "grad_norm": 0.8176518678665161,
5457
+ "learning_rate": 1.8021486084797368e-05,
5458
+ "loss": 0.3043,
5459
+ "step": 774
5460
+ },
5461
+ {
5462
+ "epoch": 0.8089770354906054,
5463
+ "grad_norm": 0.6164413690567017,
5464
+ "learning_rate": 1.7832158128504328e-05,
5465
+ "loss": 0.2472,
5466
+ "step": 775
5467
+ },
5468
+ {
5469
+ "epoch": 0.8100208768267223,
5470
+ "grad_norm": 0.7422143220901489,
5471
+ "learning_rate": 1.7643732542014434e-05,
5472
+ "loss": 0.3395,
5473
+ "step": 776
5474
+ },
5475
+ {
5476
+ "epoch": 0.8110647181628392,
5477
+ "grad_norm": 0.7129305601119995,
5478
+ "learning_rate": 1.7456211394623378e-05,
5479
+ "loss": 0.2934,
5480
+ "step": 777
5481
+ },
5482
+ {
5483
+ "epoch": 0.8121085594989561,
5484
+ "grad_norm": 0.7638242840766907,
5485
+ "learning_rate": 1.7269596745694295e-05,
5486
+ "loss": 0.3399,
5487
+ "step": 778
5488
+ },
5489
+ {
5490
+ "epoch": 0.8131524008350731,
5491
+ "grad_norm": 0.624290943145752,
5492
+ "learning_rate": 1.7083890644635014e-05,
5493
+ "loss": 0.2525,
5494
+ "step": 779
5495
+ },
5496
+ {
5497
+ "epoch": 0.81419624217119,
5498
+ "grad_norm": 0.6761390566825867,
5499
+ "learning_rate": 1.6899095130875774e-05,
5500
+ "loss": 0.2753,
5501
+ "step": 780
5502
+ },
5503
+ {
5504
+ "epoch": 0.8152400835073069,
5505
+ "grad_norm": 0.8017570972442627,
5506
+ "learning_rate": 1.6715212233846655e-05,
5507
+ "loss": 0.3149,
5508
+ "step": 781
5509
+ },
5510
+ {
5511
+ "epoch": 0.8162839248434238,
5512
+ "grad_norm": 0.6984527111053467,
5513
+ "learning_rate": 1.6532243972955398e-05,
5514
+ "loss": 0.3103,
5515
+ "step": 782
5516
+ },
5517
+ {
5518
+ "epoch": 0.8173277661795407,
5519
+ "grad_norm": 0.6139991283416748,
5520
+ "learning_rate": 1.635019235756511e-05,
5521
+ "loss": 0.2274,
5522
+ "step": 783
5523
+ },
5524
+ {
5525
+ "epoch": 0.8183716075156576,
5526
+ "grad_norm": 0.7596770524978638,
5527
+ "learning_rate": 1.616905938697234e-05,
5528
+ "loss": 0.2612,
5529
+ "step": 784
5530
+ },
5531
+ {
5532
+ "epoch": 0.8194154488517745,
5533
+ "grad_norm": 0.685114324092865,
5534
+ "learning_rate": 1.5988847050385037e-05,
5535
+ "loss": 0.2542,
5536
+ "step": 785
5537
+ },
5538
+ {
5539
+ "epoch": 0.8204592901878914,
5540
+ "grad_norm": 0.6803342700004578,
5541
+ "learning_rate": 1.5809557326900647e-05,
5542
+ "loss": 0.2267,
5543
+ "step": 786
5544
+ },
5545
+ {
5546
+ "epoch": 0.8215031315240083,
5547
+ "grad_norm": 0.6194560527801514,
5548
+ "learning_rate": 1.5631192185484554e-05,
5549
+ "loss": 0.2029,
5550
+ "step": 787
5551
+ },
5552
+ {
5553
+ "epoch": 0.8225469728601252,
5554
+ "grad_norm": 0.8063942193984985,
5555
+ "learning_rate": 1.5453753584948328e-05,
5556
+ "loss": 0.2735,
5557
+ "step": 788
5558
+ },
5559
+ {
5560
+ "epoch": 0.8235908141962421,
5561
+ "grad_norm": 0.6718615293502808,
5562
+ "learning_rate": 1.527724347392815e-05,
5563
+ "loss": 0.2278,
5564
+ "step": 789
5565
+ },
5566
+ {
5567
+ "epoch": 0.824634655532359,
5568
+ "grad_norm": 0.6082893013954163,
5569
+ "learning_rate": 1.5101663790863596e-05,
5570
+ "loss": 0.1969,
5571
+ "step": 790
5572
+ },
5573
+ {
5574
+ "epoch": 0.8256784968684759,
5575
+ "grad_norm": 0.7025957703590393,
5576
+ "learning_rate": 1.4927016463976263e-05,
5577
+ "loss": 0.2071,
5578
+ "step": 791
5579
+ },
5580
+ {
5581
+ "epoch": 0.826722338204593,
5582
+ "grad_norm": 0.5405511260032654,
5583
+ "learning_rate": 1.4753303411248475e-05,
5584
+ "loss": 0.191,
5585
+ "step": 792
5586
+ },
5587
+ {
5588
+ "epoch": 0.8277661795407099,
5589
+ "grad_norm": 0.6413715481758118,
5590
+ "learning_rate": 1.4580526540402461e-05,
5591
+ "loss": 0.185,
5592
+ "step": 793
5593
+ },
5594
+ {
5595
+ "epoch": 0.8288100208768268,
5596
+ "grad_norm": 0.6367815136909485,
5597
+ "learning_rate": 1.4408687748879156e-05,
5598
+ "loss": 0.221,
5599
+ "step": 794
5600
+ },
5601
+ {
5602
+ "epoch": 0.8298538622129437,
5603
+ "grad_norm": 0.4684351086616516,
5604
+ "learning_rate": 1.4237788923817553e-05,
5605
+ "loss": 0.1415,
5606
+ "step": 795
5607
+ },
5608
+ {
5609
+ "epoch": 0.8308977035490606,
5610
+ "grad_norm": 0.5200543403625488,
5611
+ "learning_rate": 1.4067831942033904e-05,
5612
+ "loss": 0.1648,
5613
+ "step": 796
5614
+ },
5615
+ {
5616
+ "epoch": 0.8319415448851775,
5617
+ "grad_norm": 0.44216129183769226,
5618
+ "learning_rate": 1.3898818670001034e-05,
5619
+ "loss": 0.1608,
5620
+ "step": 797
5621
+ },
5622
+ {
5623
+ "epoch": 0.8329853862212944,
5624
+ "grad_norm": 0.5650377869606018,
5625
+ "learning_rate": 1.3730750963828032e-05,
5626
+ "loss": 0.1585,
5627
+ "step": 798
5628
+ },
5629
+ {
5630
+ "epoch": 0.8340292275574113,
5631
+ "grad_norm": 0.5171220898628235,
5632
+ "learning_rate": 1.3563630669239624e-05,
5633
+ "loss": 0.1575,
5634
+ "step": 799
5635
+ },
5636
+ {
5637
+ "epoch": 0.8350730688935282,
5638
+ "grad_norm": 0.5441738367080688,
5639
+ "learning_rate": 1.339745962155613e-05,
5640
+ "loss": 0.0949,
5641
+ "step": 800
5642
+ },
5643
+ {
5644
+ "epoch": 0.8361169102296451,
5645
+ "grad_norm": 0.6055110096931458,
5646
+ "learning_rate": 1.3232239645673217e-05,
5647
+ "loss": 0.4181,
5648
+ "step": 801
5649
+ },
5650
+ {
5651
+ "epoch": 0.837160751565762,
5652
+ "grad_norm": 0.6455709338188171,
5653
+ "learning_rate": 1.3067972556041752e-05,
5654
+ "loss": 0.3383,
5655
+ "step": 802
5656
+ },
5657
+ {
5658
+ "epoch": 0.8382045929018789,
5659
+ "grad_norm": 0.5849418640136719,
5660
+ "learning_rate": 1.2904660156648074e-05,
5661
+ "loss": 0.2803,
5662
+ "step": 803
5663
+ },
5664
+ {
5665
+ "epoch": 0.8392484342379958,
5666
+ "grad_norm": 0.538429856300354,
5667
+ "learning_rate": 1.2742304240994053e-05,
5668
+ "loss": 0.2402,
5669
+ "step": 804
5670
+ },
5671
+ {
5672
+ "epoch": 0.8402922755741128,
5673
+ "grad_norm": 0.6266717314720154,
5674
+ "learning_rate": 1.2580906592077402e-05,
5675
+ "loss": 0.3009,
5676
+ "step": 805
5677
+ },
5678
+ {
5679
+ "epoch": 0.8413361169102297,
5680
+ "grad_norm": 0.5892521142959595,
5681
+ "learning_rate": 1.2420468982372158e-05,
5682
+ "loss": 0.249,
5683
+ "step": 806
5684
+ },
5685
+ {
5686
+ "epoch": 0.8423799582463466,
5687
+ "grad_norm": 0.5853463411331177,
5688
+ "learning_rate": 1.226099317380912e-05,
5689
+ "loss": 0.2465,
5690
+ "step": 807
5691
+ },
5692
+ {
5693
+ "epoch": 0.8434237995824635,
5694
+ "grad_norm": 0.640910267829895,
5695
+ "learning_rate": 1.210248091775663e-05,
5696
+ "loss": 0.1872,
5697
+ "step": 808
5698
+ },
5699
+ {
5700
+ "epoch": 0.8444676409185804,
5701
+ "grad_norm": 0.6560840606689453,
5702
+ "learning_rate": 1.1944933955001225e-05,
5703
+ "loss": 0.2542,
5704
+ "step": 809
5705
+ },
5706
+ {
5707
+ "epoch": 0.8455114822546973,
5708
+ "grad_norm": 0.5866312980651855,
5709
+ "learning_rate": 1.1788354015728543e-05,
5710
+ "loss": 0.1911,
5711
+ "step": 810
5712
+ },
5713
+ {
5714
+ "epoch": 0.8465553235908142,
5715
+ "grad_norm": 0.6191656589508057,
5716
+ "learning_rate": 1.1632742819504405e-05,
5717
+ "loss": 0.2215,
5718
+ "step": 811
5719
+ },
5720
+ {
5721
+ "epoch": 0.8475991649269311,
5722
+ "grad_norm": 0.5251643657684326,
5723
+ "learning_rate": 1.147810207525577e-05,
5724
+ "loss": 0.1583,
5725
+ "step": 812
5726
+ },
5727
+ {
5728
+ "epoch": 0.848643006263048,
5729
+ "grad_norm": 0.4927600622177124,
5730
+ "learning_rate": 1.132443348125214e-05,
5731
+ "loss": 0.1512,
5732
+ "step": 813
5733
+ },
5734
+ {
5735
+ "epoch": 0.8496868475991649,
5736
+ "grad_norm": 0.4139147698879242,
5737
+ "learning_rate": 1.1171738725086833e-05,
5738
+ "loss": 0.1172,
5739
+ "step": 814
5740
+ },
5741
+ {
5742
+ "epoch": 0.8507306889352818,
5743
+ "grad_norm": 0.5602164268493652,
5744
+ "learning_rate": 1.1020019483658384e-05,
5745
+ "loss": 0.1821,
5746
+ "step": 815
5747
+ },
5748
+ {
5749
+ "epoch": 0.8517745302713987,
5750
+ "grad_norm": 0.4220430850982666,
5751
+ "learning_rate": 1.0869277423152246e-05,
5752
+ "loss": 0.1263,
5753
+ "step": 816
5754
+ },
5755
+ {
5756
+ "epoch": 0.8528183716075156,
5757
+ "grad_norm": 0.38943833112716675,
5758
+ "learning_rate": 1.0719514199022473e-05,
5759
+ "loss": 0.1141,
5760
+ "step": 817
5761
+ },
5762
+ {
5763
+ "epoch": 0.8538622129436325,
5764
+ "grad_norm": 0.5523675084114075,
5765
+ "learning_rate": 1.0570731455973414e-05,
5766
+ "loss": 0.1578,
5767
+ "step": 818
5768
+ },
5769
+ {
5770
+ "epoch": 0.8549060542797495,
5771
+ "grad_norm": 0.6071298718452454,
5772
+ "learning_rate": 1.04229308279418e-05,
5773
+ "loss": 0.2323,
5774
+ "step": 819
5775
+ },
5776
+ {
5777
+ "epoch": 0.8559498956158664,
5778
+ "grad_norm": 0.5393807291984558,
5779
+ "learning_rate": 1.0276113938078769e-05,
5780
+ "loss": 0.1967,
5781
+ "step": 820
5782
+ },
5783
+ {
5784
+ "epoch": 0.8569937369519833,
5785
+ "grad_norm": 0.6537972688674927,
5786
+ "learning_rate": 1.0130282398731982e-05,
5787
+ "loss": 0.1953,
5788
+ "step": 821
5789
+ },
5790
+ {
5791
+ "epoch": 0.8580375782881002,
5792
+ "grad_norm": 0.4417877197265625,
5793
+ "learning_rate": 9.985437811427933e-06,
5794
+ "loss": 0.1453,
5795
+ "step": 822
5796
+ },
5797
+ {
5798
+ "epoch": 0.8590814196242171,
5799
+ "grad_norm": 0.6434723734855652,
5800
+ "learning_rate": 9.841581766854401e-06,
5801
+ "loss": 0.1683,
5802
+ "step": 823
5803
+ },
5804
+ {
5805
+ "epoch": 0.860125260960334,
5806
+ "grad_norm": 0.7254697680473328,
5807
+ "learning_rate": 9.698715844842988e-06,
5808
+ "loss": 0.3499,
5809
+ "step": 824
5810
+ },
5811
+ {
5812
+ "epoch": 0.8611691022964509,
5813
+ "grad_norm": 0.6909394264221191,
5814
+ "learning_rate": 9.556841614351664e-06,
5815
+ "loss": 0.2757,
5816
+ "step": 825
5817
+ },
5818
+ {
5819
+ "epoch": 0.8622129436325678,
5820
+ "grad_norm": 0.7137805223464966,
5821
+ "learning_rate": 9.415960633447674e-06,
5822
+ "loss": 0.3122,
5823
+ "step": 826
5824
+ },
5825
+ {
5826
+ "epoch": 0.8632567849686847,
5827
+ "grad_norm": 0.7450171709060669,
5828
+ "learning_rate": 9.276074449290361e-06,
5829
+ "loss": 0.2928,
5830
+ "step": 827
5831
+ },
5832
+ {
5833
+ "epoch": 0.8643006263048016,
5834
+ "grad_norm": 0.6502891778945923,
5835
+ "learning_rate": 9.137184598114134e-06,
5836
+ "loss": 0.2517,
5837
+ "step": 828
5838
+ },
5839
+ {
5840
+ "epoch": 0.8653444676409185,
5841
+ "grad_norm": 0.6984295845031738,
5842
+ "learning_rate": 8.999292605211695e-06,
5843
+ "loss": 0.3062,
5844
+ "step": 829
5845
+ },
5846
+ {
5847
+ "epoch": 0.8663883089770354,
5848
+ "grad_norm": 0.7169867753982544,
5849
+ "learning_rate": 8.862399984917213e-06,
5850
+ "loss": 0.2748,
5851
+ "step": 830
5852
+ },
5853
+ {
5854
+ "epoch": 0.8674321503131524,
5855
+ "grad_norm": 0.7259141802787781,
5856
+ "learning_rate": 8.726508240589692e-06,
5857
+ "loss": 0.3033,
5858
+ "step": 831
5859
+ },
5860
+ {
5861
+ "epoch": 0.8684759916492694,
5862
+ "grad_norm": 0.7949566841125488,
5863
+ "learning_rate": 8.59161886459654e-06,
5864
+ "loss": 0.3149,
5865
+ "step": 832
5866
+ },
5867
+ {
5868
+ "epoch": 0.8695198329853863,
5869
+ "grad_norm": 0.7562083005905151,
5870
+ "learning_rate": 8.457733338297069e-06,
5871
+ "loss": 0.3192,
5872
+ "step": 833
5873
+ },
5874
+ {
5875
+ "epoch": 0.8705636743215032,
5876
+ "grad_norm": 0.6112555265426636,
5877
+ "learning_rate": 8.3248531320263e-06,
5878
+ "loss": 0.2175,
5879
+ "step": 834
5880
+ },
5881
+ {
5882
+ "epoch": 0.8716075156576201,
5883
+ "grad_norm": 0.7050125598907471,
5884
+ "learning_rate": 8.192979705078852e-06,
5885
+ "loss": 0.243,
5886
+ "step": 835
5887
+ },
5888
+ {
5889
+ "epoch": 0.872651356993737,
5890
+ "grad_norm": 0.6470485925674438,
5891
+ "learning_rate": 8.062114505692742e-06,
5892
+ "loss": 0.2384,
5893
+ "step": 836
5894
+ },
5895
+ {
5896
+ "epoch": 0.8736951983298539,
5897
+ "grad_norm": 0.7082952260971069,
5898
+ "learning_rate": 7.932258971033746e-06,
5899
+ "loss": 0.2795,
5900
+ "step": 837
5901
+ },
5902
+ {
5903
+ "epoch": 0.8747390396659708,
5904
+ "grad_norm": 0.843268096446991,
5905
+ "learning_rate": 7.803414527179343e-06,
5906
+ "loss": 0.2991,
5907
+ "step": 838
5908
+ },
5909
+ {
5910
+ "epoch": 0.8757828810020877,
5911
+ "grad_norm": 0.6356431245803833,
5912
+ "learning_rate": 7.675582589103247e-06,
5913
+ "loss": 0.1963,
5914
+ "step": 839
5915
+ },
5916
+ {
5917
+ "epoch": 0.8768267223382046,
5918
+ "grad_norm": 0.569520890712738,
5919
+ "learning_rate": 7.548764560659816e-06,
5920
+ "loss": 0.1703,
5921
+ "step": 840
5922
+ },
5923
+ {
5924
+ "epoch": 0.8778705636743215,
5925
+ "grad_norm": 0.6984921097755432,
5926
+ "learning_rate": 7.422961834568565e-06,
5927
+ "loss": 0.2231,
5928
+ "step": 841
5929
+ },
5930
+ {
5931
+ "epoch": 0.8789144050104384,
5932
+ "grad_norm": 0.6111634969711304,
5933
+ "learning_rate": 7.2981757923989755e-06,
5934
+ "loss": 0.1825,
5935
+ "step": 842
5936
+ },
5937
+ {
5938
+ "epoch": 0.8799582463465553,
5939
+ "grad_norm": 0.666388213634491,
5940
+ "learning_rate": 7.174407804555261e-06,
5941
+ "loss": 0.1775,
5942
+ "step": 843
5943
+ },
5944
+ {
5945
+ "epoch": 0.8810020876826722,
5946
+ "grad_norm": 0.7088585495948792,
5947
+ "learning_rate": 7.051659230261298e-06,
5948
+ "loss": 0.1873,
5949
+ "step": 844
5950
+ },
5951
+ {
5952
+ "epoch": 0.8820459290187892,
5953
+ "grad_norm": 0.6127867102622986,
5954
+ "learning_rate": 6.929931417545788e-06,
5955
+ "loss": 0.1732,
5956
+ "step": 845
5957
+ },
5958
+ {
5959
+ "epoch": 0.8830897703549061,
5960
+ "grad_norm": 0.637973964214325,
5961
+ "learning_rate": 6.809225703227351e-06,
5962
+ "loss": 0.1856,
5963
+ "step": 846
5964
+ },
5965
+ {
5966
+ "epoch": 0.884133611691023,
5967
+ "grad_norm": 0.5888153910636902,
5968
+ "learning_rate": 6.689543412899913e-06,
5969
+ "loss": 0.1872,
5970
+ "step": 847
5971
+ },
5972
+ {
5973
+ "epoch": 0.8851774530271399,
5974
+ "grad_norm": 0.6536146402359009,
5975
+ "learning_rate": 6.57088586091813e-06,
5976
+ "loss": 0.2259,
5977
+ "step": 848
5978
+ },
5979
+ {
5980
+ "epoch": 0.8862212943632568,
5981
+ "grad_norm": 0.4231550693511963,
5982
+ "learning_rate": 6.45325435038292e-06,
5983
+ "loss": 0.1388,
5984
+ "step": 849
5985
+ },
5986
+ {
5987
+ "epoch": 0.8872651356993737,
5988
+ "grad_norm": 0.8168404698371887,
5989
+ "learning_rate": 6.336650173127223e-06,
5990
+ "loss": 0.1743,
5991
+ "step": 850
5992
+ },
5993
+ {
5994
+ "epoch": 0.8883089770354906,
5995
+ "grad_norm": 0.5078144073486328,
5996
+ "learning_rate": 6.221074609701738e-06,
5997
+ "loss": 0.2793,
5998
+ "step": 851
5999
+ },
6000
+ {
6001
+ "epoch": 0.8893528183716075,
6002
+ "grad_norm": 0.7190085053443909,
6003
+ "learning_rate": 6.106528929360911e-06,
6004
+ "loss": 0.4109,
6005
+ "step": 852
6006
+ },
6007
+ {
6008
+ "epoch": 0.8903966597077244,
6009
+ "grad_norm": 0.5939377546310425,
6010
+ "learning_rate": 5.99301439004899e-06,
6011
+ "loss": 0.2797,
6012
+ "step": 853
6013
+ },
6014
+ {
6015
+ "epoch": 0.8914405010438413,
6016
+ "grad_norm": 0.7328153848648071,
6017
+ "learning_rate": 5.880532238386161e-06,
6018
+ "loss": 0.3652,
6019
+ "step": 854
6020
+ },
6021
+ {
6022
+ "epoch": 0.8924843423799582,
6023
+ "grad_norm": 0.6011344194412231,
6024
+ "learning_rate": 5.769083709654932e-06,
6025
+ "loss": 0.2699,
6026
+ "step": 855
6027
+ },
6028
+ {
6029
+ "epoch": 0.8935281837160751,
6030
+ "grad_norm": 0.7004411220550537,
6031
+ "learning_rate": 5.658670027786561e-06,
6032
+ "loss": 0.3191,
6033
+ "step": 856
6034
+ },
6035
+ {
6036
+ "epoch": 0.894572025052192,
6037
+ "grad_norm": 0.5985621809959412,
6038
+ "learning_rate": 5.549292405347495e-06,
6039
+ "loss": 0.2593,
6040
+ "step": 857
6041
+ },
6042
+ {
6043
+ "epoch": 0.8956158663883089,
6044
+ "grad_norm": 0.6498935222625732,
6045
+ "learning_rate": 5.440952043526215e-06,
6046
+ "loss": 0.3027,
6047
+ "step": 858
6048
+ },
6049
+ {
6050
+ "epoch": 0.8966597077244259,
6051
+ "grad_norm": 0.6431671380996704,
6052
+ "learning_rate": 5.3336501321199714e-06,
6053
+ "loss": 0.237,
6054
+ "step": 859
6055
+ },
6056
+ {
6057
+ "epoch": 0.8977035490605428,
6058
+ "grad_norm": 0.6603933572769165,
6059
+ "learning_rate": 5.22738784952167e-06,
6060
+ "loss": 0.2533,
6061
+ "step": 860
6062
+ },
6063
+ {
6064
+ "epoch": 0.8987473903966597,
6065
+ "grad_norm": 0.5379349589347839,
6066
+ "learning_rate": 5.1221663627070485e-06,
6067
+ "loss": 0.1883,
6068
+ "step": 861
6069
+ },
6070
+ {
6071
+ "epoch": 0.8997912317327766,
6072
+ "grad_norm": 0.4264977276325226,
6073
+ "learning_rate": 5.017986827221733e-06,
6074
+ "loss": 0.1174,
6075
+ "step": 862
6076
+ },
6077
+ {
6078
+ "epoch": 0.9008350730688935,
6079
+ "grad_norm": 0.5029094815254211,
6080
+ "learning_rate": 4.914850387168657e-06,
6081
+ "loss": 0.1564,
6082
+ "step": 863
6083
+ },
6084
+ {
6085
+ "epoch": 0.9018789144050104,
6086
+ "grad_norm": 0.5162425637245178,
6087
+ "learning_rate": 4.812758175195397e-06,
6088
+ "loss": 0.1547,
6089
+ "step": 864
6090
+ },
6091
+ {
6092
+ "epoch": 0.9029227557411273,
6093
+ "grad_norm": 0.6308012008666992,
6094
+ "learning_rate": 4.711711312481815e-06,
6095
+ "loss": 0.1844,
6096
+ "step": 865
6097
+ },
6098
+ {
6099
+ "epoch": 0.9039665970772442,
6100
+ "grad_norm": 0.46069368720054626,
6101
+ "learning_rate": 4.61171090872774e-06,
6102
+ "loss": 0.1363,
6103
+ "step": 866
6104
+ },
6105
+ {
6106
+ "epoch": 0.9050104384133612,
6107
+ "grad_norm": 0.40711909532546997,
6108
+ "learning_rate": 4.512758062140687e-06,
6109
+ "loss": 0.1252,
6110
+ "step": 867
6111
+ },
6112
+ {
6113
+ "epoch": 0.906054279749478,
6114
+ "grad_norm": 0.5450437664985657,
6115
+ "learning_rate": 4.4148538594239174e-06,
6116
+ "loss": 0.1885,
6117
+ "step": 868
6118
+ },
6119
+ {
6120
+ "epoch": 0.907098121085595,
6121
+ "grad_norm": 0.5693588852882385,
6122
+ "learning_rate": 4.317999375764459e-06,
6123
+ "loss": 0.2161,
6124
+ "step": 869
6125
+ },
6126
+ {
6127
+ "epoch": 0.9081419624217119,
6128
+ "grad_norm": 0.45915868878364563,
6129
+ "learning_rate": 4.2221956748212384e-06,
6130
+ "loss": 0.1642,
6131
+ "step": 870
6132
+ },
6133
+ {
6134
+ "epoch": 0.9091858037578288,
6135
+ "grad_norm": 0.3877635896205902,
6136
+ "learning_rate": 4.127443808713527e-06,
6137
+ "loss": 0.1424,
6138
+ "step": 871
6139
+ },
6140
+ {
6141
+ "epoch": 0.9102296450939458,
6142
+ "grad_norm": 0.5209342241287231,
6143
+ "learning_rate": 4.033744818009244e-06,
6144
+ "loss": 0.1703,
6145
+ "step": 872
6146
+ },
6147
+ {
6148
+ "epoch": 0.9112734864300627,
6149
+ "grad_norm": 0.4651091396808624,
6150
+ "learning_rate": 3.941099731713637e-06,
6151
+ "loss": 0.1584,
6152
+ "step": 873
6153
+ },
6154
+ {
6155
+ "epoch": 0.9123173277661796,
6156
+ "grad_norm": 0.8967810869216919,
6157
+ "learning_rate": 3.849509567257959e-06,
6158
+ "loss": 0.3558,
6159
+ "step": 874
6160
+ },
6161
+ {
6162
+ "epoch": 0.9133611691022965,
6163
+ "grad_norm": 0.8381048440933228,
6164
+ "learning_rate": 3.7589753304882124e-06,
6165
+ "loss": 0.3886,
6166
+ "step": 875
6167
+ },
6168
+ {
6169
+ "epoch": 0.9144050104384134,
6170
+ "grad_norm": 0.6149895787239075,
6171
+ "learning_rate": 3.669498015654249e-06,
6172
+ "loss": 0.31,
6173
+ "step": 876
6174
+ },
6175
+ {
6176
+ "epoch": 0.9154488517745303,
6177
+ "grad_norm": 0.7612007856369019,
6178
+ "learning_rate": 3.5810786053987023e-06,
6179
+ "loss": 0.359,
6180
+ "step": 877
6181
+ },
6182
+ {
6183
+ "epoch": 0.9164926931106472,
6184
+ "grad_norm": 0.6727755069732666,
6185
+ "learning_rate": 3.493718070746299e-06,
6186
+ "loss": 0.2748,
6187
+ "step": 878
6188
+ },
6189
+ {
6190
+ "epoch": 0.9175365344467641,
6191
+ "grad_norm": 0.734786868095398,
6192
+ "learning_rate": 3.40741737109318e-06,
6193
+ "loss": 0.3066,
6194
+ "step": 879
6195
+ },
6196
+ {
6197
+ "epoch": 0.918580375782881,
6198
+ "grad_norm": 0.6576768159866333,
6199
+ "learning_rate": 3.3221774541962845e-06,
6200
+ "loss": 0.2677,
6201
+ "step": 880
6202
+ },
6203
+ {
6204
+ "epoch": 0.9196242171189979,
6205
+ "grad_norm": 0.6196028590202332,
6206
+ "learning_rate": 3.2379992561630712e-06,
6207
+ "loss": 0.2484,
6208
+ "step": 881
6209
+ },
6210
+ {
6211
+ "epoch": 0.9206680584551148,
6212
+ "grad_norm": 0.7527311444282532,
6213
+ "learning_rate": 3.1548837014411357e-06,
6214
+ "loss": 0.2787,
6215
+ "step": 882
6216
+ },
6217
+ {
6218
+ "epoch": 0.9217118997912317,
6219
+ "grad_norm": 0.7063425779342651,
6220
+ "learning_rate": 3.0728317028080657e-06,
6221
+ "loss": 0.303,
6222
+ "step": 883
6223
+ },
6224
+ {
6225
+ "epoch": 0.9227557411273486,
6226
+ "grad_norm": 0.6437200307846069,
6227
+ "learning_rate": 2.9918441613615123e-06,
6228
+ "loss": 0.2501,
6229
+ "step": 884
6230
+ },
6231
+ {
6232
+ "epoch": 0.9237995824634656,
6233
+ "grad_norm": 0.8236239552497864,
6234
+ "learning_rate": 2.9119219665091344e-06,
6235
+ "loss": 0.3234,
6236
+ "step": 885
6237
+ },
6238
+ {
6239
+ "epoch": 0.9248434237995825,
6240
+ "grad_norm": 0.686543881893158,
6241
+ "learning_rate": 2.8330659959589946e-06,
6242
+ "loss": 0.2407,
6243
+ "step": 886
6244
+ },
6245
+ {
6246
+ "epoch": 0.9258872651356994,
6247
+ "grad_norm": 0.7093439698219299,
6248
+ "learning_rate": 2.755277115709842e-06,
6249
+ "loss": 0.246,
6250
+ "step": 887
6251
+ },
6252
+ {
6253
+ "epoch": 0.9269311064718163,
6254
+ "grad_norm": 0.7115840315818787,
6255
+ "learning_rate": 2.678556180041547e-06,
6256
+ "loss": 0.2551,
6257
+ "step": 888
6258
+ },
6259
+ {
6260
+ "epoch": 0.9279749478079332,
6261
+ "grad_norm": 0.6106806993484497,
6262
+ "learning_rate": 2.6029040315058485e-06,
6263
+ "loss": 0.2137,
6264
+ "step": 889
6265
+ },
6266
+ {
6267
+ "epoch": 0.9290187891440501,
6268
+ "grad_norm": 0.5461225509643555,
6269
+ "learning_rate": 2.5283215009169857e-06,
6270
+ "loss": 0.1847,
6271
+ "step": 890
6272
+ },
6273
+ {
6274
+ "epoch": 0.930062630480167,
6275
+ "grad_norm": 0.6097748875617981,
6276
+ "learning_rate": 2.4548094073426398e-06,
6277
+ "loss": 0.209,
6278
+ "step": 891
6279
+ },
6280
+ {
6281
+ "epoch": 0.9311064718162839,
6282
+ "grad_norm": 0.6483787298202515,
6283
+ "learning_rate": 2.3823685580949273e-06,
6284
+ "loss": 0.2244,
6285
+ "step": 892
6286
+ },
6287
+ {
6288
+ "epoch": 0.9321503131524008,
6289
+ "grad_norm": 0.5993359088897705,
6290
+ "learning_rate": 2.3109997487214983e-06,
6291
+ "loss": 0.189,
6292
+ "step": 893
6293
+ },
6294
+ {
6295
+ "epoch": 0.9331941544885177,
6296
+ "grad_norm": 0.8005963563919067,
6297
+ "learning_rate": 2.240703762996843e-06,
6298
+ "loss": 0.2385,
6299
+ "step": 894
6300
+ },
6301
+ {
6302
+ "epoch": 0.9342379958246346,
6303
+ "grad_norm": 0.4756294786930084,
6304
+ "learning_rate": 2.1714813729136975e-06,
6305
+ "loss": 0.1531,
6306
+ "step": 895
6307
+ },
6308
+ {
6309
+ "epoch": 0.9352818371607515,
6310
+ "grad_norm": 0.577684760093689,
6311
+ "learning_rate": 2.1033333386744846e-06,
6312
+ "loss": 0.1722,
6313
+ "step": 896
6314
+ },
6315
+ {
6316
+ "epoch": 0.9363256784968684,
6317
+ "grad_norm": 0.5431109666824341,
6318
+ "learning_rate": 2.036260408683033e-06,
6319
+ "loss": 0.1796,
6320
+ "step": 897
6321
+ },
6322
+ {
6323
+ "epoch": 0.9373695198329853,
6324
+ "grad_norm": 0.5910576581954956,
6325
+ "learning_rate": 1.9702633195363917e-06,
6326
+ "loss": 0.1689,
6327
+ "step": 898
6328
+ },
6329
+ {
6330
+ "epoch": 0.9384133611691023,
6331
+ "grad_norm": 0.6282055377960205,
6332
+ "learning_rate": 1.9053427960166182e-06,
6333
+ "loss": 0.1681,
6334
+ "step": 899
6335
+ },
6336
+ {
6337
+ "epoch": 0.9394572025052192,
6338
+ "grad_norm": 0.46189793944358826,
6339
+ "learning_rate": 1.8414995510829368e-06,
6340
+ "loss": 0.0832,
6341
+ "step": 900
6342
+ },
6343
+ {
6344
+ "epoch": 0.9405010438413361,
6345
+ "grad_norm": 0.7074732780456543,
6346
+ "learning_rate": 1.778734285863859e-06,
6347
+ "loss": 0.3342,
6348
+ "step": 901
6349
+ },
6350
+ {
6351
+ "epoch": 0.941544885177453,
6352
+ "grad_norm": 0.6299365162849426,
6353
+ "learning_rate": 1.717047689649487e-06,
6354
+ "loss": 0.3618,
6355
+ "step": 902
6356
+ },
6357
+ {
6358
+ "epoch": 0.94258872651357,
6359
+ "grad_norm": 0.6098471879959106,
6360
+ "learning_rate": 1.6564404398839439e-06,
6361
+ "loss": 0.3235,
6362
+ "step": 903
6363
+ },
6364
+ {
6365
+ "epoch": 0.9436325678496869,
6366
+ "grad_norm": 0.5733586549758911,
6367
+ "learning_rate": 1.5969132021579347e-06,
6368
+ "loss": 0.2646,
6369
+ "step": 904
6370
+ },
6371
+ {
6372
+ "epoch": 0.9446764091858038,
6373
+ "grad_norm": 0.6624009609222412,
6374
+ "learning_rate": 1.5384666302014406e-06,
6375
+ "loss": 0.3138,
6376
+ "step": 905
6377
+ },
6378
+ {
6379
+ "epoch": 0.9457202505219207,
6380
+ "grad_norm": 0.7231829762458801,
6381
+ "learning_rate": 1.481101365876547e-06,
6382
+ "loss": 0.3016,
6383
+ "step": 906
6384
+ },
6385
+ {
6386
+ "epoch": 0.9467640918580376,
6387
+ "grad_norm": 0.634404718875885,
6388
+ "learning_rate": 1.4248180391703614e-06,
6389
+ "loss": 0.2247,
6390
+ "step": 907
6391
+ },
6392
+ {
6393
+ "epoch": 0.9478079331941545,
6394
+ "grad_norm": 0.664415180683136,
6395
+ "learning_rate": 1.3696172681881503e-06,
6396
+ "loss": 0.3176,
6397
+ "step": 908
6398
+ },
6399
+ {
6400
+ "epoch": 0.9488517745302714,
6401
+ "grad_norm": 0.5892297625541687,
6402
+ "learning_rate": 1.3154996591464908e-06,
6403
+ "loss": 0.2327,
6404
+ "step": 909
6405
+ },
6406
+ {
6407
+ "epoch": 0.9498956158663883,
6408
+ "grad_norm": 0.5772663354873657,
6409
+ "learning_rate": 1.2624658063666639e-06,
6410
+ "loss": 0.2104,
6411
+ "step": 910
6412
+ },
6413
+ {
6414
+ "epoch": 0.9509394572025052,
6415
+ "grad_norm": 0.5238860845565796,
6416
+ "learning_rate": 1.2105162922680824e-06,
6417
+ "loss": 0.1807,
6418
+ "step": 911
6419
+ },
6420
+ {
6421
+ "epoch": 0.9519832985386222,
6422
+ "grad_norm": 0.5960121750831604,
6423
+ "learning_rate": 1.15965168736194e-06,
6424
+ "loss": 0.2065,
6425
+ "step": 912
6426
+ },
6427
+ {
6428
+ "epoch": 0.9530271398747391,
6429
+ "grad_norm": 0.47030001878738403,
6430
+ "learning_rate": 1.109872550244917e-06,
6431
+ "loss": 0.1519,
6432
+ "step": 913
6433
+ },
6434
+ {
6435
+ "epoch": 0.954070981210856,
6436
+ "grad_norm": 0.5340988636016846,
6437
+ "learning_rate": 1.0611794275930399e-06,
6438
+ "loss": 0.1603,
6439
+ "step": 914
6440
+ },
6441
+ {
6442
+ "epoch": 0.9551148225469729,
6443
+ "grad_norm": 0.3915995955467224,
6444
+ "learning_rate": 1.01357285415572e-06,
6445
+ "loss": 0.1179,
6446
+ "step": 915
6447
+ },
6448
+ {
6449
+ "epoch": 0.9561586638830898,
6450
+ "grad_norm": 0.3927573561668396,
6451
+ "learning_rate": 9.670533527498137e-07,
6452
+ "loss": 0.1151,
6453
+ "step": 916
6454
+ },
6455
+ {
6456
+ "epoch": 0.9572025052192067,
6457
+ "grad_norm": 0.3486252725124359,
6458
+ "learning_rate": 9.216214342539386e-07,
6459
+ "loss": 0.0942,
6460
+ "step": 917
6461
+ },
6462
+ {
6463
+ "epoch": 0.9582463465553236,
6464
+ "grad_norm": 0.3841801583766937,
6465
+ "learning_rate": 8.772775976028546e-07,
6466
+ "loss": 0.1185,
6467
+ "step": 918
6468
+ },
6469
+ {
6470
+ "epoch": 0.9592901878914405,
6471
+ "grad_norm": 0.49043968319892883,
6472
+ "learning_rate": 8.340223297819471e-07,
6473
+ "loss": 0.1571,
6474
+ "step": 919
6475
+ },
6476
+ {
6477
+ "epoch": 0.9603340292275574,
6478
+ "grad_norm": 0.5569294691085815,
6479
+ "learning_rate": 7.918561058219198e-07,
6480
+ "loss": 0.1835,
6481
+ "step": 920
6482
+ },
6483
+ {
6484
+ "epoch": 0.9613778705636743,
6485
+ "grad_norm": 0.39632856845855713,
6486
+ "learning_rate": 7.507793887935654e-07,
6487
+ "loss": 0.1649,
6488
+ "step": 921
6489
+ },
6490
+ {
6491
+ "epoch": 0.9624217118997912,
6492
+ "grad_norm": 0.46687746047973633,
6493
+ "learning_rate": 7.10792629802659e-07,
6494
+ "loss": 0.1609,
6495
+ "step": 922
6496
+ },
6497
+ {
6498
+ "epoch": 0.9634655532359081,
6499
+ "grad_norm": 0.3641255795955658,
6500
+ "learning_rate": 6.718962679850505e-07,
6501
+ "loss": 0.1387,
6502
+ "step": 923
6503
+ },
6504
+ {
6505
+ "epoch": 0.964509394572025,
6506
+ "grad_norm": 0.5133196115493774,
6507
+ "learning_rate": 6.340907305017907e-07,
6508
+ "loss": 0.1752,
6509
+ "step": 924
6510
+ },
6511
+ {
6512
+ "epoch": 0.965553235908142,
6513
+ "grad_norm": 0.7964520454406738,
6514
+ "learning_rate": 5.973764325344688e-07,
6515
+ "loss": 0.3131,
6516
+ "step": 925
6517
+ },
6518
+ {
6519
+ "epoch": 0.9665970772442589,
6520
+ "grad_norm": 0.7928893566131592,
6521
+ "learning_rate": 5.617537772806602e-07,
6522
+ "loss": 0.3533,
6523
+ "step": 926
6524
+ },
6525
+ {
6526
+ "epoch": 0.9676409185803758,
6527
+ "grad_norm": 0.7127247452735901,
6528
+ "learning_rate": 5.272231559494634e-07,
6529
+ "loss": 0.3272,
6530
+ "step": 927
6531
+ },
6532
+ {
6533
+ "epoch": 0.9686847599164927,
6534
+ "grad_norm": 0.6839384436607361,
6535
+ "learning_rate": 4.937849477572587e-07,
6536
+ "loss": 0.3335,
6537
+ "step": 928
6538
+ },
6539
+ {
6540
+ "epoch": 0.9697286012526096,
6541
+ "grad_norm": 0.6431897878646851,
6542
+ "learning_rate": 4.614395199234678e-07,
6543
+ "loss": 0.279,
6544
+ "step": 929
6545
+ },
6546
+ {
6547
+ "epoch": 0.9707724425887265,
6548
+ "grad_norm": 0.6917023658752441,
6549
+ "learning_rate": 4.3018722766661193e-07,
6550
+ "loss": 0.3009,
6551
+ "step": 930
6552
+ },
6553
+ {
6554
+ "epoch": 0.9718162839248434,
6555
+ "grad_norm": 0.6915965676307678,
6556
+ "learning_rate": 4.0002841420032634e-07,
6557
+ "loss": 0.2842,
6558
+ "step": 931
6559
+ },
6560
+ {
6561
+ "epoch": 0.9728601252609603,
6562
+ "grad_norm": 0.6639567017555237,
6563
+ "learning_rate": 3.7096341072964113e-07,
6564
+ "loss": 0.2613,
6565
+ "step": 932
6566
+ },
6567
+ {
6568
+ "epoch": 0.9739039665970772,
6569
+ "grad_norm": 0.5585394501686096,
6570
+ "learning_rate": 3.4299253644732855e-07,
6571
+ "loss": 0.2097,
6572
+ "step": 933
6573
+ },
6574
+ {
6575
+ "epoch": 0.9749478079331941,
6576
+ "grad_norm": 0.7092443704605103,
6577
+ "learning_rate": 3.161160985304168e-07,
6578
+ "loss": 0.2731,
6579
+ "step": 934
6580
+ },
6581
+ {
6582
+ "epoch": 0.975991649269311,
6583
+ "grad_norm": 0.8628230094909668,
6584
+ "learning_rate": 2.903343921367707e-07,
6585
+ "loss": 0.3337,
6586
+ "step": 935
6587
+ },
6588
+ {
6589
+ "epoch": 0.9770354906054279,
6590
+ "grad_norm": 0.7503064870834351,
6591
+ "learning_rate": 2.6564770040190535e-07,
6592
+ "loss": 0.2528,
6593
+ "step": 936
6594
+ },
6595
+ {
6596
+ "epoch": 0.9780793319415448,
6597
+ "grad_norm": 0.6571477651596069,
6598
+ "learning_rate": 2.420562944358329e-07,
6599
+ "loss": 0.2097,
6600
+ "step": 937
6601
+ },
6602
+ {
6603
+ "epoch": 0.9791231732776617,
6604
+ "grad_norm": 0.7250248193740845,
6605
+ "learning_rate": 2.1956043332010955e-07,
6606
+ "loss": 0.2418,
6607
+ "step": 938
6608
+ },
6609
+ {
6610
+ "epoch": 0.9801670146137788,
6611
+ "grad_norm": 0.5199112892150879,
6612
+ "learning_rate": 1.9816036410499338e-07,
6613
+ "loss": 0.1988,
6614
+ "step": 939
6615
+ },
6616
+ {
6617
+ "epoch": 0.9812108559498957,
6618
+ "grad_norm": 0.6716915369033813,
6619
+ "learning_rate": 1.7785632180670198e-07,
6620
+ "loss": 0.2049,
6621
+ "step": 940
6622
+ },
6623
+ {
6624
+ "epoch": 0.9822546972860126,
6625
+ "grad_norm": 0.6581385731697083,
6626
+ "learning_rate": 1.5864852940485898e-07,
6627
+ "loss": 0.2065,
6628
+ "step": 941
6629
+ },
6630
+ {
6631
+ "epoch": 0.9832985386221295,
6632
+ "grad_norm": 0.5942964553833008,
6633
+ "learning_rate": 1.405371978400516e-07,
6634
+ "loss": 0.188,
6635
+ "step": 942
6636
+ },
6637
+ {
6638
+ "epoch": 0.9843423799582464,
6639
+ "grad_norm": 0.6144523620605469,
6640
+ "learning_rate": 1.2352252601147697e-07,
6641
+ "loss": 0.1848,
6642
+ "step": 943
6643
+ },
6644
+ {
6645
+ "epoch": 0.9853862212943633,
6646
+ "grad_norm": 0.6265504956245422,
6647
+ "learning_rate": 1.0760470077479934e-07,
6648
+ "loss": 0.2032,
6649
+ "step": 944
6650
+ },
6651
+ {
6652
+ "epoch": 0.9864300626304802,
6653
+ "grad_norm": 0.5609498023986816,
6654
+ "learning_rate": 9.278389694006296e-08,
6655
+ "loss": 0.1657,
6656
+ "step": 945
6657
+ },
6658
+ {
6659
+ "epoch": 0.9874739039665971,
6660
+ "grad_norm": 0.5039533972740173,
6661
+ "learning_rate": 7.906027726981568e-08,
6662
+ "loss": 0.158,
6663
+ "step": 946
6664
+ },
6665
+ {
6666
+ "epoch": 0.988517745302714,
6667
+ "grad_norm": 0.5719618201255798,
6668
+ "learning_rate": 6.643399247725502e-08,
6669
+ "loss": 0.151,
6670
+ "step": 947
6671
+ },
6672
+ {
6673
+ "epoch": 0.9895615866388309,
6674
+ "grad_norm": 0.5313311815261841,
6675
+ "learning_rate": 5.490518122465149e-08,
6676
+ "loss": 0.1563,
6677
+ "step": 948
6678
+ },
6679
+ {
6680
+ "epoch": 0.9906054279749478,
6681
+ "grad_norm": 0.48120567202568054,
6682
+ "learning_rate": 4.447397012177224e-08,
6683
+ "loss": 0.1376,
6684
+ "step": 949
6685
+ },
6686
+ {
6687
+ "epoch": 0.9916492693110647,
6688
+ "grad_norm": 0.44713348150253296,
6689
+ "learning_rate": 3.5140473724482034e-08,
6690
+ "loss": 0.1198,
6691
+ "step": 950
6692
+ },
6693
+ {
6694
+ "epoch": 0.9926931106471816,
6695
+ "grad_norm": 0.6056554913520813,
6696
+ "learning_rate": 2.6904794533544332e-08,
6697
+ "loss": 0.2989,
6698
+ "step": 951
6699
+ },
6700
+ {
6701
+ "epoch": 0.9937369519832986,
6702
+ "grad_norm": 0.6082270741462708,
6703
+ "learning_rate": 1.976702299344435e-08,
6704
+ "loss": 0.2356,
6705
+ "step": 952
6706
+ },
6707
+ {
6708
+ "epoch": 0.9947807933194155,
6709
+ "grad_norm": 0.46945539116859436,
6710
+ "learning_rate": 1.3727237491412137e-08,
6711
+ "loss": 0.1697,
6712
+ "step": 953
6713
+ },
6714
+ {
6715
+ "epoch": 0.9958246346555324,
6716
+ "grad_norm": 0.5799762010574341,
6717
+ "learning_rate": 8.785504356556563e-09,
6718
+ "loss": 0.2196,
6719
+ "step": 954
6720
+ },
6721
+ {
6722
+ "epoch": 0.9968684759916493,
6723
+ "grad_norm": 0.6873183846473694,
6724
+ "learning_rate": 4.941877859143684e-09,
6725
+ "loss": 0.2819,
6726
+ "step": 955
6727
+ },
6728
+ {
6729
+ "epoch": 0.9979123173277662,
6730
+ "grad_norm": 0.6708718538284302,
6731
+ "learning_rate": 2.1964002100083312e-09,
6732
+ "loss": 0.2342,
6733
+ "step": 956
6734
+ },
6735
+ {
6736
+ "epoch": 0.9989561586638831,
6737
+ "grad_norm": 0.6889147758483887,
6738
+ "learning_rate": 5.491015600656013e-10,
6739
+ "loss": 0.2048,
6740
+ "step": 957
6741
+ },
6742
+ {
6743
+ "epoch": 1.0,
6744
+ "grad_norm": 0.7045766115188599,
6745
+ "learning_rate": 0.0,
6746
+ "loss": 0.1947,
6747
+ "step": 958
6748
  }
6749
  ],
6750
  "logging_steps": 1,
 
6759
  "should_evaluate": false,
6760
  "should_log": false,
6761
  "should_save": true,
6762
+ "should_training_stop": true
6763
  },
6764
  "attributes": {}
6765
  }
6766
  },
6767
+ "total_flos": 5.355154213385011e+17,
6768
  "train_batch_size": 2,
6769
  "trial_name": null,
6770
  "trial_params": null