dabrown commited on
Commit
d19db4a
·
verified ·
1 Parent(s): 66cc2ec

Training in progress, step 1125, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e553bf8f2470c1ea3a2671e4135d719851c85ce78f3bec79cb55f58e3e1eb6d6
3
  size 5752
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7caf021ab5ce5ef92c1f4ac9b15ae4bcacc9f4b513262e801c521c45c291a067
3
  size 5752
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c8a54a0afc59f0fedf73b5974129750e247b76adba15a09f39acf25110bcc648
3
  size 15814
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1c9391a21d5e632a3223cb800afddc3ebee3a1de81bda49de077aa0e595d2187
3
  size 15814
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:14e840ee5e3e3b65fee03bb4c0e2030a3edefd929cf2e5e1516c009fd8edcc26
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3e64c93c93cf359fc6ffc8129e112a611a39543f5a5b3d77a4638fbb4c71e084
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ac9c79078a88e8cb4c64a0c9b0c0b44a2e00e7411388bd2b931c0d5e22790bf5
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:966cc7c77768098c8af029c048689ac1de1ed0de938435a2a7a5601075335dbd
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.1200552254036857,
5
  "eval_steps": 375,
6
- "global_step": 750,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5281,6 +5281,2639 @@
5281
  "eval_samples_per_second": 177.259,
5282
  "eval_steps_per_second": 88.63,
5283
  "step": 750
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5284
  }
5285
  ],
5286
  "logging_steps": 1,
@@ -5300,7 +7933,7 @@
5300
  "attributes": {}
5301
  }
5302
  },
5303
- "total_flos": 119626923737088.0,
5304
  "train_batch_size": 2,
5305
  "trial_name": null,
5306
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.18008283810552855,
5
  "eval_steps": 375,
6
+ "global_step": 1125,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5281
  "eval_samples_per_second": 177.259,
5282
  "eval_steps_per_second": 88.63,
5283
  "step": 750
5284
+ },
5285
+ {
5286
+ "epoch": 0.12021529903755727,
5287
+ "grad_norm": 0.004605344031006098,
5288
+ "learning_rate": 0.00010084337058003303,
5289
+ "loss": 11.5,
5290
+ "step": 751
5291
+ },
5292
+ {
5293
+ "epoch": 0.12037537267142885,
5294
+ "grad_norm": 0.00208938866853714,
5295
+ "learning_rate": 0.00010063253121564868,
5296
+ "loss": 11.5,
5297
+ "step": 752
5298
+ },
5299
+ {
5300
+ "epoch": 0.12053544630530044,
5301
+ "grad_norm": 0.003603358054533601,
5302
+ "learning_rate": 0.00010042168903930514,
5303
+ "loss": 11.5,
5304
+ "step": 753
5305
+ },
5306
+ {
5307
+ "epoch": 0.12069551993917202,
5308
+ "grad_norm": 0.003973204176872969,
5309
+ "learning_rate": 0.00010021084498831522,
5310
+ "loss": 11.5,
5311
+ "step": 754
5312
+ },
5313
+ {
5314
+ "epoch": 0.1208555935730436,
5315
+ "grad_norm": 0.0031278200913220644,
5316
+ "learning_rate": 0.0001,
5317
+ "loss": 11.5,
5318
+ "step": 755
5319
+ },
5320
+ {
5321
+ "epoch": 0.12101566720691519,
5322
+ "grad_norm": 0.0022925559896975756,
5323
+ "learning_rate": 9.97891550116848e-05,
5324
+ "loss": 11.5,
5325
+ "step": 756
5326
+ },
5327
+ {
5328
+ "epoch": 0.12117574084078676,
5329
+ "grad_norm": 0.005406473763287067,
5330
+ "learning_rate": 9.957831096069488e-05,
5331
+ "loss": 11.5,
5332
+ "step": 757
5333
+ },
5334
+ {
5335
+ "epoch": 0.12133581447465834,
5336
+ "grad_norm": 0.00347351748496294,
5337
+ "learning_rate": 9.936746878435136e-05,
5338
+ "loss": 11.5,
5339
+ "step": 758
5340
+ },
5341
+ {
5342
+ "epoch": 0.12149588810852992,
5343
+ "grad_norm": 0.004065958317369223,
5344
+ "learning_rate": 9.915662941996699e-05,
5345
+ "loss": 11.5,
5346
+ "step": 759
5347
+ },
5348
+ {
5349
+ "epoch": 0.12165596174240151,
5350
+ "grad_norm": 0.003199318889528513,
5351
+ "learning_rate": 9.894579380484204e-05,
5352
+ "loss": 11.5,
5353
+ "step": 760
5354
+ },
5355
+ {
5356
+ "epoch": 0.12181603537627309,
5357
+ "grad_norm": 0.00647583557292819,
5358
+ "learning_rate": 9.873496287626019e-05,
5359
+ "loss": 11.5,
5360
+ "step": 761
5361
+ },
5362
+ {
5363
+ "epoch": 0.12197610901014466,
5364
+ "grad_norm": 0.004823511932045221,
5365
+ "learning_rate": 9.852413757148417e-05,
5366
+ "loss": 11.5,
5367
+ "step": 762
5368
+ },
5369
+ {
5370
+ "epoch": 0.12213618264401625,
5371
+ "grad_norm": 0.007430774159729481,
5372
+ "learning_rate": 9.831331882775178e-05,
5373
+ "loss": 11.5,
5374
+ "step": 763
5375
+ },
5376
+ {
5377
+ "epoch": 0.12229625627788783,
5378
+ "grad_norm": 0.004258694592863321,
5379
+ "learning_rate": 9.81025075822716e-05,
5380
+ "loss": 11.5,
5381
+ "step": 764
5382
+ },
5383
+ {
5384
+ "epoch": 0.1224563299117594,
5385
+ "grad_norm": 0.004434685222804546,
5386
+ "learning_rate": 9.789170477221891e-05,
5387
+ "loss": 11.5,
5388
+ "step": 765
5389
+ },
5390
+ {
5391
+ "epoch": 0.12261640354563098,
5392
+ "grad_norm": 0.005173634737730026,
5393
+ "learning_rate": 9.76809113347315e-05,
5394
+ "loss": 11.5,
5395
+ "step": 766
5396
+ },
5397
+ {
5398
+ "epoch": 0.12277647717950257,
5399
+ "grad_norm": 0.002468820894137025,
5400
+ "learning_rate": 9.747012820690543e-05,
5401
+ "loss": 11.5,
5402
+ "step": 767
5403
+ },
5404
+ {
5405
+ "epoch": 0.12293655081337415,
5406
+ "grad_norm": 0.0034938561730086803,
5407
+ "learning_rate": 9.725935632579104e-05,
5408
+ "loss": 11.5,
5409
+ "step": 768
5410
+ },
5411
+ {
5412
+ "epoch": 0.12309662444724573,
5413
+ "grad_norm": 0.002860844600945711,
5414
+ "learning_rate": 9.704859662838855e-05,
5415
+ "loss": 11.5,
5416
+ "step": 769
5417
+ },
5418
+ {
5419
+ "epoch": 0.12325669808111732,
5420
+ "grad_norm": 0.004840923007577658,
5421
+ "learning_rate": 9.683785005164411e-05,
5422
+ "loss": 11.5,
5423
+ "step": 770
5424
+ },
5425
+ {
5426
+ "epoch": 0.1234167717149889,
5427
+ "grad_norm": 0.003707458032295108,
5428
+ "learning_rate": 9.662711753244551e-05,
5429
+ "loss": 11.5,
5430
+ "step": 771
5431
+ },
5432
+ {
5433
+ "epoch": 0.12357684534886047,
5434
+ "grad_norm": 0.0015729664592072368,
5435
+ "learning_rate": 9.641640000761802e-05,
5436
+ "loss": 11.5,
5437
+ "step": 772
5438
+ },
5439
+ {
5440
+ "epoch": 0.12373691898273205,
5441
+ "grad_norm": 0.0019833880942314863,
5442
+ "learning_rate": 9.620569841392029e-05,
5443
+ "loss": 11.5,
5444
+ "step": 773
5445
+ },
5446
+ {
5447
+ "epoch": 0.12389699261660364,
5448
+ "grad_norm": 0.0022297173272818327,
5449
+ "learning_rate": 9.59950136880401e-05,
5450
+ "loss": 11.5,
5451
+ "step": 774
5452
+ },
5453
+ {
5454
+ "epoch": 0.12405706625047522,
5455
+ "grad_norm": 0.002988791326060891,
5456
+ "learning_rate": 9.57843467665903e-05,
5457
+ "loss": 11.5,
5458
+ "step": 775
5459
+ },
5460
+ {
5461
+ "epoch": 0.1242171398843468,
5462
+ "grad_norm": 0.0060118031688034534,
5463
+ "learning_rate": 9.557369858610453e-05,
5464
+ "loss": 11.5,
5465
+ "step": 776
5466
+ },
5467
+ {
5468
+ "epoch": 0.12437721351821839,
5469
+ "grad_norm": 0.005681234411895275,
5470
+ "learning_rate": 9.53630700830332e-05,
5471
+ "loss": 11.5,
5472
+ "step": 777
5473
+ },
5474
+ {
5475
+ "epoch": 0.12453728715208996,
5476
+ "grad_norm": 0.005485843401402235,
5477
+ "learning_rate": 9.51524621937391e-05,
5478
+ "loss": 11.5,
5479
+ "step": 778
5480
+ },
5481
+ {
5482
+ "epoch": 0.12469736078596154,
5483
+ "grad_norm": 0.002206267789006233,
5484
+ "learning_rate": 9.494187585449358e-05,
5485
+ "loss": 11.5,
5486
+ "step": 779
5487
+ },
5488
+ {
5489
+ "epoch": 0.12485743441983313,
5490
+ "grad_norm": 0.0023218491114676,
5491
+ "learning_rate": 9.473131200147205e-05,
5492
+ "loss": 11.5,
5493
+ "step": 780
5494
+ },
5495
+ {
5496
+ "epoch": 0.1250175080537047,
5497
+ "grad_norm": 0.001893517910502851,
5498
+ "learning_rate": 9.452077157074994e-05,
5499
+ "loss": 11.5,
5500
+ "step": 781
5501
+ },
5502
+ {
5503
+ "epoch": 0.12517758168757628,
5504
+ "grad_norm": 0.002466535195708275,
5505
+ "learning_rate": 9.431025549829862e-05,
5506
+ "loss": 11.5,
5507
+ "step": 782
5508
+ },
5509
+ {
5510
+ "epoch": 0.12533765532144786,
5511
+ "grad_norm": 0.00466206343844533,
5512
+ "learning_rate": 9.409976471998118e-05,
5513
+ "loss": 11.5,
5514
+ "step": 783
5515
+ },
5516
+ {
5517
+ "epoch": 0.12549772895531944,
5518
+ "grad_norm": 0.0027048313058912754,
5519
+ "learning_rate": 9.388930017154819e-05,
5520
+ "loss": 11.5,
5521
+ "step": 784
5522
+ },
5523
+ {
5524
+ "epoch": 0.12565780258919101,
5525
+ "grad_norm": 0.0014575169188901782,
5526
+ "learning_rate": 9.367886278863366e-05,
5527
+ "loss": 11.5,
5528
+ "step": 785
5529
+ },
5530
+ {
5531
+ "epoch": 0.12581787622306262,
5532
+ "grad_norm": 0.003571330104023218,
5533
+ "learning_rate": 9.346845350675088e-05,
5534
+ "loss": 11.5,
5535
+ "step": 786
5536
+ },
5537
+ {
5538
+ "epoch": 0.1259779498569342,
5539
+ "grad_norm": 0.0030264845117926598,
5540
+ "learning_rate": 9.325807326128814e-05,
5541
+ "loss": 11.5,
5542
+ "step": 787
5543
+ },
5544
+ {
5545
+ "epoch": 0.12613802349080577,
5546
+ "grad_norm": 0.002837283769622445,
5547
+ "learning_rate": 9.304772298750463e-05,
5548
+ "loss": 11.5,
5549
+ "step": 788
5550
+ },
5551
+ {
5552
+ "epoch": 0.12629809712467735,
5553
+ "grad_norm": 0.0029044628608971834,
5554
+ "learning_rate": 9.283740362052642e-05,
5555
+ "loss": 11.5,
5556
+ "step": 789
5557
+ },
5558
+ {
5559
+ "epoch": 0.12645817075854893,
5560
+ "grad_norm": 0.003517976263538003,
5561
+ "learning_rate": 9.26271160953421e-05,
5562
+ "loss": 11.5,
5563
+ "step": 790
5564
+ },
5565
+ {
5566
+ "epoch": 0.1266182443924205,
5567
+ "grad_norm": 0.00347169884480536,
5568
+ "learning_rate": 9.241686134679867e-05,
5569
+ "loss": 11.5,
5570
+ "step": 791
5571
+ },
5572
+ {
5573
+ "epoch": 0.12677831802629208,
5574
+ "grad_norm": 0.0036738195922225714,
5575
+ "learning_rate": 9.220664030959749e-05,
5576
+ "loss": 11.5,
5577
+ "step": 792
5578
+ },
5579
+ {
5580
+ "epoch": 0.12693839166016369,
5581
+ "grad_norm": 0.004519483540207148,
5582
+ "learning_rate": 9.199645391828999e-05,
5583
+ "loss": 11.5,
5584
+ "step": 793
5585
+ },
5586
+ {
5587
+ "epoch": 0.12709846529403526,
5588
+ "grad_norm": 0.013343493454158306,
5589
+ "learning_rate": 9.178630310727365e-05,
5590
+ "loss": 11.5,
5591
+ "step": 794
5592
+ },
5593
+ {
5594
+ "epoch": 0.12725853892790684,
5595
+ "grad_norm": 0.004912480246275663,
5596
+ "learning_rate": 9.157618881078772e-05,
5597
+ "loss": 11.5,
5598
+ "step": 795
5599
+ },
5600
+ {
5601
+ "epoch": 0.12741861256177842,
5602
+ "grad_norm": 0.0050626154989004135,
5603
+ "learning_rate": 9.136611196290915e-05,
5604
+ "loss": 11.5,
5605
+ "step": 796
5606
+ },
5607
+ {
5608
+ "epoch": 0.12757868619565,
5609
+ "grad_norm": 0.004409583285450935,
5610
+ "learning_rate": 9.115607349754834e-05,
5611
+ "loss": 11.5,
5612
+ "step": 797
5613
+ },
5614
+ {
5615
+ "epoch": 0.12773875982952157,
5616
+ "grad_norm": 0.00467911409214139,
5617
+ "learning_rate": 9.094607434844523e-05,
5618
+ "loss": 11.5,
5619
+ "step": 798
5620
+ },
5621
+ {
5622
+ "epoch": 0.12789883346339317,
5623
+ "grad_norm": 0.005608738400042057,
5624
+ "learning_rate": 9.07361154491648e-05,
5625
+ "loss": 11.5,
5626
+ "step": 799
5627
+ },
5628
+ {
5629
+ "epoch": 0.12805890709726475,
5630
+ "grad_norm": 0.008519706316292286,
5631
+ "learning_rate": 9.052619773309317e-05,
5632
+ "loss": 11.5,
5633
+ "step": 800
5634
+ },
5635
+ {
5636
+ "epoch": 0.12821898073113633,
5637
+ "grad_norm": 0.00285702059045434,
5638
+ "learning_rate": 9.031632213343339e-05,
5639
+ "loss": 11.5,
5640
+ "step": 801
5641
+ },
5642
+ {
5643
+ "epoch": 0.1283790543650079,
5644
+ "grad_norm": 0.005185387562960386,
5645
+ "learning_rate": 9.01064895832012e-05,
5646
+ "loss": 11.5,
5647
+ "step": 802
5648
+ },
5649
+ {
5650
+ "epoch": 0.12853912799887948,
5651
+ "grad_norm": 0.0026589753106236458,
5652
+ "learning_rate": 8.98967010152211e-05,
5653
+ "loss": 11.5,
5654
+ "step": 803
5655
+ },
5656
+ {
5657
+ "epoch": 0.12869920163275106,
5658
+ "grad_norm": 0.002747615799307823,
5659
+ "learning_rate": 8.968695736212193e-05,
5660
+ "loss": 11.5,
5661
+ "step": 804
5662
+ },
5663
+ {
5664
+ "epoch": 0.12885927526662264,
5665
+ "grad_norm": 0.006737317889928818,
5666
+ "learning_rate": 8.947725955633294e-05,
5667
+ "loss": 11.5,
5668
+ "step": 805
5669
+ },
5670
+ {
5671
+ "epoch": 0.12901934890049424,
5672
+ "grad_norm": 0.0025012276601046324,
5673
+ "learning_rate": 8.926760853007946e-05,
5674
+ "loss": 11.5,
5675
+ "step": 806
5676
+ },
5677
+ {
5678
+ "epoch": 0.12917942253436582,
5679
+ "grad_norm": 0.0026731386315077543,
5680
+ "learning_rate": 8.905800521537905e-05,
5681
+ "loss": 11.5,
5682
+ "step": 807
5683
+ },
5684
+ {
5685
+ "epoch": 0.1293394961682374,
5686
+ "grad_norm": 0.002023561391979456,
5687
+ "learning_rate": 8.884845054403699e-05,
5688
+ "loss": 11.5,
5689
+ "step": 808
5690
+ },
5691
+ {
5692
+ "epoch": 0.12949956980210897,
5693
+ "grad_norm": 0.0024797311052680016,
5694
+ "learning_rate": 8.863894544764236e-05,
5695
+ "loss": 11.5,
5696
+ "step": 809
5697
+ },
5698
+ {
5699
+ "epoch": 0.12965964343598055,
5700
+ "grad_norm": 0.0026280167512595654,
5701
+ "learning_rate": 8.84294908575639e-05,
5702
+ "loss": 11.5,
5703
+ "step": 810
5704
+ },
5705
+ {
5706
+ "epoch": 0.12981971706985213,
5707
+ "grad_norm": 0.0032640115823596716,
5708
+ "learning_rate": 8.822008770494572e-05,
5709
+ "loss": 11.5,
5710
+ "step": 811
5711
+ },
5712
+ {
5713
+ "epoch": 0.1299797907037237,
5714
+ "grad_norm": 0.0033080619759857655,
5715
+ "learning_rate": 8.801073692070337e-05,
5716
+ "loss": 11.5,
5717
+ "step": 812
5718
+ },
5719
+ {
5720
+ "epoch": 0.1301398643375953,
5721
+ "grad_norm": 0.002956042531877756,
5722
+ "learning_rate": 8.780143943551954e-05,
5723
+ "loss": 11.5,
5724
+ "step": 813
5725
+ },
5726
+ {
5727
+ "epoch": 0.13029993797146688,
5728
+ "grad_norm": 0.0029434009920805693,
5729
+ "learning_rate": 8.759219617983999e-05,
5730
+ "loss": 11.5,
5731
+ "step": 814
5732
+ },
5733
+ {
5734
+ "epoch": 0.13046001160533846,
5735
+ "grad_norm": 0.002761637791991234,
5736
+ "learning_rate": 8.738300808386935e-05,
5737
+ "loss": 11.5,
5738
+ "step": 815
5739
+ },
5740
+ {
5741
+ "epoch": 0.13062008523921004,
5742
+ "grad_norm": 0.0042599160224199295,
5743
+ "learning_rate": 8.717387607756713e-05,
5744
+ "loss": 11.5,
5745
+ "step": 816
5746
+ },
5747
+ {
5748
+ "epoch": 0.13078015887308161,
5749
+ "grad_norm": 0.001450824085623026,
5750
+ "learning_rate": 8.696480109064342e-05,
5751
+ "loss": 11.5,
5752
+ "step": 817
5753
+ },
5754
+ {
5755
+ "epoch": 0.1309402325069532,
5756
+ "grad_norm": 0.004807382822036743,
5757
+ "learning_rate": 8.675578405255485e-05,
5758
+ "loss": 11.5,
5759
+ "step": 818
5760
+ },
5761
+ {
5762
+ "epoch": 0.13110030614082477,
5763
+ "grad_norm": 0.0016322832088917494,
5764
+ "learning_rate": 8.654682589250038e-05,
5765
+ "loss": 11.5,
5766
+ "step": 819
5767
+ },
5768
+ {
5769
+ "epoch": 0.13126037977469637,
5770
+ "grad_norm": 0.003458446590229869,
5771
+ "learning_rate": 8.633792753941733e-05,
5772
+ "loss": 11.5,
5773
+ "step": 820
5774
+ },
5775
+ {
5776
+ "epoch": 0.13142045340856795,
5777
+ "grad_norm": 0.004010004922747612,
5778
+ "learning_rate": 8.612908992197705e-05,
5779
+ "loss": 11.5,
5780
+ "step": 821
5781
+ },
5782
+ {
5783
+ "epoch": 0.13158052704243953,
5784
+ "grad_norm": 0.0021207761019468307,
5785
+ "learning_rate": 8.592031396858093e-05,
5786
+ "loss": 11.5,
5787
+ "step": 822
5788
+ },
5789
+ {
5790
+ "epoch": 0.1317406006763111,
5791
+ "grad_norm": 0.0034215482883155346,
5792
+ "learning_rate": 8.571160060735624e-05,
5793
+ "loss": 11.5,
5794
+ "step": 823
5795
+ },
5796
+ {
5797
+ "epoch": 0.13190067431018268,
5798
+ "grad_norm": 0.004220360890030861,
5799
+ "learning_rate": 8.550295076615188e-05,
5800
+ "loss": 11.5,
5801
+ "step": 824
5802
+ },
5803
+ {
5804
+ "epoch": 0.13206074794405426,
5805
+ "grad_norm": 0.002873731777071953,
5806
+ "learning_rate": 8.529436537253458e-05,
5807
+ "loss": 11.5,
5808
+ "step": 825
5809
+ },
5810
+ {
5811
+ "epoch": 0.13222082157792583,
5812
+ "grad_norm": 0.002436636248603463,
5813
+ "learning_rate": 8.508584535378439e-05,
5814
+ "loss": 11.5,
5815
+ "step": 826
5816
+ },
5817
+ {
5818
+ "epoch": 0.13238089521179744,
5819
+ "grad_norm": 0.0023656017147004604,
5820
+ "learning_rate": 8.487739163689079e-05,
5821
+ "loss": 11.5,
5822
+ "step": 827
5823
+ },
5824
+ {
5825
+ "epoch": 0.13254096884566902,
5826
+ "grad_norm": 0.001973626669496298,
5827
+ "learning_rate": 8.466900514854847e-05,
5828
+ "loss": 11.5,
5829
+ "step": 828
5830
+ },
5831
+ {
5832
+ "epoch": 0.1327010424795406,
5833
+ "grad_norm": 0.008791493251919746,
5834
+ "learning_rate": 8.446068681515334e-05,
5835
+ "loss": 11.5,
5836
+ "step": 829
5837
+ },
5838
+ {
5839
+ "epoch": 0.13286111611341217,
5840
+ "grad_norm": 0.0036985352635383606,
5841
+ "learning_rate": 8.425243756279824e-05,
5842
+ "loss": 11.5,
5843
+ "step": 830
5844
+ },
5845
+ {
5846
+ "epoch": 0.13302118974728375,
5847
+ "grad_norm": 0.001968603115528822,
5848
+ "learning_rate": 8.404425831726894e-05,
5849
+ "loss": 11.5,
5850
+ "step": 831
5851
+ },
5852
+ {
5853
+ "epoch": 0.13318126338115532,
5854
+ "grad_norm": 0.004625111818313599,
5855
+ "learning_rate": 8.383615000404e-05,
5856
+ "loss": 11.5,
5857
+ "step": 832
5858
+ },
5859
+ {
5860
+ "epoch": 0.1333413370150269,
5861
+ "grad_norm": 0.003616010770201683,
5862
+ "learning_rate": 8.362811354827059e-05,
5863
+ "loss": 11.5,
5864
+ "step": 833
5865
+ },
5866
+ {
5867
+ "epoch": 0.1335014106488985,
5868
+ "grad_norm": 0.002287510549649596,
5869
+ "learning_rate": 8.342014987480047e-05,
5870
+ "loss": 11.5,
5871
+ "step": 834
5872
+ },
5873
+ {
5874
+ "epoch": 0.13366148428277008,
5875
+ "grad_norm": 0.0015214205486699939,
5876
+ "learning_rate": 8.321225990814591e-05,
5877
+ "loss": 11.5,
5878
+ "step": 835
5879
+ },
5880
+ {
5881
+ "epoch": 0.13382155791664166,
5882
+ "grad_norm": 0.003204460721462965,
5883
+ "learning_rate": 8.300444457249543e-05,
5884
+ "loss": 11.5,
5885
+ "step": 836
5886
+ },
5887
+ {
5888
+ "epoch": 0.13398163155051324,
5889
+ "grad_norm": 0.002396148629486561,
5890
+ "learning_rate": 8.279670479170573e-05,
5891
+ "loss": 11.5,
5892
+ "step": 837
5893
+ },
5894
+ {
5895
+ "epoch": 0.1341417051843848,
5896
+ "grad_norm": 0.002087327418848872,
5897
+ "learning_rate": 8.258904148929775e-05,
5898
+ "loss": 11.5,
5899
+ "step": 838
5900
+ },
5901
+ {
5902
+ "epoch": 0.1343017788182564,
5903
+ "grad_norm": 0.0035919982474297285,
5904
+ "learning_rate": 8.238145558845235e-05,
5905
+ "loss": 11.5,
5906
+ "step": 839
5907
+ },
5908
+ {
5909
+ "epoch": 0.13446185245212797,
5910
+ "grad_norm": 0.002836944768205285,
5911
+ "learning_rate": 8.217394801200631e-05,
5912
+ "loss": 11.5,
5913
+ "step": 840
5914
+ },
5915
+ {
5916
+ "epoch": 0.13462192608599957,
5917
+ "grad_norm": 0.0018963912734761834,
5918
+ "learning_rate": 8.196651968244826e-05,
5919
+ "loss": 11.5,
5920
+ "step": 841
5921
+ },
5922
+ {
5923
+ "epoch": 0.13478199971987115,
5924
+ "grad_norm": 0.002539979759603739,
5925
+ "learning_rate": 8.175917152191447e-05,
5926
+ "loss": 11.5,
5927
+ "step": 842
5928
+ },
5929
+ {
5930
+ "epoch": 0.13494207335374273,
5931
+ "grad_norm": 0.006271395366638899,
5932
+ "learning_rate": 8.15519044521848e-05,
5933
+ "loss": 11.5,
5934
+ "step": 843
5935
+ },
5936
+ {
5937
+ "epoch": 0.1351021469876143,
5938
+ "grad_norm": 0.029586156830191612,
5939
+ "learning_rate": 8.134471939467874e-05,
5940
+ "loss": 11.5,
5941
+ "step": 844
5942
+ },
5943
+ {
5944
+ "epoch": 0.13526222062148588,
5945
+ "grad_norm": 0.012032132595777512,
5946
+ "learning_rate": 8.113761727045105e-05,
5947
+ "loss": 11.5,
5948
+ "step": 845
5949
+ },
5950
+ {
5951
+ "epoch": 0.13542229425535746,
5952
+ "grad_norm": 0.005794750992208719,
5953
+ "learning_rate": 8.093059900018792e-05,
5954
+ "loss": 11.5,
5955
+ "step": 846
5956
+ },
5957
+ {
5958
+ "epoch": 0.13558236788922903,
5959
+ "grad_norm": 0.0057182288728654385,
5960
+ "learning_rate": 8.072366550420266e-05,
5961
+ "loss": 11.5,
5962
+ "step": 847
5963
+ },
5964
+ {
5965
+ "epoch": 0.13574244152310064,
5966
+ "grad_norm": 0.0050259060226380825,
5967
+ "learning_rate": 8.051681770243175e-05,
5968
+ "loss": 11.5,
5969
+ "step": 848
5970
+ },
5971
+ {
5972
+ "epoch": 0.13590251515697221,
5973
+ "grad_norm": 0.007448924705386162,
5974
+ "learning_rate": 8.031005651443073e-05,
5975
+ "loss": 11.5,
5976
+ "step": 849
5977
+ },
5978
+ {
5979
+ "epoch": 0.1360625887908438,
5980
+ "grad_norm": 0.0068702357821166515,
5981
+ "learning_rate": 8.010338285937006e-05,
5982
+ "loss": 11.5,
5983
+ "step": 850
5984
+ },
5985
+ {
5986
+ "epoch": 0.13622266242471537,
5987
+ "grad_norm": 0.003492058254778385,
5988
+ "learning_rate": 7.989679765603108e-05,
5989
+ "loss": 11.5,
5990
+ "step": 851
5991
+ },
5992
+ {
5993
+ "epoch": 0.13638273605858695,
5994
+ "grad_norm": 0.004327989183366299,
5995
+ "learning_rate": 7.969030182280192e-05,
5996
+ "loss": 11.5,
5997
+ "step": 852
5998
+ },
5999
+ {
6000
+ "epoch": 0.13654280969245852,
6001
+ "grad_norm": 0.003075564280152321,
6002
+ "learning_rate": 7.948389627767343e-05,
6003
+ "loss": 11.5,
6004
+ "step": 853
6005
+ },
6006
+ {
6007
+ "epoch": 0.1367028833263301,
6008
+ "grad_norm": 0.004318468272686005,
6009
+ "learning_rate": 7.927758193823501e-05,
6010
+ "loss": 11.5,
6011
+ "step": 854
6012
+ },
6013
+ {
6014
+ "epoch": 0.1368629569602017,
6015
+ "grad_norm": 0.002096753567457199,
6016
+ "learning_rate": 7.907135972167069e-05,
6017
+ "loss": 11.5,
6018
+ "step": 855
6019
+ },
6020
+ {
6021
+ "epoch": 0.13702303059407328,
6022
+ "grad_norm": 0.0069441478699445724,
6023
+ "learning_rate": 7.88652305447549e-05,
6024
+ "loss": 11.5,
6025
+ "step": 856
6026
+ },
6027
+ {
6028
+ "epoch": 0.13718310422794486,
6029
+ "grad_norm": 0.001898195710964501,
6030
+ "learning_rate": 7.865919532384844e-05,
6031
+ "loss": 11.5,
6032
+ "step": 857
6033
+ },
6034
+ {
6035
+ "epoch": 0.13734317786181643,
6036
+ "grad_norm": 0.002723297569900751,
6037
+ "learning_rate": 7.845325497489449e-05,
6038
+ "loss": 11.5,
6039
+ "step": 858
6040
+ },
6041
+ {
6042
+ "epoch": 0.137503251495688,
6043
+ "grad_norm": 0.0023458232171833515,
6044
+ "learning_rate": 7.82474104134144e-05,
6045
+ "loss": 11.5,
6046
+ "step": 859
6047
+ },
6048
+ {
6049
+ "epoch": 0.1376633251295596,
6050
+ "grad_norm": 0.002770025981590152,
6051
+ "learning_rate": 7.804166255450373e-05,
6052
+ "loss": 11.5,
6053
+ "step": 860
6054
+ },
6055
+ {
6056
+ "epoch": 0.13782339876343117,
6057
+ "grad_norm": 0.005793519783765078,
6058
+ "learning_rate": 7.783601231282812e-05,
6059
+ "loss": 11.5,
6060
+ "step": 861
6061
+ },
6062
+ {
6063
+ "epoch": 0.13798347239730277,
6064
+ "grad_norm": 0.004571247845888138,
6065
+ "learning_rate": 7.763046060261932e-05,
6066
+ "loss": 11.5,
6067
+ "step": 862
6068
+ },
6069
+ {
6070
+ "epoch": 0.13814354603117435,
6071
+ "grad_norm": 0.0017479181988164783,
6072
+ "learning_rate": 7.742500833767094e-05,
6073
+ "loss": 11.5,
6074
+ "step": 863
6075
+ },
6076
+ {
6077
+ "epoch": 0.13830361966504592,
6078
+ "grad_norm": 0.004760178737342358,
6079
+ "learning_rate": 7.721965643133458e-05,
6080
+ "loss": 11.5,
6081
+ "step": 864
6082
+ },
6083
+ {
6084
+ "epoch": 0.1384636932989175,
6085
+ "grad_norm": 0.0038296154234558344,
6086
+ "learning_rate": 7.701440579651566e-05,
6087
+ "loss": 11.5,
6088
+ "step": 865
6089
+ },
6090
+ {
6091
+ "epoch": 0.13862376693278908,
6092
+ "grad_norm": 0.0038842230569571257,
6093
+ "learning_rate": 7.680925734566937e-05,
6094
+ "loss": 11.5,
6095
+ "step": 866
6096
+ },
6097
+ {
6098
+ "epoch": 0.13878384056666065,
6099
+ "grad_norm": 0.0024726625997573137,
6100
+ "learning_rate": 7.660421199079669e-05,
6101
+ "loss": 11.5,
6102
+ "step": 867
6103
+ },
6104
+ {
6105
+ "epoch": 0.13894391420053223,
6106
+ "grad_norm": 0.003492773976176977,
6107
+ "learning_rate": 7.639927064344022e-05,
6108
+ "loss": 11.5,
6109
+ "step": 868
6110
+ },
6111
+ {
6112
+ "epoch": 0.13910398783440384,
6113
+ "grad_norm": 0.0036202871706336737,
6114
+ "learning_rate": 7.619443421468021e-05,
6115
+ "loss": 11.5,
6116
+ "step": 869
6117
+ },
6118
+ {
6119
+ "epoch": 0.1392640614682754,
6120
+ "grad_norm": 0.0031892103143036366,
6121
+ "learning_rate": 7.598970361513051e-05,
6122
+ "loss": 11.5,
6123
+ "step": 870
6124
+ },
6125
+ {
6126
+ "epoch": 0.139424135102147,
6127
+ "grad_norm": 0.0025079164188355207,
6128
+ "learning_rate": 7.578507975493448e-05,
6129
+ "loss": 11.5,
6130
+ "step": 871
6131
+ },
6132
+ {
6133
+ "epoch": 0.13958420873601857,
6134
+ "grad_norm": 0.0029436389449983835,
6135
+ "learning_rate": 7.558056354376098e-05,
6136
+ "loss": 11.5,
6137
+ "step": 872
6138
+ },
6139
+ {
6140
+ "epoch": 0.13974428236989014,
6141
+ "grad_norm": 0.0029052277095615864,
6142
+ "learning_rate": 7.537615589080027e-05,
6143
+ "loss": 11.5,
6144
+ "step": 873
6145
+ },
6146
+ {
6147
+ "epoch": 0.13990435600376172,
6148
+ "grad_norm": 0.0027314829640090466,
6149
+ "learning_rate": 7.517185770476006e-05,
6150
+ "loss": 11.5,
6151
+ "step": 874
6152
+ },
6153
+ {
6154
+ "epoch": 0.1400644296376333,
6155
+ "grad_norm": 0.002001818735152483,
6156
+ "learning_rate": 7.496766989386136e-05,
6157
+ "loss": 11.5,
6158
+ "step": 875
6159
+ },
6160
+ {
6161
+ "epoch": 0.1402245032715049,
6162
+ "grad_norm": 0.00688916863873601,
6163
+ "learning_rate": 7.476359336583454e-05,
6164
+ "loss": 11.5,
6165
+ "step": 876
6166
+ },
6167
+ {
6168
+ "epoch": 0.14038457690537648,
6169
+ "grad_norm": 0.00247250497341156,
6170
+ "learning_rate": 7.455962902791522e-05,
6171
+ "loss": 11.5,
6172
+ "step": 877
6173
+ },
6174
+ {
6175
+ "epoch": 0.14054465053924806,
6176
+ "grad_norm": 0.0036383874248713255,
6177
+ "learning_rate": 7.435577778684033e-05,
6178
+ "loss": 11.5,
6179
+ "step": 878
6180
+ },
6181
+ {
6182
+ "epoch": 0.14070472417311963,
6183
+ "grad_norm": 0.0035653701052069664,
6184
+ "learning_rate": 7.415204054884399e-05,
6185
+ "loss": 11.5,
6186
+ "step": 879
6187
+ },
6188
+ {
6189
+ "epoch": 0.1408647978069912,
6190
+ "grad_norm": 0.002242990303784609,
6191
+ "learning_rate": 7.394841821965345e-05,
6192
+ "loss": 11.5,
6193
+ "step": 880
6194
+ },
6195
+ {
6196
+ "epoch": 0.1410248714408628,
6197
+ "grad_norm": 0.00418773852288723,
6198
+ "learning_rate": 7.374491170448525e-05,
6199
+ "loss": 11.5,
6200
+ "step": 881
6201
+ },
6202
+ {
6203
+ "epoch": 0.1411849450747344,
6204
+ "grad_norm": 0.005222049541771412,
6205
+ "learning_rate": 7.3541521908041e-05,
6206
+ "loss": 11.5,
6207
+ "step": 882
6208
+ },
6209
+ {
6210
+ "epoch": 0.14134501870860597,
6211
+ "grad_norm": 0.003357511479407549,
6212
+ "learning_rate": 7.33382497345034e-05,
6213
+ "loss": 11.5,
6214
+ "step": 883
6215
+ },
6216
+ {
6217
+ "epoch": 0.14150509234247755,
6218
+ "grad_norm": 0.006907563656568527,
6219
+ "learning_rate": 7.313509608753231e-05,
6220
+ "loss": 11.5,
6221
+ "step": 884
6222
+ },
6223
+ {
6224
+ "epoch": 0.14166516597634912,
6225
+ "grad_norm": 0.0031600387301295996,
6226
+ "learning_rate": 7.293206187026061e-05,
6227
+ "loss": 11.5,
6228
+ "step": 885
6229
+ },
6230
+ {
6231
+ "epoch": 0.1418252396102207,
6232
+ "grad_norm": 0.001582453609444201,
6233
+ "learning_rate": 7.27291479852903e-05,
6234
+ "loss": 11.5,
6235
+ "step": 886
6236
+ },
6237
+ {
6238
+ "epoch": 0.14198531324409228,
6239
+ "grad_norm": 0.005144217517226934,
6240
+ "learning_rate": 7.252635533468843e-05,
6241
+ "loss": 11.5,
6242
+ "step": 887
6243
+ },
6244
+ {
6245
+ "epoch": 0.14214538687796385,
6246
+ "grad_norm": 0.0027015148662030697,
6247
+ "learning_rate": 7.232368481998309e-05,
6248
+ "loss": 11.5,
6249
+ "step": 888
6250
+ },
6251
+ {
6252
+ "epoch": 0.14230546051183546,
6253
+ "grad_norm": 0.0013171718455851078,
6254
+ "learning_rate": 7.212113734215932e-05,
6255
+ "loss": 11.5,
6256
+ "step": 889
6257
+ },
6258
+ {
6259
+ "epoch": 0.14246553414570703,
6260
+ "grad_norm": 0.003426140872761607,
6261
+ "learning_rate": 7.191871380165538e-05,
6262
+ "loss": 11.5,
6263
+ "step": 890
6264
+ },
6265
+ {
6266
+ "epoch": 0.1426256077795786,
6267
+ "grad_norm": 0.001977295847609639,
6268
+ "learning_rate": 7.17164150983584e-05,
6269
+ "loss": 11.5,
6270
+ "step": 891
6271
+ },
6272
+ {
6273
+ "epoch": 0.1427856814134502,
6274
+ "grad_norm": 0.002471641870215535,
6275
+ "learning_rate": 7.151424213160061e-05,
6276
+ "loss": 11.5,
6277
+ "step": 892
6278
+ },
6279
+ {
6280
+ "epoch": 0.14294575504732177,
6281
+ "grad_norm": 0.002837255597114563,
6282
+ "learning_rate": 7.131219580015521e-05,
6283
+ "loss": 11.5,
6284
+ "step": 893
6285
+ },
6286
+ {
6287
+ "epoch": 0.14310582868119334,
6288
+ "grad_norm": 0.021328654140233994,
6289
+ "learning_rate": 7.11102770022325e-05,
6290
+ "loss": 11.5,
6291
+ "step": 894
6292
+ },
6293
+ {
6294
+ "epoch": 0.14326590231506492,
6295
+ "grad_norm": 0.014724578708410263,
6296
+ "learning_rate": 7.090848663547574e-05,
6297
+ "loss": 11.5,
6298
+ "step": 895
6299
+ },
6300
+ {
6301
+ "epoch": 0.14342597594893652,
6302
+ "grad_norm": 0.006112853065133095,
6303
+ "learning_rate": 7.070682559695736e-05,
6304
+ "loss": 11.5,
6305
+ "step": 896
6306
+ },
6307
+ {
6308
+ "epoch": 0.1435860495828081,
6309
+ "grad_norm": 0.006259468849748373,
6310
+ "learning_rate": 7.050529478317476e-05,
6311
+ "loss": 11.5,
6312
+ "step": 897
6313
+ },
6314
+ {
6315
+ "epoch": 0.14374612321667968,
6316
+ "grad_norm": 0.008712248876690865,
6317
+ "learning_rate": 7.03038950900464e-05,
6318
+ "loss": 11.5,
6319
+ "step": 898
6320
+ },
6321
+ {
6322
+ "epoch": 0.14390619685055125,
6323
+ "grad_norm": 0.004674081690609455,
6324
+ "learning_rate": 7.010262741290798e-05,
6325
+ "loss": 11.5,
6326
+ "step": 899
6327
+ },
6328
+ {
6329
+ "epoch": 0.14406627048442283,
6330
+ "grad_norm": 0.006880821660161018,
6331
+ "learning_rate": 6.990149264650814e-05,
6332
+ "loss": 11.5,
6333
+ "step": 900
6334
+ },
6335
+ {
6336
+ "epoch": 0.1442263441182944,
6337
+ "grad_norm": 0.004148140083998442,
6338
+ "learning_rate": 6.970049168500474e-05,
6339
+ "loss": 11.5,
6340
+ "step": 901
6341
+ },
6342
+ {
6343
+ "epoch": 0.14438641775216599,
6344
+ "grad_norm": 0.004675343167036772,
6345
+ "learning_rate": 6.94996254219608e-05,
6346
+ "loss": 11.5,
6347
+ "step": 902
6348
+ },
6349
+ {
6350
+ "epoch": 0.1445464913860376,
6351
+ "grad_norm": 0.0016610127640888095,
6352
+ "learning_rate": 6.929889475034048e-05,
6353
+ "loss": 11.5,
6354
+ "step": 903
6355
+ },
6356
+ {
6357
+ "epoch": 0.14470656501990917,
6358
+ "grad_norm": 0.0041760834865272045,
6359
+ "learning_rate": 6.909830056250527e-05,
6360
+ "loss": 11.5,
6361
+ "step": 904
6362
+ },
6363
+ {
6364
+ "epoch": 0.14486663865378074,
6365
+ "grad_norm": 0.0026631078217178583,
6366
+ "learning_rate": 6.889784375020978e-05,
6367
+ "loss": 11.5,
6368
+ "step": 905
6369
+ },
6370
+ {
6371
+ "epoch": 0.14502671228765232,
6372
+ "grad_norm": 0.0032871628645807505,
6373
+ "learning_rate": 6.869752520459803e-05,
6374
+ "loss": 11.5,
6375
+ "step": 906
6376
+ },
6377
+ {
6378
+ "epoch": 0.1451867859215239,
6379
+ "grad_norm": 0.0025447129737585783,
6380
+ "learning_rate": 6.849734581619918e-05,
6381
+ "loss": 11.5,
6382
+ "step": 907
6383
+ },
6384
+ {
6385
+ "epoch": 0.14534685955539547,
6386
+ "grad_norm": 0.006851284299045801,
6387
+ "learning_rate": 6.829730647492404e-05,
6388
+ "loss": 11.5,
6389
+ "step": 908
6390
+ },
6391
+ {
6392
+ "epoch": 0.14550693318926705,
6393
+ "grad_norm": 0.0028427098877727985,
6394
+ "learning_rate": 6.80974080700606e-05,
6395
+ "loss": 11.5,
6396
+ "step": 909
6397
+ },
6398
+ {
6399
+ "epoch": 0.14566700682313866,
6400
+ "grad_norm": 0.002827555639669299,
6401
+ "learning_rate": 6.789765149027039e-05,
6402
+ "loss": 11.5,
6403
+ "step": 910
6404
+ },
6405
+ {
6406
+ "epoch": 0.14582708045701023,
6407
+ "grad_norm": 0.0024632092099636793,
6408
+ "learning_rate": 6.769803762358443e-05,
6409
+ "loss": 11.5,
6410
+ "step": 911
6411
+ },
6412
+ {
6413
+ "epoch": 0.1459871540908818,
6414
+ "grad_norm": 0.00859488733112812,
6415
+ "learning_rate": 6.749856735739928e-05,
6416
+ "loss": 11.5,
6417
+ "step": 912
6418
+ },
6419
+ {
6420
+ "epoch": 0.1461472277247534,
6421
+ "grad_norm": 0.0017382306978106499,
6422
+ "learning_rate": 6.729924157847323e-05,
6423
+ "loss": 11.5,
6424
+ "step": 913
6425
+ },
6426
+ {
6427
+ "epoch": 0.14630730135862496,
6428
+ "grad_norm": 0.0035761226899921894,
6429
+ "learning_rate": 6.710006117292209e-05,
6430
+ "loss": 11.5,
6431
+ "step": 914
6432
+ },
6433
+ {
6434
+ "epoch": 0.14646737499249654,
6435
+ "grad_norm": 0.006997543852776289,
6436
+ "learning_rate": 6.690102702621548e-05,
6437
+ "loss": 11.5,
6438
+ "step": 915
6439
+ },
6440
+ {
6441
+ "epoch": 0.14662744862636812,
6442
+ "grad_norm": 0.0035585190635174513,
6443
+ "learning_rate": 6.670214002317278e-05,
6444
+ "loss": 11.5,
6445
+ "step": 916
6446
+ },
6447
+ {
6448
+ "epoch": 0.14678752226023972,
6449
+ "grad_norm": 0.002104755025357008,
6450
+ "learning_rate": 6.650340104795932e-05,
6451
+ "loss": 11.5,
6452
+ "step": 917
6453
+ },
6454
+ {
6455
+ "epoch": 0.1469475958941113,
6456
+ "grad_norm": 0.004014565609395504,
6457
+ "learning_rate": 6.630481098408228e-05,
6458
+ "loss": 11.5,
6459
+ "step": 918
6460
+ },
6461
+ {
6462
+ "epoch": 0.14710766952798288,
6463
+ "grad_norm": 0.003054036758840084,
6464
+ "learning_rate": 6.610637071438686e-05,
6465
+ "loss": 11.5,
6466
+ "step": 919
6467
+ },
6468
+ {
6469
+ "epoch": 0.14726774316185445,
6470
+ "grad_norm": 0.0026505060959607363,
6471
+ "learning_rate": 6.590808112105232e-05,
6472
+ "loss": 11.5,
6473
+ "step": 920
6474
+ },
6475
+ {
6476
+ "epoch": 0.14742781679572603,
6477
+ "grad_norm": 0.0035651291254907846,
6478
+ "learning_rate": 6.570994308558812e-05,
6479
+ "loss": 11.5,
6480
+ "step": 921
6481
+ },
6482
+ {
6483
+ "epoch": 0.1475878904295976,
6484
+ "grad_norm": 0.0025029173120856285,
6485
+ "learning_rate": 6.551195748882997e-05,
6486
+ "loss": 11.5,
6487
+ "step": 922
6488
+ },
6489
+ {
6490
+ "epoch": 0.14774796406346918,
6491
+ "grad_norm": 0.0019678135868161917,
6492
+ "learning_rate": 6.531412521093586e-05,
6493
+ "loss": 11.5,
6494
+ "step": 923
6495
+ },
6496
+ {
6497
+ "epoch": 0.1479080376973408,
6498
+ "grad_norm": 0.0014836242189630866,
6499
+ "learning_rate": 6.51164471313822e-05,
6500
+ "loss": 11.5,
6501
+ "step": 924
6502
+ },
6503
+ {
6504
+ "epoch": 0.14806811133121237,
6505
+ "grad_norm": 0.0035512519534677267,
6506
+ "learning_rate": 6.491892412895995e-05,
6507
+ "loss": 11.5,
6508
+ "step": 925
6509
+ },
6510
+ {
6511
+ "epoch": 0.14822818496508394,
6512
+ "grad_norm": 0.004590109456330538,
6513
+ "learning_rate": 6.472155708177052e-05,
6514
+ "loss": 11.5,
6515
+ "step": 926
6516
+ },
6517
+ {
6518
+ "epoch": 0.14838825859895552,
6519
+ "grad_norm": 0.0026866630651056767,
6520
+ "learning_rate": 6.452434686722224e-05,
6521
+ "loss": 11.5,
6522
+ "step": 927
6523
+ },
6524
+ {
6525
+ "epoch": 0.1485483322328271,
6526
+ "grad_norm": 0.002269457560032606,
6527
+ "learning_rate": 6.432729436202604e-05,
6528
+ "loss": 11.5,
6529
+ "step": 928
6530
+ },
6531
+ {
6532
+ "epoch": 0.14870840586669867,
6533
+ "grad_norm": 0.007081727962940931,
6534
+ "learning_rate": 6.41304004421918e-05,
6535
+ "loss": 11.5,
6536
+ "step": 929
6537
+ },
6538
+ {
6539
+ "epoch": 0.14886847950057025,
6540
+ "grad_norm": 0.004162793979048729,
6541
+ "learning_rate": 6.393366598302446e-05,
6542
+ "loss": 11.5,
6543
+ "step": 930
6544
+ },
6545
+ {
6546
+ "epoch": 0.14902855313444185,
6547
+ "grad_norm": 0.00312308082357049,
6548
+ "learning_rate": 6.373709185911998e-05,
6549
+ "loss": 11.5,
6550
+ "step": 931
6551
+ },
6552
+ {
6553
+ "epoch": 0.14918862676831343,
6554
+ "grad_norm": 0.0027232684660702944,
6555
+ "learning_rate": 6.354067894436155e-05,
6556
+ "loss": 11.5,
6557
+ "step": 932
6558
+ },
6559
+ {
6560
+ "epoch": 0.149348700402185,
6561
+ "grad_norm": 0.0022869890090078115,
6562
+ "learning_rate": 6.334442811191576e-05,
6563
+ "loss": 11.5,
6564
+ "step": 933
6565
+ },
6566
+ {
6567
+ "epoch": 0.14950877403605659,
6568
+ "grad_norm": 0.002711891196668148,
6569
+ "learning_rate": 6.314834023422858e-05,
6570
+ "loss": 11.5,
6571
+ "step": 934
6572
+ },
6573
+ {
6574
+ "epoch": 0.14966884766992816,
6575
+ "grad_norm": 0.002728634513914585,
6576
+ "learning_rate": 6.295241618302156e-05,
6577
+ "loss": 11.5,
6578
+ "step": 935
6579
+ },
6580
+ {
6581
+ "epoch": 0.14982892130379974,
6582
+ "grad_norm": 0.001748494221828878,
6583
+ "learning_rate": 6.275665682928803e-05,
6584
+ "loss": 11.5,
6585
+ "step": 936
6586
+ },
6587
+ {
6588
+ "epoch": 0.14998899493767132,
6589
+ "grad_norm": 0.002195653971284628,
6590
+ "learning_rate": 6.256106304328905e-05,
6591
+ "loss": 11.5,
6592
+ "step": 937
6593
+ },
6594
+ {
6595
+ "epoch": 0.15014906857154292,
6596
+ "grad_norm": 0.003360239788889885,
6597
+ "learning_rate": 6.23656356945497e-05,
6598
+ "loss": 11.5,
6599
+ "step": 938
6600
+ },
6601
+ {
6602
+ "epoch": 0.1503091422054145,
6603
+ "grad_norm": 0.002994401380419731,
6604
+ "learning_rate": 6.21703756518551e-05,
6605
+ "loss": 11.5,
6606
+ "step": 939
6607
+ },
6608
+ {
6609
+ "epoch": 0.15046921583928607,
6610
+ "grad_norm": 0.003133380087092519,
6611
+ "learning_rate": 6.197528378324665e-05,
6612
+ "loss": 11.5,
6613
+ "step": 940
6614
+ },
6615
+ {
6616
+ "epoch": 0.15062928947315765,
6617
+ "grad_norm": 0.002414910588413477,
6618
+ "learning_rate": 6.17803609560181e-05,
6619
+ "loss": 11.5,
6620
+ "step": 941
6621
+ },
6622
+ {
6623
+ "epoch": 0.15078936310702923,
6624
+ "grad_norm": 0.003012928180396557,
6625
+ "learning_rate": 6.158560803671168e-05,
6626
+ "loss": 11.5,
6627
+ "step": 942
6628
+ },
6629
+ {
6630
+ "epoch": 0.1509494367409008,
6631
+ "grad_norm": 0.028782600536942482,
6632
+ "learning_rate": 6.139102589111435e-05,
6633
+ "loss": 11.5,
6634
+ "step": 943
6635
+ },
6636
+ {
6637
+ "epoch": 0.15110951037477238,
6638
+ "grad_norm": 0.01820896752178669,
6639
+ "learning_rate": 6.119661538425381e-05,
6640
+ "loss": 11.5,
6641
+ "step": 944
6642
+ },
6643
+ {
6644
+ "epoch": 0.151269584008644,
6645
+ "grad_norm": 0.007741926237940788,
6646
+ "learning_rate": 6.100237738039484e-05,
6647
+ "loss": 11.5,
6648
+ "step": 945
6649
+ },
6650
+ {
6651
+ "epoch": 0.15142965764251556,
6652
+ "grad_norm": 0.008180874399840832,
6653
+ "learning_rate": 6.0808312743035236e-05,
6654
+ "loss": 11.5,
6655
+ "step": 946
6656
+ },
6657
+ {
6658
+ "epoch": 0.15158973127638714,
6659
+ "grad_norm": 0.00771793769672513,
6660
+ "learning_rate": 6.061442233490211e-05,
6661
+ "loss": 11.5,
6662
+ "step": 947
6663
+ },
6664
+ {
6665
+ "epoch": 0.15174980491025872,
6666
+ "grad_norm": 0.005907203536480665,
6667
+ "learning_rate": 6.042070701794806e-05,
6668
+ "loss": 11.5,
6669
+ "step": 948
6670
+ },
6671
+ {
6672
+ "epoch": 0.1519098785441303,
6673
+ "grad_norm": 0.004037379287183285,
6674
+ "learning_rate": 6.0227167653347305e-05,
6675
+ "loss": 11.5,
6676
+ "step": 949
6677
+ },
6678
+ {
6679
+ "epoch": 0.15206995217800187,
6680
+ "grad_norm": 0.007686179596930742,
6681
+ "learning_rate": 6.0033805101491794e-05,
6682
+ "loss": 11.5,
6683
+ "step": 950
6684
+ },
6685
+ {
6686
+ "epoch": 0.15223002581187345,
6687
+ "grad_norm": 0.0024342418182641268,
6688
+ "learning_rate": 5.98406202219875e-05,
6689
+ "loss": 11.5,
6690
+ "step": 951
6691
+ },
6692
+ {
6693
+ "epoch": 0.15239009944574505,
6694
+ "grad_norm": 0.004280984867364168,
6695
+ "learning_rate": 5.964761387365052e-05,
6696
+ "loss": 11.5,
6697
+ "step": 952
6698
+ },
6699
+ {
6700
+ "epoch": 0.15255017307961663,
6701
+ "grad_norm": 0.008481497876346111,
6702
+ "learning_rate": 5.9454786914503255e-05,
6703
+ "loss": 11.5,
6704
+ "step": 953
6705
+ },
6706
+ {
6707
+ "epoch": 0.1527102467134882,
6708
+ "grad_norm": 0.0027742015663534403,
6709
+ "learning_rate": 5.926214020177074e-05,
6710
+ "loss": 11.5,
6711
+ "step": 954
6712
+ },
6713
+ {
6714
+ "epoch": 0.15287032034735978,
6715
+ "grad_norm": 0.002178241265937686,
6716
+ "learning_rate": 5.9069674591876534e-05,
6717
+ "loss": 11.5,
6718
+ "step": 955
6719
+ },
6720
+ {
6721
+ "epoch": 0.15303039398123136,
6722
+ "grad_norm": 0.005778731778264046,
6723
+ "learning_rate": 5.887739094043923e-05,
6724
+ "loss": 11.5,
6725
+ "step": 956
6726
+ },
6727
+ {
6728
+ "epoch": 0.15319046761510294,
6729
+ "grad_norm": 0.00665576197206974,
6730
+ "learning_rate": 5.868529010226845e-05,
6731
+ "loss": 11.5,
6732
+ "step": 957
6733
+ },
6734
+ {
6735
+ "epoch": 0.15335054124897451,
6736
+ "grad_norm": 0.0027354592457413673,
6737
+ "learning_rate": 5.849337293136112e-05,
6738
+ "loss": 11.5,
6739
+ "step": 958
6740
+ },
6741
+ {
6742
+ "epoch": 0.15351061488284612,
6743
+ "grad_norm": 0.0025162161327898502,
6744
+ "learning_rate": 5.830164028089766e-05,
6745
+ "loss": 11.5,
6746
+ "step": 959
6747
+ },
6748
+ {
6749
+ "epoch": 0.1536706885167177,
6750
+ "grad_norm": 0.002760212868452072,
6751
+ "learning_rate": 5.811009300323818e-05,
6752
+ "loss": 11.5,
6753
+ "step": 960
6754
+ },
6755
+ {
6756
+ "epoch": 0.15383076215058927,
6757
+ "grad_norm": 0.0020097976084798574,
6758
+ "learning_rate": 5.791873194991872e-05,
6759
+ "loss": 11.5,
6760
+ "step": 961
6761
+ },
6762
+ {
6763
+ "epoch": 0.15399083578446085,
6764
+ "grad_norm": 0.004208473023027182,
6765
+ "learning_rate": 5.7727557971647427e-05,
6766
+ "loss": 11.5,
6767
+ "step": 962
6768
+ },
6769
+ {
6770
+ "epoch": 0.15415090941833243,
6771
+ "grad_norm": 0.004097167402505875,
6772
+ "learning_rate": 5.7536571918300864e-05,
6773
+ "loss": 11.5,
6774
+ "step": 963
6775
+ },
6776
+ {
6777
+ "epoch": 0.154310983052204,
6778
+ "grad_norm": 0.005076675675809383,
6779
+ "learning_rate": 5.734577463892008e-05,
6780
+ "loss": 11.5,
6781
+ "step": 964
6782
+ },
6783
+ {
6784
+ "epoch": 0.1544710566860756,
6785
+ "grad_norm": 0.0037228353321552277,
6786
+ "learning_rate": 5.7155166981706956e-05,
6787
+ "loss": 11.5,
6788
+ "step": 965
6789
+ },
6790
+ {
6791
+ "epoch": 0.15463113031994719,
6792
+ "grad_norm": 0.0034742022398859262,
6793
+ "learning_rate": 5.6964749794020354e-05,
6794
+ "loss": 11.5,
6795
+ "step": 966
6796
+ },
6797
+ {
6798
+ "epoch": 0.15479120395381876,
6799
+ "grad_norm": 0.0034378506243228912,
6800
+ "learning_rate": 5.6774523922372394e-05,
6801
+ "loss": 11.5,
6802
+ "step": 967
6803
+ },
6804
+ {
6805
+ "epoch": 0.15495127758769034,
6806
+ "grad_norm": 0.0036437655799090862,
6807
+ "learning_rate": 5.6584490212424804e-05,
6808
+ "loss": 11.5,
6809
+ "step": 968
6810
+ },
6811
+ {
6812
+ "epoch": 0.15511135122156192,
6813
+ "grad_norm": 0.002839934080839157,
6814
+ "learning_rate": 5.639464950898491e-05,
6815
+ "loss": 11.5,
6816
+ "step": 969
6817
+ },
6818
+ {
6819
+ "epoch": 0.1552714248554335,
6820
+ "grad_norm": 0.0028093059081584215,
6821
+ "learning_rate": 5.620500265600206e-05,
6822
+ "loss": 11.5,
6823
+ "step": 970
6824
+ },
6825
+ {
6826
+ "epoch": 0.15543149848930507,
6827
+ "grad_norm": 0.003821355989202857,
6828
+ "learning_rate": 5.601555049656382e-05,
6829
+ "loss": 11.5,
6830
+ "step": 971
6831
+ },
6832
+ {
6833
+ "epoch": 0.15559157212317667,
6834
+ "grad_norm": 0.0015342511469498277,
6835
+ "learning_rate": 5.58262938728922e-05,
6836
+ "loss": 11.5,
6837
+ "step": 972
6838
+ },
6839
+ {
6840
+ "epoch": 0.15575164575704825,
6841
+ "grad_norm": 0.004114728886634111,
6842
+ "learning_rate": 5.563723362634008e-05,
6843
+ "loss": 11.5,
6844
+ "step": 973
6845
+ },
6846
+ {
6847
+ "epoch": 0.15591171939091983,
6848
+ "grad_norm": 0.005461197812110186,
6849
+ "learning_rate": 5.544837059738719e-05,
6850
+ "loss": 11.5,
6851
+ "step": 974
6852
+ },
6853
+ {
6854
+ "epoch": 0.1560717930247914,
6855
+ "grad_norm": 0.003300967626273632,
6856
+ "learning_rate": 5.525970562563656e-05,
6857
+ "loss": 11.5,
6858
+ "step": 975
6859
+ },
6860
+ {
6861
+ "epoch": 0.15623186665866298,
6862
+ "grad_norm": 0.0038338752929121256,
6863
+ "learning_rate": 5.507123954981073e-05,
6864
+ "loss": 11.5,
6865
+ "step": 976
6866
+ },
6867
+ {
6868
+ "epoch": 0.15639194029253456,
6869
+ "grad_norm": 0.0038169529289007187,
6870
+ "learning_rate": 5.488297320774807e-05,
6871
+ "loss": 11.5,
6872
+ "step": 977
6873
+ },
6874
+ {
6875
+ "epoch": 0.15655201392640614,
6876
+ "grad_norm": 0.002384957391768694,
6877
+ "learning_rate": 5.4694907436399e-05,
6878
+ "loss": 11.5,
6879
+ "step": 978
6880
+ },
6881
+ {
6882
+ "epoch": 0.15671208756027774,
6883
+ "grad_norm": 0.002962407423183322,
6884
+ "learning_rate": 5.4507043071822284e-05,
6885
+ "loss": 11.5,
6886
+ "step": 979
6887
+ },
6888
+ {
6889
+ "epoch": 0.15687216119414932,
6890
+ "grad_norm": 0.002982159610837698,
6891
+ "learning_rate": 5.431938094918132e-05,
6892
+ "loss": 11.5,
6893
+ "step": 980
6894
+ },
6895
+ {
6896
+ "epoch": 0.1570322348280209,
6897
+ "grad_norm": 0.006295071914792061,
6898
+ "learning_rate": 5.41319219027404e-05,
6899
+ "loss": 11.5,
6900
+ "step": 981
6901
+ },
6902
+ {
6903
+ "epoch": 0.15719230846189247,
6904
+ "grad_norm": 0.0028039771132171154,
6905
+ "learning_rate": 5.394466676586114e-05,
6906
+ "loss": 11.5,
6907
+ "step": 982
6908
+ },
6909
+ {
6910
+ "epoch": 0.15735238209576405,
6911
+ "grad_norm": 0.0031086585950106382,
6912
+ "learning_rate": 5.375761637099854e-05,
6913
+ "loss": 11.5,
6914
+ "step": 983
6915
+ },
6916
+ {
6917
+ "epoch": 0.15751245572963563,
6918
+ "grad_norm": 0.0018480699509382248,
6919
+ "learning_rate": 5.357077154969742e-05,
6920
+ "loss": 11.5,
6921
+ "step": 984
6922
+ },
6923
+ {
6924
+ "epoch": 0.1576725293635072,
6925
+ "grad_norm": 0.005203374195843935,
6926
+ "learning_rate": 5.3384133132588784e-05,
6927
+ "loss": 11.5,
6928
+ "step": 985
6929
+ },
6930
+ {
6931
+ "epoch": 0.1578326029973788,
6932
+ "grad_norm": 0.0016744579188525677,
6933
+ "learning_rate": 5.3197701949386e-05,
6934
+ "loss": 11.5,
6935
+ "step": 986
6936
+ },
6937
+ {
6938
+ "epoch": 0.15799267663125038,
6939
+ "grad_norm": 0.003136550774797797,
6940
+ "learning_rate": 5.301147882888116e-05,
6941
+ "loss": 11.5,
6942
+ "step": 987
6943
+ },
6944
+ {
6945
+ "epoch": 0.15815275026512196,
6946
+ "grad_norm": 0.002736804075539112,
6947
+ "learning_rate": 5.28254645989414e-05,
6948
+ "loss": 11.5,
6949
+ "step": 988
6950
+ },
6951
+ {
6952
+ "epoch": 0.15831282389899354,
6953
+ "grad_norm": 0.00409566517919302,
6954
+ "learning_rate": 5.2639660086505226e-05,
6955
+ "loss": 11.5,
6956
+ "step": 989
6957
+ },
6958
+ {
6959
+ "epoch": 0.15847289753286511,
6960
+ "grad_norm": 0.002291615353897214,
6961
+ "learning_rate": 5.2454066117578815e-05,
6962
+ "loss": 11.5,
6963
+ "step": 990
6964
+ },
6965
+ {
6966
+ "epoch": 0.1586329711667367,
6967
+ "grad_norm": 0.002706994069740176,
6968
+ "learning_rate": 5.226868351723244e-05,
6969
+ "loss": 11.5,
6970
+ "step": 991
6971
+ },
6972
+ {
6973
+ "epoch": 0.15879304480060827,
6974
+ "grad_norm": 0.01766454055905342,
6975
+ "learning_rate": 5.2083513109596616e-05,
6976
+ "loss": 11.5,
6977
+ "step": 992
6978
+ },
6979
+ {
6980
+ "epoch": 0.15895311843447987,
6981
+ "grad_norm": 0.04807746782898903,
6982
+ "learning_rate": 5.189855571785859e-05,
6983
+ "loss": 11.5,
6984
+ "step": 993
6985
+ },
6986
+ {
6987
+ "epoch": 0.15911319206835145,
6988
+ "grad_norm": 0.012728063389658928,
6989
+ "learning_rate": 5.171381216425863e-05,
6990
+ "loss": 11.5,
6991
+ "step": 994
6992
+ },
6993
+ {
6994
+ "epoch": 0.15927326570222303,
6995
+ "grad_norm": 0.005414154846221209,
6996
+ "learning_rate": 5.152928327008635e-05,
6997
+ "loss": 11.5,
6998
+ "step": 995
6999
+ },
7000
+ {
7001
+ "epoch": 0.1594333393360946,
7002
+ "grad_norm": 0.008969629183411598,
7003
+ "learning_rate": 5.134496985567714e-05,
7004
+ "loss": 11.5,
7005
+ "step": 996
7006
+ },
7007
+ {
7008
+ "epoch": 0.15959341296996618,
7009
+ "grad_norm": 0.0029964849818497896,
7010
+ "learning_rate": 5.116087274040837e-05,
7011
+ "loss": 11.5,
7012
+ "step": 997
7013
+ },
7014
+ {
7015
+ "epoch": 0.15975348660383776,
7016
+ "grad_norm": 0.004791382234543562,
7017
+ "learning_rate": 5.0976992742695925e-05,
7018
+ "loss": 11.5,
7019
+ "step": 998
7020
+ },
7021
+ {
7022
+ "epoch": 0.15991356023770933,
7023
+ "grad_norm": 0.008166301995515823,
7024
+ "learning_rate": 5.07933306799904e-05,
7025
+ "loss": 11.5,
7026
+ "step": 999
7027
+ },
7028
+ {
7029
+ "epoch": 0.16007363387158094,
7030
+ "grad_norm": 0.007119907531887293,
7031
+ "learning_rate": 5.060988736877366e-05,
7032
+ "loss": 11.5,
7033
+ "step": 1000
7034
+ },
7035
+ {
7036
+ "epoch": 0.16023370750545252,
7037
+ "grad_norm": 0.002332548378035426,
7038
+ "learning_rate": 5.042666362455498e-05,
7039
+ "loss": 11.5,
7040
+ "step": 1001
7041
+ },
7042
+ {
7043
+ "epoch": 0.1603937811393241,
7044
+ "grad_norm": 0.004620182793587446,
7045
+ "learning_rate": 5.024366026186755e-05,
7046
+ "loss": 11.5,
7047
+ "step": 1002
7048
+ },
7049
+ {
7050
+ "epoch": 0.16055385477319567,
7051
+ "grad_norm": 0.0025372488889843225,
7052
+ "learning_rate": 5.006087809426496e-05,
7053
+ "loss": 11.5,
7054
+ "step": 1003
7055
+ },
7056
+ {
7057
+ "epoch": 0.16071392840706725,
7058
+ "grad_norm": 0.003780423430725932,
7059
+ "learning_rate": 4.987831793431731e-05,
7060
+ "loss": 11.5,
7061
+ "step": 1004
7062
+ },
7063
+ {
7064
+ "epoch": 0.16087400204093882,
7065
+ "grad_norm": 0.0023666718043386936,
7066
+ "learning_rate": 4.9695980593607817e-05,
7067
+ "loss": 11.5,
7068
+ "step": 1005
7069
+ },
7070
+ {
7071
+ "epoch": 0.1610340756748104,
7072
+ "grad_norm": 0.010241476818919182,
7073
+ "learning_rate": 4.9513866882729146e-05,
7074
+ "loss": 11.5,
7075
+ "step": 1006
7076
+ },
7077
+ {
7078
+ "epoch": 0.161194149308682,
7079
+ "grad_norm": 0.0031386364717036486,
7080
+ "learning_rate": 4.9331977611279777e-05,
7081
+ "loss": 11.5,
7082
+ "step": 1007
7083
+ },
7084
+ {
7085
+ "epoch": 0.16135422294255358,
7086
+ "grad_norm": 0.002919365419074893,
7087
+ "learning_rate": 4.9150313587860433e-05,
7088
+ "loss": 11.5,
7089
+ "step": 1008
7090
+ },
7091
+ {
7092
+ "epoch": 0.16151429657642516,
7093
+ "grad_norm": 0.0030420273542404175,
7094
+ "learning_rate": 4.896887562007054e-05,
7095
+ "loss": 11.5,
7096
+ "step": 1009
7097
+ },
7098
+ {
7099
+ "epoch": 0.16167437021029674,
7100
+ "grad_norm": 0.0041471365839242935,
7101
+ "learning_rate": 4.8787664514504504e-05,
7102
+ "loss": 11.5,
7103
+ "step": 1010
7104
+ },
7105
+ {
7106
+ "epoch": 0.1618344438441683,
7107
+ "grad_norm": 0.001787104643881321,
7108
+ "learning_rate": 4.860668107674823e-05,
7109
+ "loss": 11.5,
7110
+ "step": 1011
7111
+ },
7112
+ {
7113
+ "epoch": 0.1619945174780399,
7114
+ "grad_norm": 0.001213782117702067,
7115
+ "learning_rate": 4.8425926111375506e-05,
7116
+ "loss": 11.5,
7117
+ "step": 1012
7118
+ },
7119
+ {
7120
+ "epoch": 0.16215459111191147,
7121
+ "grad_norm": 0.007795942481607199,
7122
+ "learning_rate": 4.824540042194443e-05,
7123
+ "loss": 11.5,
7124
+ "step": 1013
7125
+ },
7126
+ {
7127
+ "epoch": 0.16231466474578307,
7128
+ "grad_norm": 0.001617083209566772,
7129
+ "learning_rate": 4.8065104810993856e-05,
7130
+ "loss": 11.5,
7131
+ "step": 1014
7132
+ },
7133
+ {
7134
+ "epoch": 0.16247473837965465,
7135
+ "grad_norm": 0.004990368615835905,
7136
+ "learning_rate": 4.788504008003978e-05,
7137
+ "loss": 11.5,
7138
+ "step": 1015
7139
+ },
7140
+ {
7141
+ "epoch": 0.16263481201352623,
7142
+ "grad_norm": 0.0036852476187050343,
7143
+ "learning_rate": 4.770520702957182e-05,
7144
+ "loss": 11.5,
7145
+ "step": 1016
7146
+ },
7147
+ {
7148
+ "epoch": 0.1627948856473978,
7149
+ "grad_norm": 0.003142181783914566,
7150
+ "learning_rate": 4.752560645904962e-05,
7151
+ "loss": 11.5,
7152
+ "step": 1017
7153
+ },
7154
+ {
7155
+ "epoch": 0.16295495928126938,
7156
+ "grad_norm": 0.0034457738511264324,
7157
+ "learning_rate": 4.734623916689941e-05,
7158
+ "loss": 11.5,
7159
+ "step": 1018
7160
+ },
7161
+ {
7162
+ "epoch": 0.16311503291514096,
7163
+ "grad_norm": 0.003712948877364397,
7164
+ "learning_rate": 4.716710595051022e-05,
7165
+ "loss": 11.5,
7166
+ "step": 1019
7167
+ },
7168
+ {
7169
+ "epoch": 0.16327510654901253,
7170
+ "grad_norm": 0.0032946669962257147,
7171
+ "learning_rate": 4.698820760623064e-05,
7172
+ "loss": 11.5,
7173
+ "step": 1020
7174
+ },
7175
+ {
7176
+ "epoch": 0.16343518018288414,
7177
+ "grad_norm": 0.003699769964441657,
7178
+ "learning_rate": 4.6809544929365004e-05,
7179
+ "loss": 11.5,
7180
+ "step": 1021
7181
+ },
7182
+ {
7183
+ "epoch": 0.16359525381675571,
7184
+ "grad_norm": 0.003574742702767253,
7185
+ "learning_rate": 4.663111871417e-05,
7186
+ "loss": 11.5,
7187
+ "step": 1022
7188
+ },
7189
+ {
7190
+ "epoch": 0.1637553274506273,
7191
+ "grad_norm": 0.003883534809574485,
7192
+ "learning_rate": 4.645292975385111e-05,
7193
+ "loss": 11.5,
7194
+ "step": 1023
7195
+ },
7196
+ {
7197
+ "epoch": 0.16391540108449887,
7198
+ "grad_norm": 0.0018628851976245642,
7199
+ "learning_rate": 4.627497884055912e-05,
7200
+ "loss": 11.5,
7201
+ "step": 1024
7202
+ },
7203
+ {
7204
+ "epoch": 0.16407547471837045,
7205
+ "grad_norm": 0.0017472283216193318,
7206
+ "learning_rate": 4.609726676538652e-05,
7207
+ "loss": 11.5,
7208
+ "step": 1025
7209
+ },
7210
+ {
7211
+ "epoch": 0.16423554835224202,
7212
+ "grad_norm": 0.002226916141808033,
7213
+ "learning_rate": 4.591979431836402e-05,
7214
+ "loss": 11.5,
7215
+ "step": 1026
7216
+ },
7217
+ {
7218
+ "epoch": 0.1643956219861136,
7219
+ "grad_norm": 0.0016684042057022452,
7220
+ "learning_rate": 4.574256228845706e-05,
7221
+ "loss": 11.5,
7222
+ "step": 1027
7223
+ },
7224
+ {
7225
+ "epoch": 0.1645556956199852,
7226
+ "grad_norm": 0.0028440216556191444,
7227
+ "learning_rate": 4.5565571463562365e-05,
7228
+ "loss": 11.5,
7229
+ "step": 1028
7230
+ },
7231
+ {
7232
+ "epoch": 0.16471576925385678,
7233
+ "grad_norm": 0.003003405872732401,
7234
+ "learning_rate": 4.5388822630504256e-05,
7235
+ "loss": 11.5,
7236
+ "step": 1029
7237
+ },
7238
+ {
7239
+ "epoch": 0.16487584288772836,
7240
+ "grad_norm": 0.003543854458257556,
7241
+ "learning_rate": 4.521231657503132e-05,
7242
+ "loss": 11.5,
7243
+ "step": 1030
7244
+ },
7245
+ {
7246
+ "epoch": 0.16503591652159993,
7247
+ "grad_norm": 0.0027281527873128653,
7248
+ "learning_rate": 4.503605408181286e-05,
7249
+ "loss": 11.5,
7250
+ "step": 1031
7251
+ },
7252
+ {
7253
+ "epoch": 0.1651959901554715,
7254
+ "grad_norm": 0.00303859100677073,
7255
+ "learning_rate": 4.486003593443537e-05,
7256
+ "loss": 11.5,
7257
+ "step": 1032
7258
+ },
7259
+ {
7260
+ "epoch": 0.1653560637893431,
7261
+ "grad_norm": 0.0027469072956591845,
7262
+ "learning_rate": 4.468426291539914e-05,
7263
+ "loss": 11.5,
7264
+ "step": 1033
7265
+ },
7266
+ {
7267
+ "epoch": 0.16551613742321467,
7268
+ "grad_norm": 0.0026546616572886705,
7269
+ "learning_rate": 4.4508735806114654e-05,
7270
+ "loss": 11.5,
7271
+ "step": 1034
7272
+ },
7273
+ {
7274
+ "epoch": 0.16567621105708627,
7275
+ "grad_norm": 0.0019743379671126604,
7276
+ "learning_rate": 4.433345538689929e-05,
7277
+ "loss": 11.5,
7278
+ "step": 1035
7279
+ },
7280
+ {
7281
+ "epoch": 0.16583628469095785,
7282
+ "grad_norm": 0.0032873465679585934,
7283
+ "learning_rate": 4.415842243697369e-05,
7284
+ "loss": 11.5,
7285
+ "step": 1036
7286
+ },
7287
+ {
7288
+ "epoch": 0.16599635832482942,
7289
+ "grad_norm": 0.0029843030497431755,
7290
+ "learning_rate": 4.39836377344583e-05,
7291
+ "loss": 11.5,
7292
+ "step": 1037
7293
+ },
7294
+ {
7295
+ "epoch": 0.166156431958701,
7296
+ "grad_norm": 0.0018177861347794533,
7297
+ "learning_rate": 4.380910205637012e-05,
7298
+ "loss": 11.5,
7299
+ "step": 1038
7300
+ },
7301
+ {
7302
+ "epoch": 0.16631650559257258,
7303
+ "grad_norm": 0.0035029847640544176,
7304
+ "learning_rate": 4.363481617861893e-05,
7305
+ "loss": 11.5,
7306
+ "step": 1039
7307
+ },
7308
+ {
7309
+ "epoch": 0.16647657922644415,
7310
+ "grad_norm": 0.0028489981777966022,
7311
+ "learning_rate": 4.346078087600412e-05,
7312
+ "loss": 11.5,
7313
+ "step": 1040
7314
+ },
7315
+ {
7316
+ "epoch": 0.16663665286031573,
7317
+ "grad_norm": 0.002027237555012107,
7318
+ "learning_rate": 4.3286996922211034e-05,
7319
+ "loss": 11.5,
7320
+ "step": 1041
7321
+ },
7322
+ {
7323
+ "epoch": 0.16679672649418734,
7324
+ "grad_norm": 0.0029321161564439535,
7325
+ "learning_rate": 4.311346508980772e-05,
7326
+ "loss": 11.5,
7327
+ "step": 1042
7328
+ },
7329
+ {
7330
+ "epoch": 0.1669568001280589,
7331
+ "grad_norm": 0.027388835325837135,
7332
+ "learning_rate": 4.2940186150241365e-05,
7333
+ "loss": 11.5,
7334
+ "step": 1043
7335
+ },
7336
+ {
7337
+ "epoch": 0.1671168737619305,
7338
+ "grad_norm": 0.018330741673707962,
7339
+ "learning_rate": 4.27671608738349e-05,
7340
+ "loss": 11.5,
7341
+ "step": 1044
7342
+ },
7343
+ {
7344
+ "epoch": 0.16727694739580207,
7345
+ "grad_norm": 0.005885079503059387,
7346
+ "learning_rate": 4.2594390029783534e-05,
7347
+ "loss": 11.5,
7348
+ "step": 1045
7349
+ },
7350
+ {
7351
+ "epoch": 0.16743702102967364,
7352
+ "grad_norm": 0.008645343594253063,
7353
+ "learning_rate": 4.242187438615153e-05,
7354
+ "loss": 11.5,
7355
+ "step": 1046
7356
+ },
7357
+ {
7358
+ "epoch": 0.16759709466354522,
7359
+ "grad_norm": 0.008244359865784645,
7360
+ "learning_rate": 4.224961470986849e-05,
7361
+ "loss": 11.5,
7362
+ "step": 1047
7363
+ },
7364
+ {
7365
+ "epoch": 0.16775716829741683,
7366
+ "grad_norm": 0.013236356899142265,
7367
+ "learning_rate": 4.207761176672614e-05,
7368
+ "loss": 11.5,
7369
+ "step": 1048
7370
+ },
7371
+ {
7372
+ "epoch": 0.1679172419312884,
7373
+ "grad_norm": 0.005240214988589287,
7374
+ "learning_rate": 4.190586632137491e-05,
7375
+ "loss": 11.5,
7376
+ "step": 1049
7377
+ },
7378
+ {
7379
+ "epoch": 0.16807731556515998,
7380
+ "grad_norm": 0.004562577232718468,
7381
+ "learning_rate": 4.173437913732048e-05,
7382
+ "loss": 11.5,
7383
+ "step": 1050
7384
+ },
7385
+ {
7386
+ "epoch": 0.16823738919903156,
7387
+ "grad_norm": 0.0016778433928266168,
7388
+ "learning_rate": 4.156315097692037e-05,
7389
+ "loss": 11.5,
7390
+ "step": 1051
7391
+ },
7392
+ {
7393
+ "epoch": 0.16839746283290313,
7394
+ "grad_norm": 0.0028510624542832375,
7395
+ "learning_rate": 4.139218260138074e-05,
7396
+ "loss": 11.5,
7397
+ "step": 1052
7398
+ },
7399
+ {
7400
+ "epoch": 0.1685575364667747,
7401
+ "grad_norm": 0.0021169029641896486,
7402
+ "learning_rate": 4.12214747707527e-05,
7403
+ "loss": 11.5,
7404
+ "step": 1053
7405
+ },
7406
+ {
7407
+ "epoch": 0.1687176101006463,
7408
+ "grad_norm": 0.007874535396695137,
7409
+ "learning_rate": 4.1051028243929125e-05,
7410
+ "loss": 11.5,
7411
+ "step": 1054
7412
+ },
7413
+ {
7414
+ "epoch": 0.1688776837345179,
7415
+ "grad_norm": 0.0024130248930305243,
7416
+ "learning_rate": 4.088084377864135e-05,
7417
+ "loss": 11.5,
7418
+ "step": 1055
7419
+ },
7420
+ {
7421
+ "epoch": 0.16903775736838947,
7422
+ "grad_norm": 0.0034061060287058353,
7423
+ "learning_rate": 4.07109221314556e-05,
7424
+ "loss": 11.5,
7425
+ "step": 1056
7426
+ },
7427
+ {
7428
+ "epoch": 0.16919783100226105,
7429
+ "grad_norm": 0.002557958010584116,
7430
+ "learning_rate": 4.054126405776971e-05,
7431
+ "loss": 11.5,
7432
+ "step": 1057
7433
+ },
7434
+ {
7435
+ "epoch": 0.16935790463613262,
7436
+ "grad_norm": 0.005619005765765905,
7437
+ "learning_rate": 4.037187031180985e-05,
7438
+ "loss": 11.5,
7439
+ "step": 1058
7440
+ },
7441
+ {
7442
+ "epoch": 0.1695179782700042,
7443
+ "grad_norm": 0.0027678897604346275,
7444
+ "learning_rate": 4.020274164662707e-05,
7445
+ "loss": 11.5,
7446
+ "step": 1059
7447
+ },
7448
+ {
7449
+ "epoch": 0.16967805190387578,
7450
+ "grad_norm": 0.0022015825379639864,
7451
+ "learning_rate": 4.003387881409397e-05,
7452
+ "loss": 11.5,
7453
+ "step": 1060
7454
+ },
7455
+ {
7456
+ "epoch": 0.16983812553774735,
7457
+ "grad_norm": 0.0033486501779407263,
7458
+ "learning_rate": 3.986528256490141e-05,
7459
+ "loss": 11.5,
7460
+ "step": 1061
7461
+ },
7462
+ {
7463
+ "epoch": 0.16999819917161896,
7464
+ "grad_norm": 0.004518864210695028,
7465
+ "learning_rate": 3.969695364855511e-05,
7466
+ "loss": 11.5,
7467
+ "step": 1062
7468
+ },
7469
+ {
7470
+ "epoch": 0.17015827280549053,
7471
+ "grad_norm": 0.0028971631545573473,
7472
+ "learning_rate": 3.952889281337235e-05,
7473
+ "loss": 11.5,
7474
+ "step": 1063
7475
+ },
7476
+ {
7477
+ "epoch": 0.1703183464393621,
7478
+ "grad_norm": 0.0033338076900690794,
7479
+ "learning_rate": 3.93611008064786e-05,
7480
+ "loss": 11.5,
7481
+ "step": 1064
7482
+ },
7483
+ {
7484
+ "epoch": 0.1704784200732337,
7485
+ "grad_norm": 0.003616789123043418,
7486
+ "learning_rate": 3.9193578373804364e-05,
7487
+ "loss": 11.5,
7488
+ "step": 1065
7489
+ },
7490
+ {
7491
+ "epoch": 0.17063849370710527,
7492
+ "grad_norm": 0.00574265094473958,
7493
+ "learning_rate": 3.90263262600816e-05,
7494
+ "loss": 11.5,
7495
+ "step": 1066
7496
+ },
7497
+ {
7498
+ "epoch": 0.17079856734097684,
7499
+ "grad_norm": 0.003767479443922639,
7500
+ "learning_rate": 3.88593452088406e-05,
7501
+ "loss": 11.5,
7502
+ "step": 1067
7503
+ },
7504
+ {
7505
+ "epoch": 0.17095864097484842,
7506
+ "grad_norm": 0.003367670811712742,
7507
+ "learning_rate": 3.869263596240661e-05,
7508
+ "loss": 11.5,
7509
+ "step": 1068
7510
+ },
7511
+ {
7512
+ "epoch": 0.17111871460872002,
7513
+ "grad_norm": 0.0025567905977368355,
7514
+ "learning_rate": 3.8526199261896544e-05,
7515
+ "loss": 11.5,
7516
+ "step": 1069
7517
+ },
7518
+ {
7519
+ "epoch": 0.1712787882425916,
7520
+ "grad_norm": 0.0031548349652439356,
7521
+ "learning_rate": 3.836003584721577e-05,
7522
+ "loss": 11.5,
7523
+ "step": 1070
7524
+ },
7525
+ {
7526
+ "epoch": 0.17143886187646318,
7527
+ "grad_norm": 0.0037915778812021017,
7528
+ "learning_rate": 3.8194146457054655e-05,
7529
+ "loss": 11.5,
7530
+ "step": 1071
7531
+ },
7532
+ {
7533
+ "epoch": 0.17159893551033475,
7534
+ "grad_norm": 0.0023920745588839054,
7535
+ "learning_rate": 3.802853182888543e-05,
7536
+ "loss": 11.5,
7537
+ "step": 1072
7538
+ },
7539
+ {
7540
+ "epoch": 0.17175900914420633,
7541
+ "grad_norm": 0.0018295550253242254,
7542
+ "learning_rate": 3.786319269895877e-05,
7543
+ "loss": 11.5,
7544
+ "step": 1073
7545
+ },
7546
+ {
7547
+ "epoch": 0.1719190827780779,
7548
+ "grad_norm": 0.003734629601240158,
7549
+ "learning_rate": 3.769812980230074e-05,
7550
+ "loss": 11.5,
7551
+ "step": 1074
7552
+ },
7553
+ {
7554
+ "epoch": 0.17207915641194949,
7555
+ "grad_norm": 0.0012786126462742686,
7556
+ "learning_rate": 3.7533343872709294e-05,
7557
+ "loss": 11.5,
7558
+ "step": 1075
7559
+ },
7560
+ {
7561
+ "epoch": 0.1722392300458211,
7562
+ "grad_norm": 0.0034075656440109015,
7563
+ "learning_rate": 3.736883564275112e-05,
7564
+ "loss": 11.5,
7565
+ "step": 1076
7566
+ },
7567
+ {
7568
+ "epoch": 0.17239930367969267,
7569
+ "grad_norm": 0.0026780336629599333,
7570
+ "learning_rate": 3.7204605843758386e-05,
7571
+ "loss": 11.5,
7572
+ "step": 1077
7573
+ },
7574
+ {
7575
+ "epoch": 0.17255937731356424,
7576
+ "grad_norm": 0.0032900224905461073,
7577
+ "learning_rate": 3.704065520582549e-05,
7578
+ "loss": 11.5,
7579
+ "step": 1078
7580
+ },
7581
+ {
7582
+ "epoch": 0.17271945094743582,
7583
+ "grad_norm": 0.00796513445675373,
7584
+ "learning_rate": 3.6876984457805786e-05,
7585
+ "loss": 11.5,
7586
+ "step": 1079
7587
+ },
7588
+ {
7589
+ "epoch": 0.1728795245813074,
7590
+ "grad_norm": 0.006374262273311615,
7591
+ "learning_rate": 3.671359432730834e-05,
7592
+ "loss": 11.5,
7593
+ "step": 1080
7594
+ },
7595
+ {
7596
+ "epoch": 0.17303959821517897,
7597
+ "grad_norm": 0.0018266340484842658,
7598
+ "learning_rate": 3.655048554069478e-05,
7599
+ "loss": 11.5,
7600
+ "step": 1081
7601
+ },
7602
+ {
7603
+ "epoch": 0.17319967184905055,
7604
+ "grad_norm": 0.003731823293492198,
7605
+ "learning_rate": 3.638765882307589e-05,
7606
+ "loss": 11.5,
7607
+ "step": 1082
7608
+ },
7609
+ {
7610
+ "epoch": 0.17335974548292216,
7611
+ "grad_norm": 0.003684400813654065,
7612
+ "learning_rate": 3.6225114898308634e-05,
7613
+ "loss": 11.5,
7614
+ "step": 1083
7615
+ },
7616
+ {
7617
+ "epoch": 0.17351981911679373,
7618
+ "grad_norm": 0.003037514863535762,
7619
+ "learning_rate": 3.6062854488992714e-05,
7620
+ "loss": 11.5,
7621
+ "step": 1084
7622
+ },
7623
+ {
7624
+ "epoch": 0.1736798927506653,
7625
+ "grad_norm": 0.0035959489177912474,
7626
+ "learning_rate": 3.5900878316467454e-05,
7627
+ "loss": 11.5,
7628
+ "step": 1085
7629
+ },
7630
+ {
7631
+ "epoch": 0.1738399663845369,
7632
+ "grad_norm": 0.0020323735661804676,
7633
+ "learning_rate": 3.573918710080857e-05,
7634
+ "loss": 11.5,
7635
+ "step": 1086
7636
+ },
7637
+ {
7638
+ "epoch": 0.17400004001840846,
7639
+ "grad_norm": 0.002366045257076621,
7640
+ "learning_rate": 3.5577781560825066e-05,
7641
+ "loss": 11.5,
7642
+ "step": 1087
7643
+ },
7644
+ {
7645
+ "epoch": 0.17416011365228004,
7646
+ "grad_norm": 0.00238984078168869,
7647
+ "learning_rate": 3.541666241405588e-05,
7648
+ "loss": 11.5,
7649
+ "step": 1088
7650
+ },
7651
+ {
7652
+ "epoch": 0.17432018728615162,
7653
+ "grad_norm": 0.003099254798144102,
7654
+ "learning_rate": 3.5255830376766764e-05,
7655
+ "loss": 11.5,
7656
+ "step": 1089
7657
+ },
7658
+ {
7659
+ "epoch": 0.17448026092002322,
7660
+ "grad_norm": 0.0018906679470092058,
7661
+ "learning_rate": 3.509528616394716e-05,
7662
+ "loss": 11.5,
7663
+ "step": 1090
7664
+ },
7665
+ {
7666
+ "epoch": 0.1746403345538948,
7667
+ "grad_norm": 0.00253277737647295,
7668
+ "learning_rate": 3.4935030489306883e-05,
7669
+ "loss": 11.5,
7670
+ "step": 1091
7671
+ },
7672
+ {
7673
+ "epoch": 0.17480040818776638,
7674
+ "grad_norm": 0.0018051579827442765,
7675
+ "learning_rate": 3.4775064065273165e-05,
7676
+ "loss": 11.5,
7677
+ "step": 1092
7678
+ },
7679
+ {
7680
+ "epoch": 0.17496048182163795,
7681
+ "grad_norm": 0.002916001481935382,
7682
+ "learning_rate": 3.4615387602987236e-05,
7683
+ "loss": 11.5,
7684
+ "step": 1093
7685
+ },
7686
+ {
7687
+ "epoch": 0.17512055545550953,
7688
+ "grad_norm": 0.02692965790629387,
7689
+ "learning_rate": 3.445600181230134e-05,
7690
+ "loss": 11.5,
7691
+ "step": 1094
7692
+ },
7693
+ {
7694
+ "epoch": 0.1752806290893811,
7695
+ "grad_norm": 0.016595419496297836,
7696
+ "learning_rate": 3.429690740177549e-05,
7697
+ "loss": 11.5,
7698
+ "step": 1095
7699
+ },
7700
+ {
7701
+ "epoch": 0.17544070272325268,
7702
+ "grad_norm": 0.006738040596246719,
7703
+ "learning_rate": 3.413810507867436e-05,
7704
+ "loss": 11.5,
7705
+ "step": 1096
7706
+ },
7707
+ {
7708
+ "epoch": 0.1756007763571243,
7709
+ "grad_norm": 0.0090487627312541,
7710
+ "learning_rate": 3.397959554896415e-05,
7711
+ "loss": 11.5,
7712
+ "step": 1097
7713
+ },
7714
+ {
7715
+ "epoch": 0.17576084999099587,
7716
+ "grad_norm": 0.005679016001522541,
7717
+ "learning_rate": 3.3821379517309405e-05,
7718
+ "loss": 11.5,
7719
+ "step": 1098
7720
+ },
7721
+ {
7722
+ "epoch": 0.17592092362486744,
7723
+ "grad_norm": 0.009319297969341278,
7724
+ "learning_rate": 3.3663457687069924e-05,
7725
+ "loss": 11.5,
7726
+ "step": 1099
7727
+ },
7728
+ {
7729
+ "epoch": 0.17608099725873902,
7730
+ "grad_norm": 0.006360052153468132,
7731
+ "learning_rate": 3.350583076029754e-05,
7732
+ "loss": 11.5,
7733
+ "step": 1100
7734
+ },
7735
+ {
7736
+ "epoch": 0.1762410708926106,
7737
+ "grad_norm": 0.003051420673727989,
7738
+ "learning_rate": 3.334849943773323e-05,
7739
+ "loss": 11.5,
7740
+ "step": 1101
7741
+ },
7742
+ {
7743
+ "epoch": 0.17640114452648217,
7744
+ "grad_norm": 0.0020076115615665913,
7745
+ "learning_rate": 3.319146441880371e-05,
7746
+ "loss": 11.5,
7747
+ "step": 1102
7748
+ },
7749
+ {
7750
+ "epoch": 0.17656121816035375,
7751
+ "grad_norm": 0.0069500780664384365,
7752
+ "learning_rate": 3.3034726401618444e-05,
7753
+ "loss": 11.5,
7754
+ "step": 1103
7755
+ },
7756
+ {
7757
+ "epoch": 0.17672129179422535,
7758
+ "grad_norm": 0.003077697241678834,
7759
+ "learning_rate": 3.28782860829667e-05,
7760
+ "loss": 11.5,
7761
+ "step": 1104
7762
+ },
7763
+ {
7764
+ "epoch": 0.17688136542809693,
7765
+ "grad_norm": 0.00394095666706562,
7766
+ "learning_rate": 3.272214415831418e-05,
7767
+ "loss": 11.5,
7768
+ "step": 1105
7769
+ },
7770
+ {
7771
+ "epoch": 0.1770414390619685,
7772
+ "grad_norm": 0.0034618766512721777,
7773
+ "learning_rate": 3.2566301321800085e-05,
7774
+ "loss": 11.5,
7775
+ "step": 1106
7776
+ },
7777
+ {
7778
+ "epoch": 0.17720151269584009,
7779
+ "grad_norm": 0.0036810175515711308,
7780
+ "learning_rate": 3.241075826623401e-05,
7781
+ "loss": 11.5,
7782
+ "step": 1107
7783
+ },
7784
+ {
7785
+ "epoch": 0.17736158632971166,
7786
+ "grad_norm": 0.003591476008296013,
7787
+ "learning_rate": 3.225551568309284e-05,
7788
+ "loss": 11.5,
7789
+ "step": 1108
7790
+ },
7791
+ {
7792
+ "epoch": 0.17752165996358324,
7793
+ "grad_norm": 0.003950075246393681,
7794
+ "learning_rate": 3.210057426251773e-05,
7795
+ "loss": 11.5,
7796
+ "step": 1109
7797
+ },
7798
+ {
7799
+ "epoch": 0.17768173359745482,
7800
+ "grad_norm": 0.003185428213328123,
7801
+ "learning_rate": 3.1945934693310896e-05,
7802
+ "loss": 11.5,
7803
+ "step": 1110
7804
+ },
7805
+ {
7806
+ "epoch": 0.17784180723132642,
7807
+ "grad_norm": 0.005893181078135967,
7808
+ "learning_rate": 3.179159766293282e-05,
7809
+ "loss": 11.5,
7810
+ "step": 1111
7811
+ },
7812
+ {
7813
+ "epoch": 0.178001880865198,
7814
+ "grad_norm": 0.0025459767784923315,
7815
+ "learning_rate": 3.163756385749889e-05,
7816
+ "loss": 11.5,
7817
+ "step": 1112
7818
+ },
7819
+ {
7820
+ "epoch": 0.17816195449906957,
7821
+ "grad_norm": 0.005068275611847639,
7822
+ "learning_rate": 3.148383396177653e-05,
7823
+ "loss": 11.5,
7824
+ "step": 1113
7825
+ },
7826
+ {
7827
+ "epoch": 0.17832202813294115,
7828
+ "grad_norm": 0.001588392653502524,
7829
+ "learning_rate": 3.133040865918213e-05,
7830
+ "loss": 11.5,
7831
+ "step": 1114
7832
+ },
7833
+ {
7834
+ "epoch": 0.17848210176681273,
7835
+ "grad_norm": 0.0036992819514125586,
7836
+ "learning_rate": 3.117728863177796e-05,
7837
+ "loss": 11.5,
7838
+ "step": 1115
7839
+ },
7840
+ {
7841
+ "epoch": 0.1786421754006843,
7842
+ "grad_norm": 0.005307686049491167,
7843
+ "learning_rate": 3.102447456026919e-05,
7844
+ "loss": 11.5,
7845
+ "step": 1116
7846
+ },
7847
+ {
7848
+ "epoch": 0.17880224903455588,
7849
+ "grad_norm": 0.0036241610068827868,
7850
+ "learning_rate": 3.0871967124000834e-05,
7851
+ "loss": 11.5,
7852
+ "step": 1117
7853
+ },
7854
+ {
7855
+ "epoch": 0.1789623226684275,
7856
+ "grad_norm": 0.0023742804769426584,
7857
+ "learning_rate": 3.0719767000954714e-05,
7858
+ "loss": 11.5,
7859
+ "step": 1118
7860
+ },
7861
+ {
7862
+ "epoch": 0.17912239630229906,
7863
+ "grad_norm": 0.0025262085255235434,
7864
+ "learning_rate": 3.056787486774656e-05,
7865
+ "loss": 11.5,
7866
+ "step": 1119
7867
+ },
7868
+ {
7869
+ "epoch": 0.17928246993617064,
7870
+ "grad_norm": 0.003705256851390004,
7871
+ "learning_rate": 3.041629139962283e-05,
7872
+ "loss": 11.5,
7873
+ "step": 1120
7874
+ },
7875
+ {
7876
+ "epoch": 0.17944254357004222,
7877
+ "grad_norm": 0.004558330401778221,
7878
+ "learning_rate": 3.0265017270457775e-05,
7879
+ "loss": 11.5,
7880
+ "step": 1121
7881
+ },
7882
+ {
7883
+ "epoch": 0.1796026172039138,
7884
+ "grad_norm": 0.002673452254384756,
7885
+ "learning_rate": 3.0114053152750556e-05,
7886
+ "loss": 11.5,
7887
+ "step": 1122
7888
+ },
7889
+ {
7890
+ "epoch": 0.17976269083778537,
7891
+ "grad_norm": 0.0027173180133104324,
7892
+ "learning_rate": 2.9963399717622077e-05,
7893
+ "loss": 11.5,
7894
+ "step": 1123
7895
+ },
7896
+ {
7897
+ "epoch": 0.17992276447165695,
7898
+ "grad_norm": 0.004756426904350519,
7899
+ "learning_rate": 2.98130576348121e-05,
7900
+ "loss": 11.5,
7901
+ "step": 1124
7902
+ },
7903
+ {
7904
+ "epoch": 0.18008283810552855,
7905
+ "grad_norm": 0.0025077357422560453,
7906
+ "learning_rate": 2.966302757267625e-05,
7907
+ "loss": 11.5,
7908
+ "step": 1125
7909
+ },
7910
+ {
7911
+ "epoch": 0.18008283810552855,
7912
+ "eval_loss": 11.5,
7913
+ "eval_runtime": 59.0614,
7914
+ "eval_samples_per_second": 178.154,
7915
+ "eval_steps_per_second": 89.077,
7916
+ "step": 1125
7917
  }
7918
  ],
7919
  "logging_steps": 1,
 
7933
  "attributes": {}
7934
  }
7935
  },
7936
+ "total_flos": 179415482007552.0,
7937
  "train_batch_size": 2,
7938
  "trial_name": null,
7939
  "trial_params": null