dabrown commited on
Commit
3e4bbf5
·
verified ·
1 Parent(s): 2b15c5c

Training in progress, step 720, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9b49c3fefc4f83e66ac3ad9731275bf3a82ded60a0f6380015baff0be141f1c9
3
  size 48679352
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:607be725f52f077357c0dd6b617e4d0b6082e8caeb1b6dae914a0be70dc86f38
3
  size 48679352
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:388527ddf78ca4eecb3afe5d6e1fbb132f425aa5b5df3a01100155ed02847f65
3
  size 25152884
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:738b4d6e522c4d141b49b0fd83fec1621c7393c078ed22d6966243f70dca6d4f
3
  size 25152884
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8fd958a5cad218e3925cc45398456ed6cf296a456ca7015a44eb636bdc6efe1f
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3ec4f7cc50fb21bbb2ce05c58bfc343a8e8e934252ffd2ecec54dcd950a87a42
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a410e9fcd3da3edec880d92fa86adc59d5df51c0d572897b8c24a70d95b93199
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7c1861a03fc626556465a433fa3f619dd9f923bb33ff04b1959c4edb562d5130
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.5010438413361169,
5
  "eval_steps": 240,
6
- "global_step": 480,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -3391,6 +3391,1694 @@
3391
  "eval_samples_per_second": 19.865,
3392
  "eval_steps_per_second": 9.932,
3393
  "step": 480
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3394
  }
3395
  ],
3396
  "logging_steps": 1,
@@ -3410,7 +5098,7 @@
3410
  "attributes": {}
3411
  }
3412
  },
3413
- "total_flos": 2.6827080641544192e+17,
3414
  "train_batch_size": 2,
3415
  "trial_name": null,
3416
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.7515657620041754,
5
  "eval_steps": 240,
6
+ "global_step": 720,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
3391
  "eval_samples_per_second": 19.865,
3392
  "eval_steps_per_second": 9.932,
3393
  "step": 480
3394
+ },
3395
+ {
3396
+ "epoch": 0.5020876826722338,
3397
+ "grad_norm": 0.7070721387863159,
3398
+ "learning_rate": 0.00010099415851335299,
3399
+ "loss": 0.3174,
3400
+ "step": 481
3401
+ },
3402
+ {
3403
+ "epoch": 0.5031315240083507,
3404
+ "grad_norm": 0.7391024827957153,
3405
+ "learning_rate": 0.00010066277840778626,
3406
+ "loss": 0.3442,
3407
+ "step": 482
3408
+ },
3409
+ {
3410
+ "epoch": 0.5041753653444676,
3411
+ "grad_norm": 0.7629324793815613,
3412
+ "learning_rate": 0.00010033139102356642,
3413
+ "loss": 0.3439,
3414
+ "step": 483
3415
+ },
3416
+ {
3417
+ "epoch": 0.5052192066805845,
3418
+ "grad_norm": 0.7324389219284058,
3419
+ "learning_rate": 0.0001,
3420
+ "loss": 0.3063,
3421
+ "step": 484
3422
+ },
3423
+ {
3424
+ "epoch": 0.5062630480167014,
3425
+ "grad_norm": 0.6402798295021057,
3426
+ "learning_rate": 9.966860897643359e-05,
3427
+ "loss": 0.2383,
3428
+ "step": 485
3429
+ },
3430
+ {
3431
+ "epoch": 0.5073068893528184,
3432
+ "grad_norm": 0.7618774771690369,
3433
+ "learning_rate": 9.933722159221376e-05,
3434
+ "loss": 0.3004,
3435
+ "step": 486
3436
+ },
3437
+ {
3438
+ "epoch": 0.5083507306889353,
3439
+ "grad_norm": 0.8296042680740356,
3440
+ "learning_rate": 9.900584148664704e-05,
3441
+ "loss": 0.3208,
3442
+ "step": 487
3443
+ },
3444
+ {
3445
+ "epoch": 0.5093945720250522,
3446
+ "grad_norm": 0.7663673162460327,
3447
+ "learning_rate": 9.867447229896018e-05,
3448
+ "loss": 0.3204,
3449
+ "step": 488
3450
+ },
3451
+ {
3452
+ "epoch": 0.5104384133611691,
3453
+ "grad_norm": 0.7188003063201904,
3454
+ "learning_rate": 9.834311766825985e-05,
3455
+ "loss": 0.2645,
3456
+ "step": 489
3457
+ },
3458
+ {
3459
+ "epoch": 0.511482254697286,
3460
+ "grad_norm": 0.6017361879348755,
3461
+ "learning_rate": 9.801178123349298e-05,
3462
+ "loss": 0.2076,
3463
+ "step": 490
3464
+ },
3465
+ {
3466
+ "epoch": 0.5125260960334029,
3467
+ "grad_norm": 0.6702793836593628,
3468
+ "learning_rate": 9.768046663340669e-05,
3469
+ "loss": 0.2207,
3470
+ "step": 491
3471
+ },
3472
+ {
3473
+ "epoch": 0.5135699373695198,
3474
+ "grad_norm": 0.6283150911331177,
3475
+ "learning_rate": 9.734917750650816e-05,
3476
+ "loss": 0.2246,
3477
+ "step": 492
3478
+ },
3479
+ {
3480
+ "epoch": 0.5146137787056367,
3481
+ "grad_norm": 0.6348150968551636,
3482
+ "learning_rate": 9.701791749102495e-05,
3483
+ "loss": 0.1896,
3484
+ "step": 493
3485
+ },
3486
+ {
3487
+ "epoch": 0.5156576200417536,
3488
+ "grad_norm": 0.6684585213661194,
3489
+ "learning_rate": 9.668669022486494e-05,
3490
+ "loss": 0.2409,
3491
+ "step": 494
3492
+ },
3493
+ {
3494
+ "epoch": 0.5167014613778705,
3495
+ "grad_norm": 0.678677499294281,
3496
+ "learning_rate": 9.635549934557625e-05,
3497
+ "loss": 0.216,
3498
+ "step": 495
3499
+ },
3500
+ {
3501
+ "epoch": 0.5177453027139874,
3502
+ "grad_norm": 0.6523580551147461,
3503
+ "learning_rate": 9.602434849030745e-05,
3504
+ "loss": 0.1894,
3505
+ "step": 496
3506
+ },
3507
+ {
3508
+ "epoch": 0.5187891440501043,
3509
+ "grad_norm": 0.5122499465942383,
3510
+ "learning_rate": 9.569324129576757e-05,
3511
+ "loss": 0.1579,
3512
+ "step": 497
3513
+ },
3514
+ {
3515
+ "epoch": 0.5198329853862212,
3516
+ "grad_norm": 0.5820009112358093,
3517
+ "learning_rate": 9.536218139818614e-05,
3518
+ "loss": 0.1766,
3519
+ "step": 498
3520
+ },
3521
+ {
3522
+ "epoch": 0.5208768267223383,
3523
+ "grad_norm": 0.5032172203063965,
3524
+ "learning_rate": 9.503117243327337e-05,
3525
+ "loss": 0.1519,
3526
+ "step": 499
3527
+ },
3528
+ {
3529
+ "epoch": 0.5219206680584552,
3530
+ "grad_norm": 0.7425169944763184,
3531
+ "learning_rate": 9.47002180361799e-05,
3532
+ "loss": 0.1333,
3533
+ "step": 500
3534
+ },
3535
+ {
3536
+ "epoch": 0.5229645093945721,
3537
+ "grad_norm": 0.7141383290290833,
3538
+ "learning_rate": 9.436932184145737e-05,
3539
+ "loss": 0.4269,
3540
+ "step": 501
3541
+ },
3542
+ {
3543
+ "epoch": 0.524008350730689,
3544
+ "grad_norm": 0.662886917591095,
3545
+ "learning_rate": 9.403848748301802e-05,
3546
+ "loss": 0.2939,
3547
+ "step": 502
3548
+ },
3549
+ {
3550
+ "epoch": 0.5250521920668059,
3551
+ "grad_norm": 0.6695585250854492,
3552
+ "learning_rate": 9.370771859409513e-05,
3553
+ "loss": 0.3167,
3554
+ "step": 503
3555
+ },
3556
+ {
3557
+ "epoch": 0.5260960334029228,
3558
+ "grad_norm": 0.7355087399482727,
3559
+ "learning_rate": 9.337701880720303e-05,
3560
+ "loss": 0.3414,
3561
+ "step": 504
3562
+ },
3563
+ {
3564
+ "epoch": 0.5271398747390397,
3565
+ "grad_norm": 0.6738423705101013,
3566
+ "learning_rate": 9.304639175409698e-05,
3567
+ "loss": 0.3176,
3568
+ "step": 505
3569
+ },
3570
+ {
3571
+ "epoch": 0.5281837160751566,
3572
+ "grad_norm": 0.7200036644935608,
3573
+ "learning_rate": 9.271584106573364e-05,
3574
+ "loss": 0.3276,
3575
+ "step": 506
3576
+ },
3577
+ {
3578
+ "epoch": 0.5292275574112735,
3579
+ "grad_norm": 0.6562217473983765,
3580
+ "learning_rate": 9.238537037223104e-05,
3581
+ "loss": 0.3353,
3582
+ "step": 507
3583
+ },
3584
+ {
3585
+ "epoch": 0.5302713987473904,
3586
+ "grad_norm": 0.6065823435783386,
3587
+ "learning_rate": 9.205498330282856e-05,
3588
+ "loss": 0.3062,
3589
+ "step": 508
3590
+ },
3591
+ {
3592
+ "epoch": 0.5313152400835073,
3593
+ "grad_norm": 0.6631349921226501,
3594
+ "learning_rate": 9.172468348584739e-05,
3595
+ "loss": 0.2497,
3596
+ "step": 509
3597
+ },
3598
+ {
3599
+ "epoch": 0.5323590814196242,
3600
+ "grad_norm": 0.613549530506134,
3601
+ "learning_rate": 9.139447454865033e-05,
3602
+ "loss": 0.2625,
3603
+ "step": 510
3604
+ },
3605
+ {
3606
+ "epoch": 0.5334029227557411,
3607
+ "grad_norm": 0.6613410711288452,
3608
+ "learning_rate": 9.106436011760229e-05,
3609
+ "loss": 0.244,
3610
+ "step": 511
3611
+ },
3612
+ {
3613
+ "epoch": 0.534446764091858,
3614
+ "grad_norm": 0.5914390087127686,
3615
+ "learning_rate": 9.073434381803024e-05,
3616
+ "loss": 0.2109,
3617
+ "step": 512
3618
+ },
3619
+ {
3620
+ "epoch": 0.535490605427975,
3621
+ "grad_norm": 0.5324224829673767,
3622
+ "learning_rate": 9.04044292741835e-05,
3623
+ "loss": 0.1926,
3624
+ "step": 513
3625
+ },
3626
+ {
3627
+ "epoch": 0.5365344467640919,
3628
+ "grad_norm": 0.652651846408844,
3629
+ "learning_rate": 9.007462010919386e-05,
3630
+ "loss": 0.2254,
3631
+ "step": 514
3632
+ },
3633
+ {
3634
+ "epoch": 0.5375782881002088,
3635
+ "grad_norm": 0.6112195253372192,
3636
+ "learning_rate": 8.974491994503584e-05,
3637
+ "loss": 0.205,
3638
+ "step": 515
3639
+ },
3640
+ {
3641
+ "epoch": 0.5386221294363257,
3642
+ "grad_norm": 0.5404685735702515,
3643
+ "learning_rate": 8.941533240248699e-05,
3644
+ "loss": 0.1928,
3645
+ "step": 516
3646
+ },
3647
+ {
3648
+ "epoch": 0.5396659707724426,
3649
+ "grad_norm": 0.47451335191726685,
3650
+ "learning_rate": 8.908586110108794e-05,
3651
+ "loss": 0.1307,
3652
+ "step": 517
3653
+ },
3654
+ {
3655
+ "epoch": 0.5407098121085595,
3656
+ "grad_norm": 0.8480343818664551,
3657
+ "learning_rate": 8.875650965910279e-05,
3658
+ "loss": 0.1533,
3659
+ "step": 518
3660
+ },
3661
+ {
3662
+ "epoch": 0.5417536534446764,
3663
+ "grad_norm": 0.6759589314460754,
3664
+ "learning_rate": 8.842728169347939e-05,
3665
+ "loss": 0.1468,
3666
+ "step": 519
3667
+ },
3668
+ {
3669
+ "epoch": 0.5427974947807933,
3670
+ "grad_norm": 0.5591132640838623,
3671
+ "learning_rate": 8.809818081980953e-05,
3672
+ "loss": 0.2246,
3673
+ "step": 520
3674
+ },
3675
+ {
3676
+ "epoch": 0.5438413361169102,
3677
+ "grad_norm": 0.6184394955635071,
3678
+ "learning_rate": 8.776921065228924e-05,
3679
+ "loss": 0.2189,
3680
+ "step": 521
3681
+ },
3682
+ {
3683
+ "epoch": 0.5448851774530271,
3684
+ "grad_norm": 0.5175319910049438,
3685
+ "learning_rate": 8.744037480367921e-05,
3686
+ "loss": 0.1886,
3687
+ "step": 522
3688
+ },
3689
+ {
3690
+ "epoch": 0.545929018789144,
3691
+ "grad_norm": 0.645250678062439,
3692
+ "learning_rate": 8.711167688526493e-05,
3693
+ "loss": 0.2297,
3694
+ "step": 523
3695
+ },
3696
+ {
3697
+ "epoch": 0.5469728601252609,
3698
+ "grad_norm": 0.6044825315475464,
3699
+ "learning_rate": 8.678312050681724e-05,
3700
+ "loss": 0.2029,
3701
+ "step": 524
3702
+ },
3703
+ {
3704
+ "epoch": 0.5480167014613778,
3705
+ "grad_norm": 0.5178519487380981,
3706
+ "learning_rate": 8.645470927655255e-05,
3707
+ "loss": 0.1447,
3708
+ "step": 525
3709
+ },
3710
+ {
3711
+ "epoch": 0.5490605427974948,
3712
+ "grad_norm": 0.8626076579093933,
3713
+ "learning_rate": 8.612644680109319e-05,
3714
+ "loss": 0.4495,
3715
+ "step": 526
3716
+ },
3717
+ {
3718
+ "epoch": 0.5501043841336117,
3719
+ "grad_norm": 0.8363009691238403,
3720
+ "learning_rate": 8.579833668542796e-05,
3721
+ "loss": 0.3709,
3722
+ "step": 527
3723
+ },
3724
+ {
3725
+ "epoch": 0.5511482254697286,
3726
+ "grad_norm": 0.872733473777771,
3727
+ "learning_rate": 8.547038253287233e-05,
3728
+ "loss": 0.3226,
3729
+ "step": 528
3730
+ },
3731
+ {
3732
+ "epoch": 0.5521920668058455,
3733
+ "grad_norm": 0.865210235118866,
3734
+ "learning_rate": 8.514258794502905e-05,
3735
+ "loss": 0.3579,
3736
+ "step": 529
3737
+ },
3738
+ {
3739
+ "epoch": 0.5532359081419624,
3740
+ "grad_norm": 0.7914073467254639,
3741
+ "learning_rate": 8.481495652174859e-05,
3742
+ "loss": 0.3216,
3743
+ "step": 530
3744
+ },
3745
+ {
3746
+ "epoch": 0.5542797494780793,
3747
+ "grad_norm": 0.8779425024986267,
3748
+ "learning_rate": 8.448749186108935e-05,
3749
+ "loss": 0.3532,
3750
+ "step": 531
3751
+ },
3752
+ {
3753
+ "epoch": 0.5553235908141962,
3754
+ "grad_norm": 0.8584082722663879,
3755
+ "learning_rate": 8.416019755927851e-05,
3756
+ "loss": 0.4009,
3757
+ "step": 532
3758
+ },
3759
+ {
3760
+ "epoch": 0.5563674321503131,
3761
+ "grad_norm": 0.8470184206962585,
3762
+ "learning_rate": 8.383307721067231e-05,
3763
+ "loss": 0.4198,
3764
+ "step": 533
3765
+ },
3766
+ {
3767
+ "epoch": 0.55741127348643,
3768
+ "grad_norm": 0.7338582277297974,
3769
+ "learning_rate": 8.35061344077166e-05,
3770
+ "loss": 0.2725,
3771
+ "step": 534
3772
+ },
3773
+ {
3774
+ "epoch": 0.558455114822547,
3775
+ "grad_norm": 0.7652982473373413,
3776
+ "learning_rate": 8.317937274090747e-05,
3777
+ "loss": 0.3007,
3778
+ "step": 535
3779
+ },
3780
+ {
3781
+ "epoch": 0.5594989561586639,
3782
+ "grad_norm": 0.7415357232093811,
3783
+ "learning_rate": 8.28527957987517e-05,
3784
+ "loss": 0.3274,
3785
+ "step": 536
3786
+ },
3787
+ {
3788
+ "epoch": 0.5605427974947808,
3789
+ "grad_norm": 0.6662179231643677,
3790
+ "learning_rate": 8.252640716772749e-05,
3791
+ "loss": 0.2606,
3792
+ "step": 537
3793
+ },
3794
+ {
3795
+ "epoch": 0.5615866388308977,
3796
+ "grad_norm": 0.6139498353004456,
3797
+ "learning_rate": 8.2200210432245e-05,
3798
+ "loss": 0.2382,
3799
+ "step": 538
3800
+ },
3801
+ {
3802
+ "epoch": 0.5626304801670147,
3803
+ "grad_norm": 0.7014831900596619,
3804
+ "learning_rate": 8.187420917460686e-05,
3805
+ "loss": 0.2542,
3806
+ "step": 539
3807
+ },
3808
+ {
3809
+ "epoch": 0.5636743215031316,
3810
+ "grad_norm": 0.7138461470603943,
3811
+ "learning_rate": 8.154840697496917e-05,
3812
+ "loss": 0.2392,
3813
+ "step": 540
3814
+ },
3815
+ {
3816
+ "epoch": 0.5647181628392485,
3817
+ "grad_norm": 0.7507902979850769,
3818
+ "learning_rate": 8.122280741130176e-05,
3819
+ "loss": 0.2554,
3820
+ "step": 541
3821
+ },
3822
+ {
3823
+ "epoch": 0.5657620041753654,
3824
+ "grad_norm": 0.8535422086715698,
3825
+ "learning_rate": 8.089741405934922e-05,
3826
+ "loss": 0.2433,
3827
+ "step": 542
3828
+ },
3829
+ {
3830
+ "epoch": 0.5668058455114823,
3831
+ "grad_norm": 0.660111129283905,
3832
+ "learning_rate": 8.057223049259155e-05,
3833
+ "loss": 0.1921,
3834
+ "step": 543
3835
+ },
3836
+ {
3837
+ "epoch": 0.5678496868475992,
3838
+ "grad_norm": 0.49220120906829834,
3839
+ "learning_rate": 8.024726028220474e-05,
3840
+ "loss": 0.1793,
3841
+ "step": 544
3842
+ },
3843
+ {
3844
+ "epoch": 0.5688935281837161,
3845
+ "grad_norm": 0.5934033393859863,
3846
+ "learning_rate": 7.992250699702182e-05,
3847
+ "loss": 0.1686,
3848
+ "step": 545
3849
+ },
3850
+ {
3851
+ "epoch": 0.569937369519833,
3852
+ "grad_norm": 0.6598916053771973,
3853
+ "learning_rate": 7.959797420349355e-05,
3854
+ "loss": 0.1981,
3855
+ "step": 546
3856
+ },
3857
+ {
3858
+ "epoch": 0.5709812108559499,
3859
+ "grad_norm": 0.6087566018104553,
3860
+ "learning_rate": 7.927366546564911e-05,
3861
+ "loss": 0.1845,
3862
+ "step": 547
3863
+ },
3864
+ {
3865
+ "epoch": 0.5720250521920668,
3866
+ "grad_norm": 0.4998890459537506,
3867
+ "learning_rate": 7.894958434505725e-05,
3868
+ "loss": 0.1524,
3869
+ "step": 548
3870
+ },
3871
+ {
3872
+ "epoch": 0.5730688935281837,
3873
+ "grad_norm": 0.5460024476051331,
3874
+ "learning_rate": 7.862573440078686e-05,
3875
+ "loss": 0.1808,
3876
+ "step": 549
3877
+ },
3878
+ {
3879
+ "epoch": 0.5741127348643006,
3880
+ "grad_norm": 0.7462297677993774,
3881
+ "learning_rate": 7.83021191893682e-05,
3882
+ "loss": 0.1723,
3883
+ "step": 550
3884
+ },
3885
+ {
3886
+ "epoch": 0.5751565762004175,
3887
+ "grad_norm": 0.5173273086547852,
3888
+ "learning_rate": 7.797874226475361e-05,
3889
+ "loss": 0.3054,
3890
+ "step": 551
3891
+ },
3892
+ {
3893
+ "epoch": 0.5762004175365344,
3894
+ "grad_norm": 0.6547046303749084,
3895
+ "learning_rate": 7.765560717827858e-05,
3896
+ "loss": 0.3101,
3897
+ "step": 552
3898
+ },
3899
+ {
3900
+ "epoch": 0.5772442588726514,
3901
+ "grad_norm": 0.676986575126648,
3902
+ "learning_rate": 7.733271747862265e-05,
3903
+ "loss": 0.3376,
3904
+ "step": 553
3905
+ },
3906
+ {
3907
+ "epoch": 0.5782881002087683,
3908
+ "grad_norm": 0.7368578910827637,
3909
+ "learning_rate": 7.701007671177067e-05,
3910
+ "loss": 0.3517,
3911
+ "step": 554
3912
+ },
3913
+ {
3914
+ "epoch": 0.5793319415448852,
3915
+ "grad_norm": 0.7136873006820679,
3916
+ "learning_rate": 7.668768842097353e-05,
3917
+ "loss": 0.3077,
3918
+ "step": 555
3919
+ },
3920
+ {
3921
+ "epoch": 0.5803757828810021,
3922
+ "grad_norm": 0.7121712565422058,
3923
+ "learning_rate": 7.636555614670953e-05,
3924
+ "loss": 0.3271,
3925
+ "step": 556
3926
+ },
3927
+ {
3928
+ "epoch": 0.581419624217119,
3929
+ "grad_norm": 0.7123695611953735,
3930
+ "learning_rate": 7.604368342664533e-05,
3931
+ "loss": 0.3356,
3932
+ "step": 557
3933
+ },
3934
+ {
3935
+ "epoch": 0.5824634655532359,
3936
+ "grad_norm": 0.7206712961196899,
3937
+ "learning_rate": 7.572207379559721e-05,
3938
+ "loss": 0.2915,
3939
+ "step": 558
3940
+ },
3941
+ {
3942
+ "epoch": 0.5835073068893528,
3943
+ "grad_norm": 0.6520224809646606,
3944
+ "learning_rate": 7.540073078549221e-05,
3945
+ "loss": 0.2657,
3946
+ "step": 559
3947
+ },
3948
+ {
3949
+ "epoch": 0.5845511482254697,
3950
+ "grad_norm": 0.5960420370101929,
3951
+ "learning_rate": 7.507965792532921e-05,
3952
+ "loss": 0.1952,
3953
+ "step": 560
3954
+ },
3955
+ {
3956
+ "epoch": 0.5855949895615866,
3957
+ "grad_norm": 0.5834378004074097,
3958
+ "learning_rate": 7.475885874114047e-05,
3959
+ "loss": 0.1878,
3960
+ "step": 561
3961
+ },
3962
+ {
3963
+ "epoch": 0.5866388308977035,
3964
+ "grad_norm": 0.6201406121253967,
3965
+ "learning_rate": 7.443833675595255e-05,
3966
+ "loss": 0.1927,
3967
+ "step": 562
3968
+ },
3969
+ {
3970
+ "epoch": 0.5876826722338204,
3971
+ "grad_norm": 0.5904473662376404,
3972
+ "learning_rate": 7.411809548974792e-05,
3973
+ "loss": 0.1804,
3974
+ "step": 563
3975
+ },
3976
+ {
3977
+ "epoch": 0.5887265135699373,
3978
+ "grad_norm": 0.5292779803276062,
3979
+ "learning_rate": 7.379813845942623e-05,
3980
+ "loss": 0.1379,
3981
+ "step": 564
3982
+ },
3983
+ {
3984
+ "epoch": 0.5897703549060542,
3985
+ "grad_norm": 0.618929922580719,
3986
+ "learning_rate": 7.347846917876544e-05,
3987
+ "loss": 0.1926,
3988
+ "step": 565
3989
+ },
3990
+ {
3991
+ "epoch": 0.5908141962421712,
3992
+ "grad_norm": 0.5607888698577881,
3993
+ "learning_rate": 7.315909115838367e-05,
3994
+ "loss": 0.1845,
3995
+ "step": 566
3996
+ },
3997
+ {
3998
+ "epoch": 0.5918580375782881,
3999
+ "grad_norm": 0.56803297996521,
4000
+ "learning_rate": 7.284000790570029e-05,
4001
+ "loss": 0.1762,
4002
+ "step": 567
4003
+ },
4004
+ {
4005
+ "epoch": 0.592901878914405,
4006
+ "grad_norm": 0.5143932700157166,
4007
+ "learning_rate": 7.252122292489747e-05,
4008
+ "loss": 0.1514,
4009
+ "step": 568
4010
+ },
4011
+ {
4012
+ "epoch": 0.593945720250522,
4013
+ "grad_norm": 0.6080281734466553,
4014
+ "learning_rate": 7.220273971688192e-05,
4015
+ "loss": 0.2516,
4016
+ "step": 569
4017
+ },
4018
+ {
4019
+ "epoch": 0.5949895615866388,
4020
+ "grad_norm": 0.6721866130828857,
4021
+ "learning_rate": 7.188456177924605e-05,
4022
+ "loss": 0.2707,
4023
+ "step": 570
4024
+ },
4025
+ {
4026
+ "epoch": 0.5960334029227558,
4027
+ "grad_norm": 0.5116624236106873,
4028
+ "learning_rate": 7.156669260622996e-05,
4029
+ "loss": 0.2083,
4030
+ "step": 571
4031
+ },
4032
+ {
4033
+ "epoch": 0.5970772442588727,
4034
+ "grad_norm": 0.5874140858650208,
4035
+ "learning_rate": 7.124913568868287e-05,
4036
+ "loss": 0.1598,
4037
+ "step": 572
4038
+ },
4039
+ {
4040
+ "epoch": 0.5981210855949896,
4041
+ "grad_norm": 0.506820559501648,
4042
+ "learning_rate": 7.093189451402469e-05,
4043
+ "loss": 0.1572,
4044
+ "step": 573
4045
+ },
4046
+ {
4047
+ "epoch": 0.5991649269311065,
4048
+ "grad_norm": 0.7033873796463013,
4049
+ "learning_rate": 7.061497256620793e-05,
4050
+ "loss": 0.2867,
4051
+ "step": 574
4052
+ },
4053
+ {
4054
+ "epoch": 0.6002087682672234,
4055
+ "grad_norm": 0.7932460904121399,
4056
+ "learning_rate": 7.029837332567927e-05,
4057
+ "loss": 0.2998,
4058
+ "step": 575
4059
+ },
4060
+ {
4061
+ "epoch": 0.6012526096033403,
4062
+ "grad_norm": 0.8427619934082031,
4063
+ "learning_rate": 6.998210026934148e-05,
4064
+ "loss": 0.426,
4065
+ "step": 576
4066
+ },
4067
+ {
4068
+ "epoch": 0.6022964509394572,
4069
+ "grad_norm": 0.7818666100502014,
4070
+ "learning_rate": 6.966615687051516e-05,
4071
+ "loss": 0.3559,
4072
+ "step": 577
4073
+ },
4074
+ {
4075
+ "epoch": 0.6033402922755741,
4076
+ "grad_norm": 0.821897566318512,
4077
+ "learning_rate": 6.935054659890052e-05,
4078
+ "loss": 0.3928,
4079
+ "step": 578
4080
+ },
4081
+ {
4082
+ "epoch": 0.6043841336116911,
4083
+ "grad_norm": 0.7375624179840088,
4084
+ "learning_rate": 6.903527292053942e-05,
4085
+ "loss": 0.3203,
4086
+ "step": 579
4087
+ },
4088
+ {
4089
+ "epoch": 0.605427974947808,
4090
+ "grad_norm": 0.7323412299156189,
4091
+ "learning_rate": 6.87203392977773e-05,
4092
+ "loss": 0.3014,
4093
+ "step": 580
4094
+ },
4095
+ {
4096
+ "epoch": 0.6064718162839249,
4097
+ "grad_norm": 0.8238475322723389,
4098
+ "learning_rate": 6.840574918922493e-05,
4099
+ "loss": 0.3447,
4100
+ "step": 581
4101
+ },
4102
+ {
4103
+ "epoch": 0.6075156576200418,
4104
+ "grad_norm": 0.7970190644264221,
4105
+ "learning_rate": 6.809150604972079e-05,
4106
+ "loss": 0.3556,
4107
+ "step": 582
4108
+ },
4109
+ {
4110
+ "epoch": 0.6085594989561587,
4111
+ "grad_norm": 0.718948483467102,
4112
+ "learning_rate": 6.777761333029275e-05,
4113
+ "loss": 0.318,
4114
+ "step": 583
4115
+ },
4116
+ {
4117
+ "epoch": 0.6096033402922756,
4118
+ "grad_norm": 0.8113385438919067,
4119
+ "learning_rate": 6.746407447812049e-05,
4120
+ "loss": 0.2928,
4121
+ "step": 584
4122
+ },
4123
+ {
4124
+ "epoch": 0.6106471816283925,
4125
+ "grad_norm": 0.732028603553772,
4126
+ "learning_rate": 6.715089293649752e-05,
4127
+ "loss": 0.2688,
4128
+ "step": 585
4129
+ },
4130
+ {
4131
+ "epoch": 0.6116910229645094,
4132
+ "grad_norm": 0.693304181098938,
4133
+ "learning_rate": 6.683807214479323e-05,
4134
+ "loss": 0.2421,
4135
+ "step": 586
4136
+ },
4137
+ {
4138
+ "epoch": 0.6127348643006263,
4139
+ "grad_norm": 0.8302125334739685,
4140
+ "learning_rate": 6.652561553841537e-05,
4141
+ "loss": 0.2625,
4142
+ "step": 587
4143
+ },
4144
+ {
4145
+ "epoch": 0.6137787056367432,
4146
+ "grad_norm": 0.6446481943130493,
4147
+ "learning_rate": 6.621352654877207e-05,
4148
+ "loss": 0.2261,
4149
+ "step": 588
4150
+ },
4151
+ {
4152
+ "epoch": 0.6148225469728601,
4153
+ "grad_norm": 0.7838292717933655,
4154
+ "learning_rate": 6.59018086032344e-05,
4155
+ "loss": 0.2619,
4156
+ "step": 589
4157
+ },
4158
+ {
4159
+ "epoch": 0.615866388308977,
4160
+ "grad_norm": 0.6317050457000732,
4161
+ "learning_rate": 6.55904651250986e-05,
4162
+ "loss": 0.1996,
4163
+ "step": 590
4164
+ },
4165
+ {
4166
+ "epoch": 0.6169102296450939,
4167
+ "grad_norm": 0.6110920310020447,
4168
+ "learning_rate": 6.527949953354835e-05,
4169
+ "loss": 0.2078,
4170
+ "step": 591
4171
+ },
4172
+ {
4173
+ "epoch": 0.6179540709812108,
4174
+ "grad_norm": 0.5425273180007935,
4175
+ "learning_rate": 6.496891524361757e-05,
4176
+ "loss": 0.1852,
4177
+ "step": 592
4178
+ },
4179
+ {
4180
+ "epoch": 0.6189979123173278,
4181
+ "grad_norm": 0.7897228002548218,
4182
+ "learning_rate": 6.465871566615263e-05,
4183
+ "loss": 0.2217,
4184
+ "step": 593
4185
+ },
4186
+ {
4187
+ "epoch": 0.6200417536534447,
4188
+ "grad_norm": 0.6448274254798889,
4189
+ "learning_rate": 6.434890420777491e-05,
4190
+ "loss": 0.1918,
4191
+ "step": 594
4192
+ },
4193
+ {
4194
+ "epoch": 0.6210855949895616,
4195
+ "grad_norm": 0.690799355506897,
4196
+ "learning_rate": 6.403948427084356e-05,
4197
+ "loss": 0.2129,
4198
+ "step": 595
4199
+ },
4200
+ {
4201
+ "epoch": 0.6221294363256785,
4202
+ "grad_norm": 0.6128472685813904,
4203
+ "learning_rate": 6.373045925341794e-05,
4204
+ "loss": 0.196,
4205
+ "step": 596
4206
+ },
4207
+ {
4208
+ "epoch": 0.6231732776617954,
4209
+ "grad_norm": 0.4894169270992279,
4210
+ "learning_rate": 6.342183254922046e-05,
4211
+ "loss": 0.1341,
4212
+ "step": 597
4213
+ },
4214
+ {
4215
+ "epoch": 0.6242171189979123,
4216
+ "grad_norm": 0.5475450754165649,
4217
+ "learning_rate": 6.311360754759923e-05,
4218
+ "loss": 0.1655,
4219
+ "step": 598
4220
+ },
4221
+ {
4222
+ "epoch": 0.6252609603340292,
4223
+ "grad_norm": 0.5742066502571106,
4224
+ "learning_rate": 6.280578763349078e-05,
4225
+ "loss": 0.2158,
4226
+ "step": 599
4227
+ },
4228
+ {
4229
+ "epoch": 0.6263048016701461,
4230
+ "grad_norm": 0.6302378177642822,
4231
+ "learning_rate": 6.249837618738311e-05,
4232
+ "loss": 0.1211,
4233
+ "step": 600
4234
+ },
4235
+ {
4236
+ "epoch": 0.627348643006263,
4237
+ "grad_norm": 0.6498920321464539,
4238
+ "learning_rate": 6.219137658527818e-05,
4239
+ "loss": 0.3415,
4240
+ "step": 601
4241
+ },
4242
+ {
4243
+ "epoch": 0.6283924843423799,
4244
+ "grad_norm": 0.5803071856498718,
4245
+ "learning_rate": 6.188479219865529e-05,
4246
+ "loss": 0.3446,
4247
+ "step": 602
4248
+ },
4249
+ {
4250
+ "epoch": 0.6294363256784968,
4251
+ "grad_norm": 0.7242146134376526,
4252
+ "learning_rate": 6.157862639443374e-05,
4253
+ "loss": 0.3406,
4254
+ "step": 603
4255
+ },
4256
+ {
4257
+ "epoch": 0.6304801670146137,
4258
+ "grad_norm": 0.741543710231781,
4259
+ "learning_rate": 6.127288253493591e-05,
4260
+ "loss": 0.2851,
4261
+ "step": 604
4262
+ },
4263
+ {
4264
+ "epoch": 0.6315240083507306,
4265
+ "grad_norm": 0.6710807681083679,
4266
+ "learning_rate": 6.09675639778504e-05,
4267
+ "loss": 0.2975,
4268
+ "step": 605
4269
+ },
4270
+ {
4271
+ "epoch": 0.6325678496868476,
4272
+ "grad_norm": 0.6401992440223694,
4273
+ "learning_rate": 6.0662674076195194e-05,
4274
+ "loss": 0.2934,
4275
+ "step": 606
4276
+ },
4277
+ {
4278
+ "epoch": 0.6336116910229646,
4279
+ "grad_norm": 0.7866775393486023,
4280
+ "learning_rate": 6.03582161782806e-05,
4281
+ "loss": 0.3303,
4282
+ "step": 607
4283
+ },
4284
+ {
4285
+ "epoch": 0.6346555323590815,
4286
+ "grad_norm": 0.6878888607025146,
4287
+ "learning_rate": 6.005419362767286e-05,
4288
+ "loss": 0.2885,
4289
+ "step": 608
4290
+ },
4291
+ {
4292
+ "epoch": 0.6356993736951984,
4293
+ "grad_norm": 0.667226254940033,
4294
+ "learning_rate": 5.975060976315703e-05,
4295
+ "loss": 0.2663,
4296
+ "step": 609
4297
+ },
4298
+ {
4299
+ "epoch": 0.6367432150313153,
4300
+ "grad_norm": 0.5909189581871033,
4301
+ "learning_rate": 5.9447467918700614e-05,
4302
+ "loss": 0.2023,
4303
+ "step": 610
4304
+ },
4305
+ {
4306
+ "epoch": 0.6377870563674322,
4307
+ "grad_norm": 0.6986932158470154,
4308
+ "learning_rate": 5.9144771423416826e-05,
4309
+ "loss": 0.2354,
4310
+ "step": 611
4311
+ },
4312
+ {
4313
+ "epoch": 0.6388308977035491,
4314
+ "grad_norm": 0.5562401413917542,
4315
+ "learning_rate": 5.8842523601528e-05,
4316
+ "loss": 0.1928,
4317
+ "step": 612
4318
+ },
4319
+ {
4320
+ "epoch": 0.639874739039666,
4321
+ "grad_norm": 0.5309166312217712,
4322
+ "learning_rate": 5.854072777232914e-05,
4323
+ "loss": 0.1611,
4324
+ "step": 613
4325
+ },
4326
+ {
4327
+ "epoch": 0.6409185803757829,
4328
+ "grad_norm": 0.4029114842414856,
4329
+ "learning_rate": 5.823938725015148e-05,
4330
+ "loss": 0.14,
4331
+ "step": 614
4332
+ },
4333
+ {
4334
+ "epoch": 0.6419624217118998,
4335
+ "grad_norm": 0.4246949851512909,
4336
+ "learning_rate": 5.793850534432599e-05,
4337
+ "loss": 0.1194,
4338
+ "step": 615
4339
+ },
4340
+ {
4341
+ "epoch": 0.6430062630480167,
4342
+ "grad_norm": 0.44221794605255127,
4343
+ "learning_rate": 5.763808535914723e-05,
4344
+ "loss": 0.121,
4345
+ "step": 616
4346
+ },
4347
+ {
4348
+ "epoch": 0.6440501043841336,
4349
+ "grad_norm": 0.40379002690315247,
4350
+ "learning_rate": 5.7338130593836755e-05,
4351
+ "loss": 0.1215,
4352
+ "step": 617
4353
+ },
4354
+ {
4355
+ "epoch": 0.6450939457202505,
4356
+ "grad_norm": 0.6201443076133728,
4357
+ "learning_rate": 5.7038644342507205e-05,
4358
+ "loss": 0.1686,
4359
+ "step": 618
4360
+ },
4361
+ {
4362
+ "epoch": 0.6461377870563675,
4363
+ "grad_norm": 0.7134044766426086,
4364
+ "learning_rate": 5.673962989412599e-05,
4365
+ "loss": 0.3048,
4366
+ "step": 619
4367
+ },
4368
+ {
4369
+ "epoch": 0.6471816283924844,
4370
+ "grad_norm": 0.5085525512695312,
4371
+ "learning_rate": 5.644109053247901e-05,
4372
+ "loss": 0.2137,
4373
+ "step": 620
4374
+ },
4375
+ {
4376
+ "epoch": 0.6482254697286013,
4377
+ "grad_norm": 0.5813112854957581,
4378
+ "learning_rate": 5.614302953613489e-05,
4379
+ "loss": 0.2164,
4380
+ "step": 621
4381
+ },
4382
+ {
4383
+ "epoch": 0.6492693110647182,
4384
+ "grad_norm": 0.5314549803733826,
4385
+ "learning_rate": 5.584545017840885e-05,
4386
+ "loss": 0.1781,
4387
+ "step": 622
4388
+ },
4389
+ {
4390
+ "epoch": 0.6503131524008351,
4391
+ "grad_norm": 0.4466283619403839,
4392
+ "learning_rate": 5.5548355727326574e-05,
4393
+ "loss": 0.1564,
4394
+ "step": 623
4395
+ },
4396
+ {
4397
+ "epoch": 0.651356993736952,
4398
+ "grad_norm": 0.7003150582313538,
4399
+ "learning_rate": 5.525174944558866e-05,
4400
+ "loss": 0.3604,
4401
+ "step": 624
4402
+ },
4403
+ {
4404
+ "epoch": 0.6524008350730689,
4405
+ "grad_norm": 0.7904312610626221,
4406
+ "learning_rate": 5.4955634590534545e-05,
4407
+ "loss": 0.3483,
4408
+ "step": 625
4409
+ },
4410
+ {
4411
+ "epoch": 0.6534446764091858,
4412
+ "grad_norm": 0.7673099637031555,
4413
+ "learning_rate": 5.466001441410682e-05,
4414
+ "loss": 0.3912,
4415
+ "step": 626
4416
+ },
4417
+ {
4418
+ "epoch": 0.6544885177453027,
4419
+ "grad_norm": 0.823867678642273,
4420
+ "learning_rate": 5.4364892162815436e-05,
4421
+ "loss": 0.3618,
4422
+ "step": 627
4423
+ },
4424
+ {
4425
+ "epoch": 0.6555323590814196,
4426
+ "grad_norm": 0.6855948567390442,
4427
+ "learning_rate": 5.407027107770219e-05,
4428
+ "loss": 0.2816,
4429
+ "step": 628
4430
+ },
4431
+ {
4432
+ "epoch": 0.6565762004175365,
4433
+ "grad_norm": 0.7723731994628906,
4434
+ "learning_rate": 5.377615439430508e-05,
4435
+ "loss": 0.3292,
4436
+ "step": 629
4437
+ },
4438
+ {
4439
+ "epoch": 0.6576200417536534,
4440
+ "grad_norm": 0.7081869840621948,
4441
+ "learning_rate": 5.348254534262262e-05,
4442
+ "loss": 0.3232,
4443
+ "step": 630
4444
+ },
4445
+ {
4446
+ "epoch": 0.6586638830897703,
4447
+ "grad_norm": 0.7101826071739197,
4448
+ "learning_rate": 5.318944714707861e-05,
4449
+ "loss": 0.3557,
4450
+ "step": 631
4451
+ },
4452
+ {
4453
+ "epoch": 0.6597077244258872,
4454
+ "grad_norm": 0.7043560147285461,
4455
+ "learning_rate": 5.289686302648661e-05,
4456
+ "loss": 0.3251,
4457
+ "step": 632
4458
+ },
4459
+ {
4460
+ "epoch": 0.6607515657620042,
4461
+ "grad_norm": 0.8865169286727905,
4462
+ "learning_rate": 5.2604796194014507e-05,
4463
+ "loss": 0.3514,
4464
+ "step": 633
4465
+ },
4466
+ {
4467
+ "epoch": 0.6617954070981211,
4468
+ "grad_norm": 0.8106626868247986,
4469
+ "learning_rate": 5.2313249857149414e-05,
4470
+ "loss": 0.3226,
4471
+ "step": 634
4472
+ },
4473
+ {
4474
+ "epoch": 0.662839248434238,
4475
+ "grad_norm": 0.7511535286903381,
4476
+ "learning_rate": 5.202222721766226e-05,
4477
+ "loss": 0.3186,
4478
+ "step": 635
4479
+ },
4480
+ {
4481
+ "epoch": 0.6638830897703549,
4482
+ "grad_norm": 0.7110910415649414,
4483
+ "learning_rate": 5.1731731471572755e-05,
4484
+ "loss": 0.29,
4485
+ "step": 636
4486
+ },
4487
+ {
4488
+ "epoch": 0.6649269311064718,
4489
+ "grad_norm": 0.7598642110824585,
4490
+ "learning_rate": 5.144176580911431e-05,
4491
+ "loss": 0.2552,
4492
+ "step": 637
4493
+ },
4494
+ {
4495
+ "epoch": 0.6659707724425887,
4496
+ "grad_norm": 0.5399108529090881,
4497
+ "learning_rate": 5.115233341469877e-05,
4498
+ "loss": 0.2105,
4499
+ "step": 638
4500
+ },
4501
+ {
4502
+ "epoch": 0.6670146137787056,
4503
+ "grad_norm": 0.6335327625274658,
4504
+ "learning_rate": 5.0863437466881836e-05,
4505
+ "loss": 0.2272,
4506
+ "step": 639
4507
+ },
4508
+ {
4509
+ "epoch": 0.6680584551148225,
4510
+ "grad_norm": 0.6470877528190613,
4511
+ "learning_rate": 5.0575081138327715e-05,
4512
+ "loss": 0.2329,
4513
+ "step": 640
4514
+ },
4515
+ {
4516
+ "epoch": 0.6691022964509394,
4517
+ "grad_norm": 0.5501940250396729,
4518
+ "learning_rate": 5.028726759577467e-05,
4519
+ "loss": 0.2057,
4520
+ "step": 641
4521
+ },
4522
+ {
4523
+ "epoch": 0.6701461377870563,
4524
+ "grad_norm": 0.48475509881973267,
4525
+ "learning_rate": 5.000000000000002e-05,
4526
+ "loss": 0.1643,
4527
+ "step": 642
4528
+ },
4529
+ {
4530
+ "epoch": 0.6711899791231732,
4531
+ "grad_norm": 0.8148300051689148,
4532
+ "learning_rate": 4.97132815057854e-05,
4533
+ "loss": 0.2454,
4534
+ "step": 643
4535
+ },
4536
+ {
4537
+ "epoch": 0.6722338204592901,
4538
+ "grad_norm": 0.47534969449043274,
4539
+ "learning_rate": 4.942711526188229e-05,
4540
+ "loss": 0.1713,
4541
+ "step": 644
4542
+ },
4543
+ {
4544
+ "epoch": 0.673277661795407,
4545
+ "grad_norm": 0.5151733160018921,
4546
+ "learning_rate": 4.914150441097736e-05,
4547
+ "loss": 0.1701,
4548
+ "step": 645
4549
+ },
4550
+ {
4551
+ "epoch": 0.6743215031315241,
4552
+ "grad_norm": 0.5037069916725159,
4553
+ "learning_rate": 4.885645208965779e-05,
4554
+ "loss": 0.1814,
4555
+ "step": 646
4556
+ },
4557
+ {
4558
+ "epoch": 0.675365344467641,
4559
+ "grad_norm": 0.4882695972919464,
4560
+ "learning_rate": 4.857196142837716e-05,
4561
+ "loss": 0.1685,
4562
+ "step": 647
4563
+ },
4564
+ {
4565
+ "epoch": 0.6764091858037579,
4566
+ "grad_norm": 0.614020586013794,
4567
+ "learning_rate": 4.8288035551420697e-05,
4568
+ "loss": 0.1878,
4569
+ "step": 648
4570
+ },
4571
+ {
4572
+ "epoch": 0.6774530271398748,
4573
+ "grad_norm": 0.44983476400375366,
4574
+ "learning_rate": 4.80046775768713e-05,
4575
+ "loss": 0.1455,
4576
+ "step": 649
4577
+ },
4578
+ {
4579
+ "epoch": 0.6784968684759917,
4580
+ "grad_norm": 0.7257928252220154,
4581
+ "learning_rate": 4.7721890616575103e-05,
4582
+ "loss": 0.1417,
4583
+ "step": 650
4584
+ },
4585
+ {
4586
+ "epoch": 0.6795407098121086,
4587
+ "grad_norm": 0.5455628633499146,
4588
+ "learning_rate": 4.743967777610727e-05,
4589
+ "loss": 0.298,
4590
+ "step": 651
4591
+ },
4592
+ {
4593
+ "epoch": 0.6805845511482255,
4594
+ "grad_norm": 0.6038815379142761,
4595
+ "learning_rate": 4.715804215473809e-05,
4596
+ "loss": 0.322,
4597
+ "step": 652
4598
+ },
4599
+ {
4600
+ "epoch": 0.6816283924843424,
4601
+ "grad_norm": 0.6264936327934265,
4602
+ "learning_rate": 4.687698684539866e-05,
4603
+ "loss": 0.3185,
4604
+ "step": 653
4605
+ },
4606
+ {
4607
+ "epoch": 0.6826722338204593,
4608
+ "grad_norm": 0.6083415150642395,
4609
+ "learning_rate": 4.659651493464721e-05,
4610
+ "loss": 0.2614,
4611
+ "step": 654
4612
+ },
4613
+ {
4614
+ "epoch": 0.6837160751565762,
4615
+ "grad_norm": 0.616062343120575,
4616
+ "learning_rate": 4.6316629502635025e-05,
4617
+ "loss": 0.2663,
4618
+ "step": 655
4619
+ },
4620
+ {
4621
+ "epoch": 0.6847599164926931,
4622
+ "grad_norm": 0.6474526524543762,
4623
+ "learning_rate": 4.603733362307261e-05,
4624
+ "loss": 0.3216,
4625
+ "step": 656
4626
+ },
4627
+ {
4628
+ "epoch": 0.68580375782881,
4629
+ "grad_norm": 0.6374465227127075,
4630
+ "learning_rate": 4.575863036319604e-05,
4631
+ "loss": 0.2995,
4632
+ "step": 657
4633
+ },
4634
+ {
4635
+ "epoch": 0.6868475991649269,
4636
+ "grad_norm": 0.627227246761322,
4637
+ "learning_rate": 4.548052278373327e-05,
4638
+ "loss": 0.2399,
4639
+ "step": 658
4640
+ },
4641
+ {
4642
+ "epoch": 0.6878914405010439,
4643
+ "grad_norm": 0.6535525321960449,
4644
+ "learning_rate": 4.520301393887032e-05,
4645
+ "loss": 0.2309,
4646
+ "step": 659
4647
+ },
4648
+ {
4649
+ "epoch": 0.6889352818371608,
4650
+ "grad_norm": 0.5703950524330139,
4651
+ "learning_rate": 4.492610687621804e-05,
4652
+ "loss": 0.2128,
4653
+ "step": 660
4654
+ },
4655
+ {
4656
+ "epoch": 0.6899791231732777,
4657
+ "grad_norm": 0.5039522647857666,
4658
+ "learning_rate": 4.4649804636778456e-05,
4659
+ "loss": 0.1812,
4660
+ "step": 661
4661
+ },
4662
+ {
4663
+ "epoch": 0.6910229645093946,
4664
+ "grad_norm": 0.6118776798248291,
4665
+ "learning_rate": 4.4374110254911306e-05,
4666
+ "loss": 0.225,
4667
+ "step": 662
4668
+ },
4669
+ {
4670
+ "epoch": 0.6920668058455115,
4671
+ "grad_norm": 0.4194796085357666,
4672
+ "learning_rate": 4.4099026758300944e-05,
4673
+ "loss": 0.1415,
4674
+ "step": 663
4675
+ },
4676
+ {
4677
+ "epoch": 0.6931106471816284,
4678
+ "grad_norm": 0.5777245163917542,
4679
+ "learning_rate": 4.382455716792291e-05,
4680
+ "loss": 0.2032,
4681
+ "step": 664
4682
+ },
4683
+ {
4684
+ "epoch": 0.6941544885177453,
4685
+ "grad_norm": 0.41527435183525085,
4686
+ "learning_rate": 4.355070449801083e-05,
4687
+ "loss": 0.1205,
4688
+ "step": 665
4689
+ },
4690
+ {
4691
+ "epoch": 0.6951983298538622,
4692
+ "grad_norm": 0.502178430557251,
4693
+ "learning_rate": 4.32774717560232e-05,
4694
+ "loss": 0.1514,
4695
+ "step": 666
4696
+ },
4697
+ {
4698
+ "epoch": 0.6962421711899791,
4699
+ "grad_norm": 0.5909983515739441,
4700
+ "learning_rate": 4.300486194261057e-05,
4701
+ "loss": 0.176,
4702
+ "step": 667
4703
+ },
4704
+ {
4705
+ "epoch": 0.697286012526096,
4706
+ "grad_norm": 0.48378539085388184,
4707
+ "learning_rate": 4.273287805158245e-05,
4708
+ "loss": 0.1627,
4709
+ "step": 668
4710
+ },
4711
+ {
4712
+ "epoch": 0.6983298538622129,
4713
+ "grad_norm": 0.6273384094238281,
4714
+ "learning_rate": 4.2461523069874346e-05,
4715
+ "loss": 0.2523,
4716
+ "step": 669
4717
+ },
4718
+ {
4719
+ "epoch": 0.6993736951983298,
4720
+ "grad_norm": 0.5280055403709412,
4721
+ "learning_rate": 4.219079997751515e-05,
4722
+ "loss": 0.2035,
4723
+ "step": 670
4724
+ },
4725
+ {
4726
+ "epoch": 0.7004175365344467,
4727
+ "grad_norm": 0.539364755153656,
4728
+ "learning_rate": 4.192071174759435e-05,
4729
+ "loss": 0.1896,
4730
+ "step": 671
4731
+ },
4732
+ {
4733
+ "epoch": 0.7014613778705637,
4734
+ "grad_norm": 0.5403777956962585,
4735
+ "learning_rate": 4.165126134622926e-05,
4736
+ "loss": 0.1624,
4737
+ "step": 672
4738
+ },
4739
+ {
4740
+ "epoch": 0.7025052192066806,
4741
+ "grad_norm": 0.448177695274353,
4742
+ "learning_rate": 4.1382451732532665e-05,
4743
+ "loss": 0.1308,
4744
+ "step": 673
4745
+ },
4746
+ {
4747
+ "epoch": 0.7035490605427975,
4748
+ "grad_norm": 0.6774344444274902,
4749
+ "learning_rate": 4.1114285858580045e-05,
4750
+ "loss": 0.3161,
4751
+ "step": 674
4752
+ },
4753
+ {
4754
+ "epoch": 0.7045929018789144,
4755
+ "grad_norm": 0.7080472707748413,
4756
+ "learning_rate": 4.0846766669377446e-05,
4757
+ "loss": 0.3357,
4758
+ "step": 675
4759
+ },
4760
+ {
4761
+ "epoch": 0.7056367432150313,
4762
+ "grad_norm": 0.6589325666427612,
4763
+ "learning_rate": 4.0579897102828966e-05,
4764
+ "loss": 0.2815,
4765
+ "step": 676
4766
+ },
4767
+ {
4768
+ "epoch": 0.7066805845511482,
4769
+ "grad_norm": 0.7149707078933716,
4770
+ "learning_rate": 4.0313680089704454e-05,
4771
+ "loss": 0.3612,
4772
+ "step": 677
4773
+ },
4774
+ {
4775
+ "epoch": 0.7077244258872651,
4776
+ "grad_norm": 0.6252415776252747,
4777
+ "learning_rate": 4.004811855360748e-05,
4778
+ "loss": 0.2726,
4779
+ "step": 678
4780
+ },
4781
+ {
4782
+ "epoch": 0.708768267223382,
4783
+ "grad_norm": 0.7726844549179077,
4784
+ "learning_rate": 3.9783215410943174e-05,
4785
+ "loss": 0.3229,
4786
+ "step": 679
4787
+ },
4788
+ {
4789
+ "epoch": 0.7098121085594989,
4790
+ "grad_norm": 0.7369757890701294,
4791
+ "learning_rate": 3.951897357088602e-05,
4792
+ "loss": 0.3436,
4793
+ "step": 680
4794
+ },
4795
+ {
4796
+ "epoch": 0.7108559498956158,
4797
+ "grad_norm": 0.788517951965332,
4798
+ "learning_rate": 3.925539593534824e-05,
4799
+ "loss": 0.312,
4800
+ "step": 681
4801
+ },
4802
+ {
4803
+ "epoch": 0.7118997912317327,
4804
+ "grad_norm": 0.7983633875846863,
4805
+ "learning_rate": 3.899248539894757e-05,
4806
+ "loss": 0.361,
4807
+ "step": 682
4808
+ },
4809
+ {
4810
+ "epoch": 0.7129436325678496,
4811
+ "grad_norm": 0.7084015607833862,
4812
+ "learning_rate": 3.873024484897576e-05,
4813
+ "loss": 0.2836,
4814
+ "step": 683
4815
+ },
4816
+ {
4817
+ "epoch": 0.7139874739039666,
4818
+ "grad_norm": 0.7584156394004822,
4819
+ "learning_rate": 3.8468677165366754e-05,
4820
+ "loss": 0.2955,
4821
+ "step": 684
4822
+ },
4823
+ {
4824
+ "epoch": 0.7150313152400835,
4825
+ "grad_norm": 0.7465482354164124,
4826
+ "learning_rate": 3.820778522066494e-05,
4827
+ "loss": 0.2564,
4828
+ "step": 685
4829
+ },
4830
+ {
4831
+ "epoch": 0.7160751565762005,
4832
+ "grad_norm": 0.6189156770706177,
4833
+ "learning_rate": 3.794757187999386e-05,
4834
+ "loss": 0.221,
4835
+ "step": 686
4836
+ },
4837
+ {
4838
+ "epoch": 0.7171189979123174,
4839
+ "grad_norm": 0.6960480809211731,
4840
+ "learning_rate": 3.7688040001024475e-05,
4841
+ "loss": 0.2522,
4842
+ "step": 687
4843
+ },
4844
+ {
4845
+ "epoch": 0.7181628392484343,
4846
+ "grad_norm": 0.572296679019928,
4847
+ "learning_rate": 3.7429192433944014e-05,
4848
+ "loss": 0.1997,
4849
+ "step": 688
4850
+ },
4851
+ {
4852
+ "epoch": 0.7192066805845512,
4853
+ "grad_norm": 0.6478104591369629,
4854
+ "learning_rate": 3.717103202142457e-05,
4855
+ "loss": 0.2126,
4856
+ "step": 689
4857
+ },
4858
+ {
4859
+ "epoch": 0.7202505219206681,
4860
+ "grad_norm": 0.7389695644378662,
4861
+ "learning_rate": 3.691356159859177e-05,
4862
+ "loss": 0.2333,
4863
+ "step": 690
4864
+ },
4865
+ {
4866
+ "epoch": 0.721294363256785,
4867
+ "grad_norm": 0.5489468574523926,
4868
+ "learning_rate": 3.665678399299388e-05,
4869
+ "loss": 0.1701,
4870
+ "step": 691
4871
+ },
4872
+ {
4873
+ "epoch": 0.7223382045929019,
4874
+ "grad_norm": 0.7258986830711365,
4875
+ "learning_rate": 3.64007020245706e-05,
4876
+ "loss": 0.2457,
4877
+ "step": 692
4878
+ },
4879
+ {
4880
+ "epoch": 0.7233820459290188,
4881
+ "grad_norm": 0.6785321235656738,
4882
+ "learning_rate": 3.614531850562203e-05,
4883
+ "loss": 0.1936,
4884
+ "step": 693
4885
+ },
4886
+ {
4887
+ "epoch": 0.7244258872651357,
4888
+ "grad_norm": 0.612426221370697,
4889
+ "learning_rate": 3.589063624077802e-05,
4890
+ "loss": 0.2403,
4891
+ "step": 694
4892
+ },
4893
+ {
4894
+ "epoch": 0.7254697286012526,
4895
+ "grad_norm": 0.5947864651679993,
4896
+ "learning_rate": 3.563665802696707e-05,
4897
+ "loss": 0.1743,
4898
+ "step": 695
4899
+ },
4900
+ {
4901
+ "epoch": 0.7265135699373695,
4902
+ "grad_norm": 0.6579543352127075,
4903
+ "learning_rate": 3.538338665338589e-05,
4904
+ "loss": 0.1928,
4905
+ "step": 696
4906
+ },
4907
+ {
4908
+ "epoch": 0.7275574112734864,
4909
+ "grad_norm": 0.5460782647132874,
4910
+ "learning_rate": 3.513082490146864e-05,
4911
+ "loss": 0.1655,
4912
+ "step": 697
4913
+ },
4914
+ {
4915
+ "epoch": 0.7286012526096033,
4916
+ "grad_norm": 0.7640422582626343,
4917
+ "learning_rate": 3.487897554485628e-05,
4918
+ "loss": 0.1659,
4919
+ "step": 698
4920
+ },
4921
+ {
4922
+ "epoch": 0.7296450939457203,
4923
+ "grad_norm": 0.7361250519752502,
4924
+ "learning_rate": 3.462784134936636e-05,
4925
+ "loss": 0.1992,
4926
+ "step": 699
4927
+ },
4928
+ {
4929
+ "epoch": 0.7306889352818372,
4930
+ "grad_norm": 1.2653623819351196,
4931
+ "learning_rate": 3.4377425072962465e-05,
4932
+ "loss": 0.1184,
4933
+ "step": 700
4934
+ },
4935
+ {
4936
+ "epoch": 0.7317327766179541,
4937
+ "grad_norm": 0.6173591613769531,
4938
+ "learning_rate": 3.412772946572389e-05,
4939
+ "loss": 0.4121,
4940
+ "step": 701
4941
+ },
4942
+ {
4943
+ "epoch": 0.732776617954071,
4944
+ "grad_norm": 0.5525224208831787,
4945
+ "learning_rate": 3.387875726981563e-05,
4946
+ "loss": 0.2601,
4947
+ "step": 702
4948
+ },
4949
+ {
4950
+ "epoch": 0.7338204592901879,
4951
+ "grad_norm": 0.6985558867454529,
4952
+ "learning_rate": 3.363051121945809e-05,
4953
+ "loss": 0.3448,
4954
+ "step": 703
4955
+ },
4956
+ {
4957
+ "epoch": 0.7348643006263048,
4958
+ "grad_norm": 0.580680251121521,
4959
+ "learning_rate": 3.3382994040897196e-05,
4960
+ "loss": 0.2642,
4961
+ "step": 704
4962
+ },
4963
+ {
4964
+ "epoch": 0.7359081419624217,
4965
+ "grad_norm": 0.5876568555831909,
4966
+ "learning_rate": 3.3136208452374254e-05,
4967
+ "loss": 0.271,
4968
+ "step": 705
4969
+ },
4970
+ {
4971
+ "epoch": 0.7369519832985386,
4972
+ "grad_norm": 0.6181269884109497,
4973
+ "learning_rate": 3.289015716409631e-05,
4974
+ "loss": 0.2522,
4975
+ "step": 706
4976
+ },
4977
+ {
4978
+ "epoch": 0.7379958246346555,
4979
+ "grad_norm": 0.6312392354011536,
4980
+ "learning_rate": 3.264484287820634e-05,
4981
+ "loss": 0.2735,
4982
+ "step": 707
4983
+ },
4984
+ {
4985
+ "epoch": 0.7390396659707724,
4986
+ "grad_norm": 0.6163091063499451,
4987
+ "learning_rate": 3.2400268288753425e-05,
4988
+ "loss": 0.2415,
4989
+ "step": 708
4990
+ },
4991
+ {
4992
+ "epoch": 0.7400835073068893,
4993
+ "grad_norm": 0.6303150057792664,
4994
+ "learning_rate": 3.2156436081663356e-05,
4995
+ "loss": 0.2495,
4996
+ "step": 709
4997
+ },
4998
+ {
4999
+ "epoch": 0.7411273486430062,
5000
+ "grad_norm": 0.6544148325920105,
5001
+ "learning_rate": 3.191334893470907e-05,
5002
+ "loss": 0.2445,
5003
+ "step": 710
5004
+ },
5005
+ {
5006
+ "epoch": 0.7421711899791231,
5007
+ "grad_norm": 0.468227744102478,
5008
+ "learning_rate": 3.167100951748115e-05,
5009
+ "loss": 0.1481,
5010
+ "step": 711
5011
+ },
5012
+ {
5013
+ "epoch": 0.7432150313152401,
5014
+ "grad_norm": 0.5340932607650757,
5015
+ "learning_rate": 3.14294204913587e-05,
5016
+ "loss": 0.1431,
5017
+ "step": 712
5018
+ },
5019
+ {
5020
+ "epoch": 0.744258872651357,
5021
+ "grad_norm": 0.5851957201957703,
5022
+ "learning_rate": 3.1188584509479866e-05,
5023
+ "loss": 0.1737,
5024
+ "step": 713
5025
+ },
5026
+ {
5027
+ "epoch": 0.7453027139874739,
5028
+ "grad_norm": 0.5840248465538025,
5029
+ "learning_rate": 3.094850421671295e-05,
5030
+ "loss": 0.1752,
5031
+ "step": 714
5032
+ },
5033
+ {
5034
+ "epoch": 0.7463465553235908,
5035
+ "grad_norm": 0.5659369826316833,
5036
+ "learning_rate": 3.0709182249627255e-05,
5037
+ "loss": 0.1967,
5038
+ "step": 715
5039
+ },
5040
+ {
5041
+ "epoch": 0.7473903966597077,
5042
+ "grad_norm": 0.457015722990036,
5043
+ "learning_rate": 3.0470621236464036e-05,
5044
+ "loss": 0.1544,
5045
+ "step": 716
5046
+ },
5047
+ {
5048
+ "epoch": 0.7484342379958246,
5049
+ "grad_norm": 0.5182324647903442,
5050
+ "learning_rate": 3.023282379710779e-05,
5051
+ "loss": 0.1414,
5052
+ "step": 717
5053
+ },
5054
+ {
5055
+ "epoch": 0.7494780793319415,
5056
+ "grad_norm": 0.5334721207618713,
5057
+ "learning_rate": 2.9995792543057478e-05,
5058
+ "loss": 0.1615,
5059
+ "step": 718
5060
+ },
5061
+ {
5062
+ "epoch": 0.7505219206680585,
5063
+ "grad_norm": 0.6061464548110962,
5064
+ "learning_rate": 2.9759530077397636e-05,
5065
+ "loss": 0.2452,
5066
+ "step": 719
5067
+ },
5068
+ {
5069
+ "epoch": 0.7515657620041754,
5070
+ "grad_norm": 0.5774762630462646,
5071
+ "learning_rate": 2.9524038994770107e-05,
5072
+ "loss": 0.2234,
5073
+ "step": 720
5074
+ },
5075
+ {
5076
+ "epoch": 0.7515657620041754,
5077
+ "eval_loss": 0.21803000569343567,
5078
+ "eval_runtime": 81.2533,
5079
+ "eval_samples_per_second": 19.864,
5080
+ "eval_steps_per_second": 9.932,
5081
+ "step": 720
5082
  }
5083
  ],
5084
  "logging_steps": 1,
 
5098
  "attributes": {}
5099
  }
5100
  },
5101
+ "total_flos": 4.025453542322995e+17,
5102
  "train_batch_size": 2,
5103
  "trial_name": null,
5104
  "trial_params": null