ncbateman commited on
Commit
6a085f6
·
verified ·
1 Parent(s): 5df7c03

Training in progress, step 900, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cc3b09857ebdcd5366876ccb6253f02ef46d176b2876cd8da81c0ab9ac87345f
3
  size 35237104
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c1cab7e9a8a987404549f49afdd2936be09b05aa346de6bd994dcd584e6c7c99
3
  size 35237104
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cc34b1c72ec12aca2d74c99516fb94f9e1ef0380d595d054b388f2d4af6891b1
3
  size 18810356
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a3af5b950a75d8130ae2831e845bdb2d9c0f2568b854448eb1a41e6ca5caf699
3
  size 18810356
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:38b37051116e111fecbfa4b1306e5bad93179cabe8f31d0b5e57c8bd87bb154f
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:31fd0ef2088134d693702f76cf93ec3d3456380164b3e8cc27330c341fd530f6
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4affa781cbd3b4d2d6b13f4c7ca13e85806000ac218062c57aa4f92094be7975
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0428512ada8c2471b2f37ecbdd4efa5f13e3ba0e777fddbfec0396eebc36c01a
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.28993385883845246,
5
  "eval_steps": 250,
6
- "global_step": 800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5639,6 +5639,706 @@
5639
  "learning_rate": 1.0542974530180327e-05,
5640
  "loss": 3.083,
5641
  "step": 800
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5642
  }
5643
  ],
5644
  "logging_steps": 1,
@@ -5658,7 +6358,7 @@
5658
  "attributes": {}
5659
  }
5660
  },
5661
- "total_flos": 5.7676344066048e+16,
5662
  "train_batch_size": 2,
5663
  "trial_name": null,
5664
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.32617559119325906,
5
  "eval_steps": 250,
6
+ "global_step": 900,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5639
  "learning_rate": 1.0542974530180327e-05,
5640
  "loss": 3.083,
5641
  "step": 800
5642
+ },
5643
+ {
5644
+ "epoch": 0.29029627616200054,
5645
+ "grad_norm": 6.44810152053833,
5646
+ "learning_rate": 1.0441632244932237e-05,
5647
+ "loss": 2.2946,
5648
+ "step": 801
5649
+ },
5650
+ {
5651
+ "epoch": 0.2906586934855486,
5652
+ "grad_norm": 10.6620454788208,
5653
+ "learning_rate": 1.0340722563656107e-05,
5654
+ "loss": 3.3972,
5655
+ "step": 802
5656
+ },
5657
+ {
5658
+ "epoch": 0.29102111080909665,
5659
+ "grad_norm": 5.806639671325684,
5660
+ "learning_rate": 1.0240246589884044e-05,
5661
+ "loss": 2.2731,
5662
+ "step": 803
5663
+ },
5664
+ {
5665
+ "epoch": 0.29138352813264473,
5666
+ "grad_norm": 5.967702865600586,
5667
+ "learning_rate": 1.0140205422405214e-05,
5668
+ "loss": 3.1209,
5669
+ "step": 804
5670
+ },
5671
+ {
5672
+ "epoch": 0.2917459454561928,
5673
+ "grad_norm": 7.064982891082764,
5674
+ "learning_rate": 1.0040600155253765e-05,
5675
+ "loss": 3.3447,
5676
+ "step": 805
5677
+ },
5678
+ {
5679
+ "epoch": 0.2921083627797409,
5680
+ "grad_norm": 5.999367713928223,
5681
+ "learning_rate": 9.941431877696955e-06,
5682
+ "loss": 2.46,
5683
+ "step": 806
5684
+ },
5685
+ {
5686
+ "epoch": 0.2924707801032889,
5687
+ "grad_norm": 6.495697498321533,
5688
+ "learning_rate": 9.842701674223187e-06,
5689
+ "loss": 1.9858,
5690
+ "step": 807
5691
+ },
5692
+ {
5693
+ "epoch": 0.292833197426837,
5694
+ "grad_norm": 7.841910362243652,
5695
+ "learning_rate": 9.744410624530148e-06,
5696
+ "loss": 3.1342,
5697
+ "step": 808
5698
+ },
5699
+ {
5700
+ "epoch": 0.2931956147503851,
5701
+ "grad_norm": 7.2909111976623535,
5702
+ "learning_rate": 9.646559803512994e-06,
5703
+ "loss": 4.0895,
5704
+ "step": 809
5705
+ },
5706
+ {
5707
+ "epoch": 0.29355803207393316,
5708
+ "grad_norm": 5.502638816833496,
5709
+ "learning_rate": 9.549150281252633e-06,
5710
+ "loss": 2.1715,
5711
+ "step": 810
5712
+ },
5713
+ {
5714
+ "epoch": 0.2939204493974812,
5715
+ "grad_norm": 5.319310188293457,
5716
+ "learning_rate": 9.452183123004e-06,
5717
+ "loss": 2.8537,
5718
+ "step": 811
5719
+ },
5720
+ {
5721
+ "epoch": 0.29428286672102927,
5722
+ "grad_norm": 6.386750221252441,
5723
+ "learning_rate": 9.355659389184396e-06,
5724
+ "loss": 3.2566,
5725
+ "step": 812
5726
+ },
5727
+ {
5728
+ "epoch": 0.29464528404457735,
5729
+ "grad_norm": 7.152513027191162,
5730
+ "learning_rate": 9.259580135361929e-06,
5731
+ "loss": 2.6424,
5732
+ "step": 813
5733
+ },
5734
+ {
5735
+ "epoch": 0.2950077013681254,
5736
+ "grad_norm": 7.873605728149414,
5737
+ "learning_rate": 9.163946412243896e-06,
5738
+ "loss": 3.1727,
5739
+ "step": 814
5740
+ },
5741
+ {
5742
+ "epoch": 0.29537011869167346,
5743
+ "grad_norm": 5.937596321105957,
5744
+ "learning_rate": 9.068759265665384e-06,
5745
+ "loss": 2.6007,
5746
+ "step": 815
5747
+ },
5748
+ {
5749
+ "epoch": 0.29573253601522154,
5750
+ "grad_norm": 6.4454121589660645,
5751
+ "learning_rate": 8.974019736577777e-06,
5752
+ "loss": 2.9121,
5753
+ "step": 816
5754
+ },
5755
+ {
5756
+ "epoch": 0.2960949533387696,
5757
+ "grad_norm": 8.89317512512207,
5758
+ "learning_rate": 8.879728861037384e-06,
5759
+ "loss": 3.5852,
5760
+ "step": 817
5761
+ },
5762
+ {
5763
+ "epoch": 0.29645737066231764,
5764
+ "grad_norm": 6.11660623550415,
5765
+ "learning_rate": 8.785887670194138e-06,
5766
+ "loss": 2.1771,
5767
+ "step": 818
5768
+ },
5769
+ {
5770
+ "epoch": 0.2968197879858657,
5771
+ "grad_norm": 6.442231178283691,
5772
+ "learning_rate": 8.692497190280224e-06,
5773
+ "loss": 2.6609,
5774
+ "step": 819
5775
+ },
5776
+ {
5777
+ "epoch": 0.2971822053094138,
5778
+ "grad_norm": 6.466634750366211,
5779
+ "learning_rate": 8.599558442598998e-06,
5780
+ "loss": 2.2619,
5781
+ "step": 820
5782
+ },
5783
+ {
5784
+ "epoch": 0.29754462263296183,
5785
+ "grad_norm": 7.821259498596191,
5786
+ "learning_rate": 8.507072443513702e-06,
5787
+ "loss": 2.7053,
5788
+ "step": 821
5789
+ },
5790
+ {
5791
+ "epoch": 0.2979070399565099,
5792
+ "grad_norm": 6.689558506011963,
5793
+ "learning_rate": 8.415040204436426e-06,
5794
+ "loss": 2.8319,
5795
+ "step": 822
5796
+ },
5797
+ {
5798
+ "epoch": 0.298269457280058,
5799
+ "grad_norm": 8.634140968322754,
5800
+ "learning_rate": 8.323462731816961e-06,
5801
+ "loss": 2.8749,
5802
+ "step": 823
5803
+ },
5804
+ {
5805
+ "epoch": 0.2986318746036061,
5806
+ "grad_norm": 7.520872592926025,
5807
+ "learning_rate": 8.232341027131885e-06,
5808
+ "loss": 2.4212,
5809
+ "step": 824
5810
+ },
5811
+ {
5812
+ "epoch": 0.2989942919271541,
5813
+ "grad_norm": 6.704894542694092,
5814
+ "learning_rate": 8.141676086873572e-06,
5815
+ "loss": 3.3488,
5816
+ "step": 825
5817
+ },
5818
+ {
5819
+ "epoch": 0.2993567092507022,
5820
+ "grad_norm": 7.143224239349365,
5821
+ "learning_rate": 8.051468902539272e-06,
5822
+ "loss": 3.364,
5823
+ "step": 826
5824
+ },
5825
+ {
5826
+ "epoch": 0.29971912657425026,
5827
+ "grad_norm": 6.381522178649902,
5828
+ "learning_rate": 7.96172046062032e-06,
5829
+ "loss": 2.5679,
5830
+ "step": 827
5831
+ },
5832
+ {
5833
+ "epoch": 0.30008154389779834,
5834
+ "grad_norm": 5.404728889465332,
5835
+ "learning_rate": 7.872431742591268e-06,
5836
+ "loss": 3.0229,
5837
+ "step": 828
5838
+ },
5839
+ {
5840
+ "epoch": 0.30044396122134637,
5841
+ "grad_norm": 5.889482498168945,
5842
+ "learning_rate": 7.783603724899257e-06,
5843
+ "loss": 2.9306,
5844
+ "step": 829
5845
+ },
5846
+ {
5847
+ "epoch": 0.30080637854489445,
5848
+ "grad_norm": 6.722096920013428,
5849
+ "learning_rate": 7.695237378953223e-06,
5850
+ "loss": 2.9732,
5851
+ "step": 830
5852
+ },
5853
+ {
5854
+ "epoch": 0.30116879586844253,
5855
+ "grad_norm": 4.966902732849121,
5856
+ "learning_rate": 7.607333671113409e-06,
5857
+ "loss": 2.5392,
5858
+ "step": 831
5859
+ },
5860
+ {
5861
+ "epoch": 0.30153121319199055,
5862
+ "grad_norm": 6.83373498916626,
5863
+ "learning_rate": 7.519893562680663e-06,
5864
+ "loss": 3.3694,
5865
+ "step": 832
5866
+ },
5867
+ {
5868
+ "epoch": 0.30189363051553864,
5869
+ "grad_norm": 6.037679195404053,
5870
+ "learning_rate": 7.432918009885997e-06,
5871
+ "loss": 2.0567,
5872
+ "step": 833
5873
+ },
5874
+ {
5875
+ "epoch": 0.3022560478390867,
5876
+ "grad_norm": 6.7791032791137695,
5877
+ "learning_rate": 7.3464079638801365e-06,
5878
+ "loss": 2.491,
5879
+ "step": 834
5880
+ },
5881
+ {
5882
+ "epoch": 0.3026184651626348,
5883
+ "grad_norm": 6.07615852355957,
5884
+ "learning_rate": 7.260364370723044e-06,
5885
+ "loss": 2.4496,
5886
+ "step": 835
5887
+ },
5888
+ {
5889
+ "epoch": 0.3029808824861828,
5890
+ "grad_norm": 7.163369655609131,
5891
+ "learning_rate": 7.174788171373731e-06,
5892
+ "loss": 2.7414,
5893
+ "step": 836
5894
+ },
5895
+ {
5896
+ "epoch": 0.3033432998097309,
5897
+ "grad_norm": 5.891061305999756,
5898
+ "learning_rate": 7.089680301679752e-06,
5899
+ "loss": 2.7737,
5900
+ "step": 837
5901
+ },
5902
+ {
5903
+ "epoch": 0.303705717133279,
5904
+ "grad_norm": 5.414796352386475,
5905
+ "learning_rate": 7.005041692367154e-06,
5906
+ "loss": 2.2463,
5907
+ "step": 838
5908
+ },
5909
+ {
5910
+ "epoch": 0.304068134456827,
5911
+ "grad_norm": 5.405869483947754,
5912
+ "learning_rate": 6.92087326903022e-06,
5913
+ "loss": 2.4379,
5914
+ "step": 839
5915
+ },
5916
+ {
5917
+ "epoch": 0.3044305517803751,
5918
+ "grad_norm": 6.097501277923584,
5919
+ "learning_rate": 6.837175952121306e-06,
5920
+ "loss": 2.9844,
5921
+ "step": 840
5922
+ },
5923
+ {
5924
+ "epoch": 0.3047929691039232,
5925
+ "grad_norm": 9.414335250854492,
5926
+ "learning_rate": 6.753950656940905e-06,
5927
+ "loss": 2.4858,
5928
+ "step": 841
5929
+ },
5930
+ {
5931
+ "epoch": 0.30515538642747125,
5932
+ "grad_norm": 8.032082557678223,
5933
+ "learning_rate": 6.671198293627479e-06,
5934
+ "loss": 2.3787,
5935
+ "step": 842
5936
+ },
5937
+ {
5938
+ "epoch": 0.3055178037510193,
5939
+ "grad_norm": 7.170987606048584,
5940
+ "learning_rate": 6.588919767147639e-06,
5941
+ "loss": 2.3088,
5942
+ "step": 843
5943
+ },
5944
+ {
5945
+ "epoch": 0.30588022107456736,
5946
+ "grad_norm": 7.258477210998535,
5947
+ "learning_rate": 6.5071159772861436e-06,
5948
+ "loss": 3.3815,
5949
+ "step": 844
5950
+ },
5951
+ {
5952
+ "epoch": 0.30624263839811544,
5953
+ "grad_norm": 6.890701770782471,
5954
+ "learning_rate": 6.425787818636131e-06,
5955
+ "loss": 3.248,
5956
+ "step": 845
5957
+ },
5958
+ {
5959
+ "epoch": 0.3066050557216635,
5960
+ "grad_norm": 9.972538948059082,
5961
+ "learning_rate": 6.344936180589351e-06,
5962
+ "loss": 3.0751,
5963
+ "step": 846
5964
+ },
5965
+ {
5966
+ "epoch": 0.30696747304521155,
5967
+ "grad_norm": 7.4007792472839355,
5968
+ "learning_rate": 6.264561947326331e-06,
5969
+ "loss": 3.0693,
5970
+ "step": 847
5971
+ },
5972
+ {
5973
+ "epoch": 0.30732989036875963,
5974
+ "grad_norm": 8.686583518981934,
5975
+ "learning_rate": 6.184665997806832e-06,
5976
+ "loss": 2.6327,
5977
+ "step": 848
5978
+ },
5979
+ {
5980
+ "epoch": 0.3076923076923077,
5981
+ "grad_norm": 9.083965301513672,
5982
+ "learning_rate": 6.1052492057601275e-06,
5983
+ "loss": 3.0008,
5984
+ "step": 849
5985
+ },
5986
+ {
5987
+ "epoch": 0.30805472501585573,
5988
+ "grad_norm": 6.180975437164307,
5989
+ "learning_rate": 6.026312439675552e-06,
5990
+ "loss": 2.9941,
5991
+ "step": 850
5992
+ },
5993
+ {
5994
+ "epoch": 0.3084171423394038,
5995
+ "grad_norm": 7.1970930099487305,
5996
+ "learning_rate": 5.947856562792925e-06,
5997
+ "loss": 3.0446,
5998
+ "step": 851
5999
+ },
6000
+ {
6001
+ "epoch": 0.3087795596629519,
6002
+ "grad_norm": 8.323010444641113,
6003
+ "learning_rate": 5.869882433093155e-06,
6004
+ "loss": 2.6583,
6005
+ "step": 852
6006
+ },
6007
+ {
6008
+ "epoch": 0.3091419769865,
6009
+ "grad_norm": 6.963425159454346,
6010
+ "learning_rate": 5.79239090328883e-06,
6011
+ "loss": 3.3398,
6012
+ "step": 853
6013
+ },
6014
+ {
6015
+ "epoch": 0.309504394310048,
6016
+ "grad_norm": 7.508121013641357,
6017
+ "learning_rate": 5.715382820814885e-06,
6018
+ "loss": 1.7714,
6019
+ "step": 854
6020
+ },
6021
+ {
6022
+ "epoch": 0.3098668116335961,
6023
+ "grad_norm": 7.211197376251221,
6024
+ "learning_rate": 5.6388590278194096e-06,
6025
+ "loss": 3.164,
6026
+ "step": 855
6027
+ },
6028
+ {
6029
+ "epoch": 0.31022922895714417,
6030
+ "grad_norm": 5.219383716583252,
6031
+ "learning_rate": 5.562820361154314e-06,
6032
+ "loss": 3.0525,
6033
+ "step": 856
6034
+ },
6035
+ {
6036
+ "epoch": 0.3105916462806922,
6037
+ "grad_norm": 6.372992992401123,
6038
+ "learning_rate": 5.48726765236629e-06,
6039
+ "loss": 2.2544,
6040
+ "step": 857
6041
+ },
6042
+ {
6043
+ "epoch": 0.31095406360424027,
6044
+ "grad_norm": 13.562681198120117,
6045
+ "learning_rate": 5.412201727687644e-06,
6046
+ "loss": 2.8972,
6047
+ "step": 858
6048
+ },
6049
+ {
6050
+ "epoch": 0.31131648092778835,
6051
+ "grad_norm": 7.206049919128418,
6052
+ "learning_rate": 5.337623408027293e-06,
6053
+ "loss": 3.3129,
6054
+ "step": 859
6055
+ },
6056
+ {
6057
+ "epoch": 0.31167889825133643,
6058
+ "grad_norm": 5.508146286010742,
6059
+ "learning_rate": 5.263533508961827e-06,
6060
+ "loss": 2.8893,
6061
+ "step": 860
6062
+ },
6063
+ {
6064
+ "epoch": 0.31204131557488446,
6065
+ "grad_norm": 5.100135803222656,
6066
+ "learning_rate": 5.1899328407264855e-06,
6067
+ "loss": 2.755,
6068
+ "step": 861
6069
+ },
6070
+ {
6071
+ "epoch": 0.31240373289843254,
6072
+ "grad_norm": 6.5922675132751465,
6073
+ "learning_rate": 5.116822208206396e-06,
6074
+ "loss": 2.2685,
6075
+ "step": 862
6076
+ },
6077
+ {
6078
+ "epoch": 0.3127661502219806,
6079
+ "grad_norm": 6.995744705200195,
6080
+ "learning_rate": 5.044202410927706e-06,
6081
+ "loss": 2.9639,
6082
+ "step": 863
6083
+ },
6084
+ {
6085
+ "epoch": 0.3131285675455287,
6086
+ "grad_norm": 9.096760749816895,
6087
+ "learning_rate": 4.972074243048897e-06,
6088
+ "loss": 3.1619,
6089
+ "step": 864
6090
+ },
6091
+ {
6092
+ "epoch": 0.3134909848690767,
6093
+ "grad_norm": 6.071923732757568,
6094
+ "learning_rate": 4.900438493352055e-06,
6095
+ "loss": 3.0337,
6096
+ "step": 865
6097
+ },
6098
+ {
6099
+ "epoch": 0.3138534021926248,
6100
+ "grad_norm": 6.915728569030762,
6101
+ "learning_rate": 4.829295945234258e-06,
6102
+ "loss": 2.7878,
6103
+ "step": 866
6104
+ },
6105
+ {
6106
+ "epoch": 0.3142158195161729,
6107
+ "grad_norm": 5.116779327392578,
6108
+ "learning_rate": 4.758647376699032e-06,
6109
+ "loss": 2.028,
6110
+ "step": 867
6111
+ },
6112
+ {
6113
+ "epoch": 0.3145782368397209,
6114
+ "grad_norm": 6.29951286315918,
6115
+ "learning_rate": 4.688493560347773e-06,
6116
+ "loss": 2.4187,
6117
+ "step": 868
6118
+ },
6119
+ {
6120
+ "epoch": 0.314940654163269,
6121
+ "grad_norm": 4.603816986083984,
6122
+ "learning_rate": 4.618835263371396e-06,
6123
+ "loss": 2.1837,
6124
+ "step": 869
6125
+ },
6126
+ {
6127
+ "epoch": 0.3153030714868171,
6128
+ "grad_norm": 7.818729877471924,
6129
+ "learning_rate": 4.549673247541875e-06,
6130
+ "loss": 3.9697,
6131
+ "step": 870
6132
+ },
6133
+ {
6134
+ "epoch": 0.31566548881036516,
6135
+ "grad_norm": 6.050262928009033,
6136
+ "learning_rate": 4.48100826920394e-06,
6137
+ "loss": 2.8657,
6138
+ "step": 871
6139
+ },
6140
+ {
6141
+ "epoch": 0.3160279061339132,
6142
+ "grad_norm": 5.011636257171631,
6143
+ "learning_rate": 4.412841079266777e-06,
6144
+ "loss": 2.155,
6145
+ "step": 872
6146
+ },
6147
+ {
6148
+ "epoch": 0.31639032345746126,
6149
+ "grad_norm": 7.263031005859375,
6150
+ "learning_rate": 4.3451724231958644e-06,
6151
+ "loss": 2.8195,
6152
+ "step": 873
6153
+ },
6154
+ {
6155
+ "epoch": 0.31675274078100935,
6156
+ "grad_norm": 6.203886985778809,
6157
+ "learning_rate": 4.27800304100478e-06,
6158
+ "loss": 2.9632,
6159
+ "step": 874
6160
+ },
6161
+ {
6162
+ "epoch": 0.31711515810455737,
6163
+ "grad_norm": 5.561065196990967,
6164
+ "learning_rate": 4.2113336672471245e-06,
6165
+ "loss": 2.5715,
6166
+ "step": 875
6167
+ },
6168
+ {
6169
+ "epoch": 0.31747757542810545,
6170
+ "grad_norm": 7.3997578620910645,
6171
+ "learning_rate": 4.145165031008508e-06,
6172
+ "loss": 2.8707,
6173
+ "step": 876
6174
+ },
6175
+ {
6176
+ "epoch": 0.31783999275165353,
6177
+ "grad_norm": 6.424815654754639,
6178
+ "learning_rate": 4.079497855898501e-06,
6179
+ "loss": 3.787,
6180
+ "step": 877
6181
+ },
6182
+ {
6183
+ "epoch": 0.3182024100752016,
6184
+ "grad_norm": 8.192680358886719,
6185
+ "learning_rate": 4.01433286004283e-06,
6186
+ "loss": 3.4674,
6187
+ "step": 878
6188
+ },
6189
+ {
6190
+ "epoch": 0.31856482739874964,
6191
+ "grad_norm": 6.513679504394531,
6192
+ "learning_rate": 3.949670756075447e-06,
6193
+ "loss": 2.7441,
6194
+ "step": 879
6195
+ },
6196
+ {
6197
+ "epoch": 0.3189272447222977,
6198
+ "grad_norm": 7.615200042724609,
6199
+ "learning_rate": 3.885512251130763e-06,
6200
+ "loss": 3.0239,
6201
+ "step": 880
6202
+ },
6203
+ {
6204
+ "epoch": 0.3192896620458458,
6205
+ "grad_norm": 7.766543865203857,
6206
+ "learning_rate": 3.821858046835913e-06,
6207
+ "loss": 3.1864,
6208
+ "step": 881
6209
+ },
6210
+ {
6211
+ "epoch": 0.3196520793693939,
6212
+ "grad_norm": 6.684014320373535,
6213
+ "learning_rate": 3.75870883930306e-06,
6214
+ "loss": 3.0098,
6215
+ "step": 882
6216
+ },
6217
+ {
6218
+ "epoch": 0.3200144966929419,
6219
+ "grad_norm": 7.500833034515381,
6220
+ "learning_rate": 3.696065319121833e-06,
6221
+ "loss": 3.0346,
6222
+ "step": 883
6223
+ },
6224
+ {
6225
+ "epoch": 0.32037691401649,
6226
+ "grad_norm": 6.329296588897705,
6227
+ "learning_rate": 3.6339281713517303e-06,
6228
+ "loss": 2.8556,
6229
+ "step": 884
6230
+ },
6231
+ {
6232
+ "epoch": 0.32073933134003807,
6233
+ "grad_norm": 5.90148401260376,
6234
+ "learning_rate": 3.5722980755146517e-06,
6235
+ "loss": 2.4994,
6236
+ "step": 885
6237
+ },
6238
+ {
6239
+ "epoch": 0.3211017486635861,
6240
+ "grad_norm": 7.304757595062256,
6241
+ "learning_rate": 3.511175705587433e-06,
6242
+ "loss": 3.3535,
6243
+ "step": 886
6244
+ },
6245
+ {
6246
+ "epoch": 0.3214641659871342,
6247
+ "grad_norm": 8.020987510681152,
6248
+ "learning_rate": 3.4505617299945336e-06,
6249
+ "loss": 3.9281,
6250
+ "step": 887
6251
+ },
6252
+ {
6253
+ "epoch": 0.32182658331068226,
6254
+ "grad_norm": 7.933343887329102,
6255
+ "learning_rate": 3.390456811600673e-06,
6256
+ "loss": 3.0785,
6257
+ "step": 888
6258
+ },
6259
+ {
6260
+ "epoch": 0.32218900063423034,
6261
+ "grad_norm": 5.5655670166015625,
6262
+ "learning_rate": 3.3308616077036115e-06,
6263
+ "loss": 3.0121,
6264
+ "step": 889
6265
+ },
6266
+ {
6267
+ "epoch": 0.32255141795777836,
6268
+ "grad_norm": 7.345324516296387,
6269
+ "learning_rate": 3.271776770026963e-06,
6270
+ "loss": 2.1397,
6271
+ "step": 890
6272
+ },
6273
+ {
6274
+ "epoch": 0.32291383528132644,
6275
+ "grad_norm": 6.862234592437744,
6276
+ "learning_rate": 3.213202944713023e-06,
6277
+ "loss": 2.6641,
6278
+ "step": 891
6279
+ },
6280
+ {
6281
+ "epoch": 0.3232762526048745,
6282
+ "grad_norm": 5.922866344451904,
6283
+ "learning_rate": 3.155140772315773e-06,
6284
+ "loss": 2.8116,
6285
+ "step": 892
6286
+ },
6287
+ {
6288
+ "epoch": 0.32363866992842255,
6289
+ "grad_norm": 5.328739643096924,
6290
+ "learning_rate": 3.0975908877938277e-06,
6291
+ "loss": 2.9905,
6292
+ "step": 893
6293
+ },
6294
+ {
6295
+ "epoch": 0.32400108725197063,
6296
+ "grad_norm": 5.276422500610352,
6297
+ "learning_rate": 3.040553920503503e-06,
6298
+ "loss": 2.2472,
6299
+ "step": 894
6300
+ },
6301
+ {
6302
+ "epoch": 0.3243635045755187,
6303
+ "grad_norm": 5.449382305145264,
6304
+ "learning_rate": 2.9840304941919415e-06,
6305
+ "loss": 2.3198,
6306
+ "step": 895
6307
+ },
6308
+ {
6309
+ "epoch": 0.3247259218990668,
6310
+ "grad_norm": 5.51635217666626,
6311
+ "learning_rate": 2.928021226990263e-06,
6312
+ "loss": 2.7019,
6313
+ "step": 896
6314
+ },
6315
+ {
6316
+ "epoch": 0.3250883392226148,
6317
+ "grad_norm": 5.101719856262207,
6318
+ "learning_rate": 2.8725267314068495e-06,
6319
+ "loss": 2.5853,
6320
+ "step": 897
6321
+ },
6322
+ {
6323
+ "epoch": 0.3254507565461629,
6324
+ "grad_norm": 8.838541030883789,
6325
+ "learning_rate": 2.817547614320615e-06,
6326
+ "loss": 2.5069,
6327
+ "step": 898
6328
+ },
6329
+ {
6330
+ "epoch": 0.325813173869711,
6331
+ "grad_norm": 6.860764503479004,
6332
+ "learning_rate": 2.7630844769743757e-06,
6333
+ "loss": 2.8399,
6334
+ "step": 899
6335
+ },
6336
+ {
6337
+ "epoch": 0.32617559119325906,
6338
+ "grad_norm": 5.290176868438721,
6339
+ "learning_rate": 2.7091379149682685e-06,
6340
+ "loss": 2.5194,
6341
+ "step": 900
6342
  }
6343
  ],
6344
  "logging_steps": 1,
 
6358
  "attributes": {}
6359
  }
6360
  },
6361
+ "total_flos": 6.4885887074304e+16,
6362
  "train_batch_size": 2,
6363
  "trial_name": null,
6364
  "trial_params": null