vdos commited on
Commit
72ede38
·
verified ·
1 Parent(s): 4e342a2

Training in progress, step 1327, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:adc4a346f236977de0ca81189c69e1729fc0825d0b19ca106e44bef02f543df7
3
  size 83945296
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:83dbaeaee01846f48df9ea221a857d412285b2811d32fb18577887a8512871c7
3
  size 83945296
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d5c4e9662dc1e0a3eb66b651d945e0f9e93c307693d88612d0e17594f866c5a8
3
  size 43123028
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:045f7efac05b92e8f94870de407382375541f5e340ad11048df478584ec32234
3
  size 43123028
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3cb3a244dac0ba18fe47c7eeadfc8ead7a1373c9e060261272fc6c0b773bbf42
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:12322feca1d403db4eb8cb16effd4b34acca4309e1a2cdbfc72b9e408f6de635
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:af70f012ec7f61c97e63f82b5902591ff59d3a45a59911469d48fa2bdcfd0a26
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ef39c5a61850b95d896c6a6cd037808d522ac6c3ed4aad3f7a25052c8146ef07
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7508127208480565,
5
  "eval_steps": 332,
6
- "global_step": 996,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7003,6 +7003,2323 @@
7003
  "eval_samples_per_second": 17.59,
7004
  "eval_steps_per_second": 8.799,
7005
  "step": 996
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7006
  }
7007
  ],
7008
  "logging_steps": 1,
@@ -7017,12 +9334,12 @@
7017
  "should_evaluate": false,
7018
  "should_log": false,
7019
  "should_save": true,
7020
- "should_training_stop": false
7021
  },
7022
  "attributes": {}
7023
  }
7024
  },
7025
- "total_flos": 1.396527285443494e+18,
7026
  "train_batch_size": 2,
7027
  "trial_name": null,
7028
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0007067137809187,
5
  "eval_steps": 332,
6
+ "global_step": 1327,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7003
  "eval_samples_per_second": 17.59,
7004
  "eval_steps_per_second": 8.799,
7005
  "step": 996
7006
+ },
7007
+ {
7008
+ "epoch": 0.7515665488810365,
7009
+ "grad_norm": 9.90727710723877,
7010
+ "learning_rate": 2.941594075558366e-05,
7011
+ "loss": 0.4791,
7012
+ "step": 997
7013
+ },
7014
+ {
7015
+ "epoch": 0.7523203769140165,
7016
+ "grad_norm": 9.148994445800781,
7017
+ "learning_rate": 2.9247165864740856e-05,
7018
+ "loss": 0.4488,
7019
+ "step": 998
7020
+ },
7021
+ {
7022
+ "epoch": 0.7530742049469965,
7023
+ "grad_norm": 10.751917839050293,
7024
+ "learning_rate": 2.9078793572099616e-05,
7025
+ "loss": 0.4695,
7026
+ "step": 999
7027
+ },
7028
+ {
7029
+ "epoch": 0.7538280329799765,
7030
+ "grad_norm": 12.66123104095459,
7031
+ "learning_rate": 2.8910824835732952e-05,
7032
+ "loss": 0.4773,
7033
+ "step": 1000
7034
+ },
7035
+ {
7036
+ "epoch": 0.7545818610129564,
7037
+ "grad_norm": 5.507136821746826,
7038
+ "learning_rate": 2.8743260611417665e-05,
7039
+ "loss": 0.5073,
7040
+ "step": 1001
7041
+ },
7042
+ {
7043
+ "epoch": 0.7553356890459364,
7044
+ "grad_norm": 5.805990695953369,
7045
+ "learning_rate": 2.857610185262859e-05,
7046
+ "loss": 0.4735,
7047
+ "step": 1002
7048
+ },
7049
+ {
7050
+ "epoch": 0.7560895170789164,
7051
+ "grad_norm": 5.612555980682373,
7052
+ "learning_rate": 2.8409349510533578e-05,
7053
+ "loss": 0.4536,
7054
+ "step": 1003
7055
+ },
7056
+ {
7057
+ "epoch": 0.7568433451118963,
7058
+ "grad_norm": 5.850246906280518,
7059
+ "learning_rate": 2.8243004533987793e-05,
7060
+ "loss": 0.4578,
7061
+ "step": 1004
7062
+ },
7063
+ {
7064
+ "epoch": 0.7575971731448763,
7065
+ "grad_norm": 5.569720268249512,
7066
+ "learning_rate": 2.8077067869528417e-05,
7067
+ "loss": 0.4135,
7068
+ "step": 1005
7069
+ },
7070
+ {
7071
+ "epoch": 0.7583510011778563,
7072
+ "grad_norm": 5.9112114906311035,
7073
+ "learning_rate": 2.7911540461369222e-05,
7074
+ "loss": 0.4445,
7075
+ "step": 1006
7076
+ },
7077
+ {
7078
+ "epoch": 0.7591048292108363,
7079
+ "grad_norm": 5.9236249923706055,
7080
+ "learning_rate": 2.774642325139535e-05,
7081
+ "loss": 0.4402,
7082
+ "step": 1007
7083
+ },
7084
+ {
7085
+ "epoch": 0.7598586572438163,
7086
+ "grad_norm": 6.210232257843018,
7087
+ "learning_rate": 2.7581717179157606e-05,
7088
+ "loss": 0.4605,
7089
+ "step": 1008
7090
+ },
7091
+ {
7092
+ "epoch": 0.7606124852767963,
7093
+ "grad_norm": 5.880030155181885,
7094
+ "learning_rate": 2.7417423181867585e-05,
7095
+ "loss": 0.4227,
7096
+ "step": 1009
7097
+ },
7098
+ {
7099
+ "epoch": 0.7613663133097762,
7100
+ "grad_norm": 5.549881458282471,
7101
+ "learning_rate": 2.72535421943919e-05,
7102
+ "loss": 0.4168,
7103
+ "step": 1010
7104
+ },
7105
+ {
7106
+ "epoch": 0.7621201413427562,
7107
+ "grad_norm": 5.586158275604248,
7108
+ "learning_rate": 2.7090075149247217e-05,
7109
+ "loss": 0.4334,
7110
+ "step": 1011
7111
+ },
7112
+ {
7113
+ "epoch": 0.7628739693757361,
7114
+ "grad_norm": 5.5952348709106445,
7115
+ "learning_rate": 2.6927022976594607e-05,
7116
+ "loss": 0.4232,
7117
+ "step": 1012
7118
+ },
7119
+ {
7120
+ "epoch": 0.7636277974087161,
7121
+ "grad_norm": 5.478029727935791,
7122
+ "learning_rate": 2.676438660423457e-05,
7123
+ "loss": 0.4053,
7124
+ "step": 1013
7125
+ },
7126
+ {
7127
+ "epoch": 0.7643816254416961,
7128
+ "grad_norm": 5.441522121429443,
7129
+ "learning_rate": 2.660216695760157e-05,
7130
+ "loss": 0.3847,
7131
+ "step": 1014
7132
+ },
7133
+ {
7134
+ "epoch": 0.765135453474676,
7135
+ "grad_norm": 5.584785461425781,
7136
+ "learning_rate": 2.6440364959758813e-05,
7137
+ "loss": 0.4098,
7138
+ "step": 1015
7139
+ },
7140
+ {
7141
+ "epoch": 0.7658892815076561,
7142
+ "grad_norm": 5.545854091644287,
7143
+ "learning_rate": 2.6278981531392945e-05,
7144
+ "loss": 0.4002,
7145
+ "step": 1016
7146
+ },
7147
+ {
7148
+ "epoch": 0.7666431095406361,
7149
+ "grad_norm": 5.697778701782227,
7150
+ "learning_rate": 2.6118017590809017e-05,
7151
+ "loss": 0.4013,
7152
+ "step": 1017
7153
+ },
7154
+ {
7155
+ "epoch": 0.767396937573616,
7156
+ "grad_norm": 6.265735626220703,
7157
+ "learning_rate": 2.595747405392491e-05,
7158
+ "loss": 0.4102,
7159
+ "step": 1018
7160
+ },
7161
+ {
7162
+ "epoch": 0.768150765606596,
7163
+ "grad_norm": 5.284882545471191,
7164
+ "learning_rate": 2.579735183426649e-05,
7165
+ "loss": 0.3747,
7166
+ "step": 1019
7167
+ },
7168
+ {
7169
+ "epoch": 0.768904593639576,
7170
+ "grad_norm": 5.939345359802246,
7171
+ "learning_rate": 2.5637651842962164e-05,
7172
+ "loss": 0.4019,
7173
+ "step": 1020
7174
+ },
7175
+ {
7176
+ "epoch": 0.7696584216725559,
7177
+ "grad_norm": 5.655182838439941,
7178
+ "learning_rate": 2.5478374988737753e-05,
7179
+ "loss": 0.4038,
7180
+ "step": 1021
7181
+ },
7182
+ {
7183
+ "epoch": 0.7704122497055359,
7184
+ "grad_norm": 5.510229587554932,
7185
+ "learning_rate": 2.531952217791136e-05,
7186
+ "loss": 0.3912,
7187
+ "step": 1022
7188
+ },
7189
+ {
7190
+ "epoch": 0.7711660777385159,
7191
+ "grad_norm": 5.720643997192383,
7192
+ "learning_rate": 2.5161094314388278e-05,
7193
+ "loss": 0.3995,
7194
+ "step": 1023
7195
+ },
7196
+ {
7197
+ "epoch": 0.7719199057714958,
7198
+ "grad_norm": 5.860435962677002,
7199
+ "learning_rate": 2.5003092299655584e-05,
7200
+ "loss": 0.3995,
7201
+ "step": 1024
7202
+ },
7203
+ {
7204
+ "epoch": 0.7726737338044759,
7205
+ "grad_norm": 6.223293304443359,
7206
+ "learning_rate": 2.4845517032777364e-05,
7207
+ "loss": 0.4424,
7208
+ "step": 1025
7209
+ },
7210
+ {
7211
+ "epoch": 0.7734275618374559,
7212
+ "grad_norm": 6.027644157409668,
7213
+ "learning_rate": 2.4688369410389334e-05,
7214
+ "loss": 0.4299,
7215
+ "step": 1026
7216
+ },
7217
+ {
7218
+ "epoch": 0.7741813898704358,
7219
+ "grad_norm": 5.946674346923828,
7220
+ "learning_rate": 2.4531650326693822e-05,
7221
+ "loss": 0.3849,
7222
+ "step": 1027
7223
+ },
7224
+ {
7225
+ "epoch": 0.7749352179034158,
7226
+ "grad_norm": 6.277134895324707,
7227
+ "learning_rate": 2.4375360673454718e-05,
7228
+ "loss": 0.4147,
7229
+ "step": 1028
7230
+ },
7231
+ {
7232
+ "epoch": 0.7756890459363958,
7233
+ "grad_norm": 6.024038314819336,
7234
+ "learning_rate": 2.4219501339992334e-05,
7235
+ "loss": 0.3774,
7236
+ "step": 1029
7237
+ },
7238
+ {
7239
+ "epoch": 0.7764428739693757,
7240
+ "grad_norm": 5.8574910163879395,
7241
+ "learning_rate": 2.406407321317835e-05,
7242
+ "loss": 0.3865,
7243
+ "step": 1030
7244
+ },
7245
+ {
7246
+ "epoch": 0.7771967020023557,
7247
+ "grad_norm": 6.022578239440918,
7248
+ "learning_rate": 2.3909077177430893e-05,
7249
+ "loss": 0.3957,
7250
+ "step": 1031
7251
+ },
7252
+ {
7253
+ "epoch": 0.7779505300353357,
7254
+ "grad_norm": 5.923416614532471,
7255
+ "learning_rate": 2.3754514114709304e-05,
7256
+ "loss": 0.3836,
7257
+ "step": 1032
7258
+ },
7259
+ {
7260
+ "epoch": 0.7787043580683156,
7261
+ "grad_norm": 6.270270824432373,
7262
+ "learning_rate": 2.3600384904509254e-05,
7263
+ "loss": 0.3979,
7264
+ "step": 1033
7265
+ },
7266
+ {
7267
+ "epoch": 0.7794581861012957,
7268
+ "grad_norm": 6.285928726196289,
7269
+ "learning_rate": 2.3446690423857685e-05,
7270
+ "loss": 0.4098,
7271
+ "step": 1034
7272
+ },
7273
+ {
7274
+ "epoch": 0.7802120141342757,
7275
+ "grad_norm": 6.104770660400391,
7276
+ "learning_rate": 2.3293431547307887e-05,
7277
+ "loss": 0.3746,
7278
+ "step": 1035
7279
+ },
7280
+ {
7281
+ "epoch": 0.7809658421672556,
7282
+ "grad_norm": 6.284374237060547,
7283
+ "learning_rate": 2.31406091469344e-05,
7284
+ "loss": 0.3933,
7285
+ "step": 1036
7286
+ },
7287
+ {
7288
+ "epoch": 0.7817196702002356,
7289
+ "grad_norm": 6.502585411071777,
7290
+ "learning_rate": 2.298822409232817e-05,
7291
+ "loss": 0.3964,
7292
+ "step": 1037
7293
+ },
7294
+ {
7295
+ "epoch": 0.7824734982332155,
7296
+ "grad_norm": 6.121708869934082,
7297
+ "learning_rate": 2.2836277250591574e-05,
7298
+ "loss": 0.3822,
7299
+ "step": 1038
7300
+ },
7301
+ {
7302
+ "epoch": 0.7832273262661955,
7303
+ "grad_norm": 7.069113731384277,
7304
+ "learning_rate": 2.2684769486333445e-05,
7305
+ "loss": 0.3919,
7306
+ "step": 1039
7307
+ },
7308
+ {
7309
+ "epoch": 0.7839811542991755,
7310
+ "grad_norm": 6.825623035430908,
7311
+ "learning_rate": 2.2533701661664154e-05,
7312
+ "loss": 0.4296,
7313
+ "step": 1040
7314
+ },
7315
+ {
7316
+ "epoch": 0.7847349823321554,
7317
+ "grad_norm": 7.632999897003174,
7318
+ "learning_rate": 2.2383074636190748e-05,
7319
+ "loss": 0.4266,
7320
+ "step": 1041
7321
+ },
7322
+ {
7323
+ "epoch": 0.7854888103651354,
7324
+ "grad_norm": 7.41874885559082,
7325
+ "learning_rate": 2.2232889267012038e-05,
7326
+ "loss": 0.4263,
7327
+ "step": 1042
7328
+ },
7329
+ {
7330
+ "epoch": 0.7862426383981155,
7331
+ "grad_norm": 7.6582417488098145,
7332
+ "learning_rate": 2.2083146408713673e-05,
7333
+ "loss": 0.4351,
7334
+ "step": 1043
7335
+ },
7336
+ {
7337
+ "epoch": 0.7869964664310954,
7338
+ "grad_norm": 9.17532730102539,
7339
+ "learning_rate": 2.1933846913363466e-05,
7340
+ "loss": 0.5107,
7341
+ "step": 1044
7342
+ },
7343
+ {
7344
+ "epoch": 0.7877502944640754,
7345
+ "grad_norm": 9.609545707702637,
7346
+ "learning_rate": 2.178499163050617e-05,
7347
+ "loss": 0.4606,
7348
+ "step": 1045
7349
+ },
7350
+ {
7351
+ "epoch": 0.7885041224970554,
7352
+ "grad_norm": 9.567949295043945,
7353
+ "learning_rate": 2.1636581407159105e-05,
7354
+ "loss": 0.4663,
7355
+ "step": 1046
7356
+ },
7357
+ {
7358
+ "epoch": 0.7892579505300353,
7359
+ "grad_norm": 9.527708053588867,
7360
+ "learning_rate": 2.1488617087806982e-05,
7361
+ "loss": 0.4712,
7362
+ "step": 1047
7363
+ },
7364
+ {
7365
+ "epoch": 0.7900117785630153,
7366
+ "grad_norm": 9.680562973022461,
7367
+ "learning_rate": 2.1341099514397266e-05,
7368
+ "loss": 0.4975,
7369
+ "step": 1048
7370
+ },
7371
+ {
7372
+ "epoch": 0.7907656065959953,
7373
+ "grad_norm": 10.399216651916504,
7374
+ "learning_rate": 2.1194029526335303e-05,
7375
+ "loss": 0.4586,
7376
+ "step": 1049
7377
+ },
7378
+ {
7379
+ "epoch": 0.7915194346289752,
7380
+ "grad_norm": 10.869539260864258,
7381
+ "learning_rate": 2.1047407960479702e-05,
7382
+ "loss": 0.4429,
7383
+ "step": 1050
7384
+ },
7385
+ {
7386
+ "epoch": 0.7922732626619552,
7387
+ "grad_norm": 5.385607719421387,
7388
+ "learning_rate": 2.0901235651137284e-05,
7389
+ "loss": 0.5019,
7390
+ "step": 1051
7391
+ },
7392
+ {
7393
+ "epoch": 0.7930270906949353,
7394
+ "grad_norm": 5.6260223388671875,
7395
+ "learning_rate": 2.0755513430058672e-05,
7396
+ "loss": 0.4988,
7397
+ "step": 1052
7398
+ },
7399
+ {
7400
+ "epoch": 0.7937809187279152,
7401
+ "grad_norm": 5.487570762634277,
7402
+ "learning_rate": 2.0610242126433297e-05,
7403
+ "loss": 0.4594,
7404
+ "step": 1053
7405
+ },
7406
+ {
7407
+ "epoch": 0.7945347467608952,
7408
+ "grad_norm": 5.6461591720581055,
7409
+ "learning_rate": 2.0465422566884805e-05,
7410
+ "loss": 0.4642,
7411
+ "step": 1054
7412
+ },
7413
+ {
7414
+ "epoch": 0.7952885747938752,
7415
+ "grad_norm": 5.7345123291015625,
7416
+ "learning_rate": 2.0321055575466284e-05,
7417
+ "loss": 0.4442,
7418
+ "step": 1055
7419
+ },
7420
+ {
7421
+ "epoch": 0.7960424028268551,
7422
+ "grad_norm": 5.918202877044678,
7423
+ "learning_rate": 2.0177141973655766e-05,
7424
+ "loss": 0.4708,
7425
+ "step": 1056
7426
+ },
7427
+ {
7428
+ "epoch": 0.7967962308598351,
7429
+ "grad_norm": 5.593347549438477,
7430
+ "learning_rate": 2.0033682580351144e-05,
7431
+ "loss": 0.4277,
7432
+ "step": 1057
7433
+ },
7434
+ {
7435
+ "epoch": 0.797550058892815,
7436
+ "grad_norm": 5.557769775390625,
7437
+ "learning_rate": 1.9890678211866033e-05,
7438
+ "loss": 0.4267,
7439
+ "step": 1058
7440
+ },
7441
+ {
7442
+ "epoch": 0.798303886925795,
7443
+ "grad_norm": 5.38918924331665,
7444
+ "learning_rate": 1.9748129681924675e-05,
7445
+ "loss": 0.4112,
7446
+ "step": 1059
7447
+ },
7448
+ {
7449
+ "epoch": 0.799057714958775,
7450
+ "grad_norm": 5.82417631149292,
7451
+ "learning_rate": 1.9606037801657673e-05,
7452
+ "loss": 0.4104,
7453
+ "step": 1060
7454
+ },
7455
+ {
7456
+ "epoch": 0.799811542991755,
7457
+ "grad_norm": 5.548363208770752,
7458
+ "learning_rate": 1.9464403379596963e-05,
7459
+ "loss": 0.4127,
7460
+ "step": 1061
7461
+ },
7462
+ {
7463
+ "epoch": 0.800565371024735,
7464
+ "grad_norm": 5.548163890838623,
7465
+ "learning_rate": 1.932322722167168e-05,
7466
+ "loss": 0.4198,
7467
+ "step": 1062
7468
+ },
7469
+ {
7470
+ "epoch": 0.801319199057715,
7471
+ "grad_norm": 5.443014621734619,
7472
+ "learning_rate": 1.9182510131203224e-05,
7473
+ "loss": 0.4012,
7474
+ "step": 1063
7475
+ },
7476
+ {
7477
+ "epoch": 0.802073027090695,
7478
+ "grad_norm": 5.750105381011963,
7479
+ "learning_rate": 1.9042252908900814e-05,
7480
+ "loss": 0.4075,
7481
+ "step": 1064
7482
+ },
7483
+ {
7484
+ "epoch": 0.8028268551236749,
7485
+ "grad_norm": 5.6281418800354,
7486
+ "learning_rate": 1.8902456352856925e-05,
7487
+ "loss": 0.3896,
7488
+ "step": 1065
7489
+ },
7490
+ {
7491
+ "epoch": 0.8035806831566549,
7492
+ "grad_norm": 5.443961143493652,
7493
+ "learning_rate": 1.8763121258542815e-05,
7494
+ "loss": 0.4057,
7495
+ "step": 1066
7496
+ },
7497
+ {
7498
+ "epoch": 0.8043345111896348,
7499
+ "grad_norm": 5.808502674102783,
7500
+ "learning_rate": 1.86242484188038e-05,
7501
+ "loss": 0.4137,
7502
+ "step": 1067
7503
+ },
7504
+ {
7505
+ "epoch": 0.8050883392226148,
7506
+ "grad_norm": 5.866790294647217,
7507
+ "learning_rate": 1.848583862385501e-05,
7508
+ "loss": 0.4129,
7509
+ "step": 1068
7510
+ },
7511
+ {
7512
+ "epoch": 0.8058421672555948,
7513
+ "grad_norm": 5.517582893371582,
7514
+ "learning_rate": 1.8347892661276656e-05,
7515
+ "loss": 0.3901,
7516
+ "step": 1069
7517
+ },
7518
+ {
7519
+ "epoch": 0.8065959952885748,
7520
+ "grad_norm": 6.088197231292725,
7521
+ "learning_rate": 1.82104113160097e-05,
7522
+ "loss": 0.4125,
7523
+ "step": 1070
7524
+ },
7525
+ {
7526
+ "epoch": 0.8073498233215548,
7527
+ "grad_norm": 5.613511562347412,
7528
+ "learning_rate": 1.8073395370351287e-05,
7529
+ "loss": 0.3968,
7530
+ "step": 1071
7531
+ },
7532
+ {
7533
+ "epoch": 0.8081036513545348,
7534
+ "grad_norm": 5.712565898895264,
7535
+ "learning_rate": 1.7936845603950447e-05,
7536
+ "loss": 0.3925,
7537
+ "step": 1072
7538
+ },
7539
+ {
7540
+ "epoch": 0.8088574793875147,
7541
+ "grad_norm": 5.371545314788818,
7542
+ "learning_rate": 1.780076279380337e-05,
7543
+ "loss": 0.3589,
7544
+ "step": 1073
7545
+ },
7546
+ {
7547
+ "epoch": 0.8096113074204947,
7548
+ "grad_norm": 5.599592208862305,
7549
+ "learning_rate": 1.7665147714249376e-05,
7550
+ "loss": 0.3838,
7551
+ "step": 1074
7552
+ },
7553
+ {
7554
+ "epoch": 0.8103651354534747,
7555
+ "grad_norm": 6.015298843383789,
7556
+ "learning_rate": 1.753000113696617e-05,
7557
+ "loss": 0.386,
7558
+ "step": 1075
7559
+ },
7560
+ {
7561
+ "epoch": 0.8111189634864546,
7562
+ "grad_norm": 5.434444427490234,
7563
+ "learning_rate": 1.7395323830965605e-05,
7564
+ "loss": 0.3771,
7565
+ "step": 1076
7566
+ },
7567
+ {
7568
+ "epoch": 0.8118727915194346,
7569
+ "grad_norm": 6.145053863525391,
7570
+ "learning_rate": 1.726111656258932e-05,
7571
+ "loss": 0.4039,
7572
+ "step": 1077
7573
+ },
7574
+ {
7575
+ "epoch": 0.8126266195524146,
7576
+ "grad_norm": 5.7801384925842285,
7577
+ "learning_rate": 1.7127380095504296e-05,
7578
+ "loss": 0.3955,
7579
+ "step": 1078
7580
+ },
7581
+ {
7582
+ "epoch": 0.8133804475853946,
7583
+ "grad_norm": 5.640938758850098,
7584
+ "learning_rate": 1.699411519069858e-05,
7585
+ "loss": 0.3788,
7586
+ "step": 1079
7587
+ },
7588
+ {
7589
+ "epoch": 0.8141342756183746,
7590
+ "grad_norm": 5.714921951293945,
7591
+ "learning_rate": 1.686132260647696e-05,
7592
+ "loss": 0.3637,
7593
+ "step": 1080
7594
+ },
7595
+ {
7596
+ "epoch": 0.8148881036513546,
7597
+ "grad_norm": 6.3913750648498535,
7598
+ "learning_rate": 1.6729003098456576e-05,
7599
+ "loss": 0.3815,
7600
+ "step": 1081
7601
+ },
7602
+ {
7603
+ "epoch": 0.8156419316843345,
7604
+ "grad_norm": 5.981407642364502,
7605
+ "learning_rate": 1.6597157419562703e-05,
7606
+ "loss": 0.3756,
7607
+ "step": 1082
7608
+ },
7609
+ {
7610
+ "epoch": 0.8163957597173145,
7611
+ "grad_norm": 6.408857822418213,
7612
+ "learning_rate": 1.646578632002439e-05,
7613
+ "loss": 0.4219,
7614
+ "step": 1083
7615
+ },
7616
+ {
7617
+ "epoch": 0.8171495877502944,
7618
+ "grad_norm": 6.3557329177856445,
7619
+ "learning_rate": 1.6334890547370286e-05,
7620
+ "loss": 0.387,
7621
+ "step": 1084
7622
+ },
7623
+ {
7624
+ "epoch": 0.8179034157832744,
7625
+ "grad_norm": 6.406612873077393,
7626
+ "learning_rate": 1.6204470846424268e-05,
7627
+ "loss": 0.3736,
7628
+ "step": 1085
7629
+ },
7630
+ {
7631
+ "epoch": 0.8186572438162544,
7632
+ "grad_norm": 6.225420951843262,
7633
+ "learning_rate": 1.607452795930131e-05,
7634
+ "loss": 0.3886,
7635
+ "step": 1086
7636
+ },
7637
+ {
7638
+ "epoch": 0.8194110718492343,
7639
+ "grad_norm": 6.3113789558410645,
7640
+ "learning_rate": 1.594506262540324e-05,
7641
+ "loss": 0.402,
7642
+ "step": 1087
7643
+ },
7644
+ {
7645
+ "epoch": 0.8201648998822144,
7646
+ "grad_norm": 6.504429817199707,
7647
+ "learning_rate": 1.5816075581414458e-05,
7648
+ "loss": 0.3911,
7649
+ "step": 1088
7650
+ },
7651
+ {
7652
+ "epoch": 0.8209187279151944,
7653
+ "grad_norm": 7.651139736175537,
7654
+ "learning_rate": 1.56875675612978e-05,
7655
+ "loss": 0.4127,
7656
+ "step": 1089
7657
+ },
7658
+ {
7659
+ "epoch": 0.8216725559481743,
7660
+ "grad_norm": 6.864494800567627,
7661
+ "learning_rate": 1.5559539296290403e-05,
7662
+ "loss": 0.3841,
7663
+ "step": 1090
7664
+ },
7665
+ {
7666
+ "epoch": 0.8224263839811543,
7667
+ "grad_norm": 7.120053291320801,
7668
+ "learning_rate": 1.5431991514899446e-05,
7669
+ "loss": 0.4185,
7670
+ "step": 1091
7671
+ },
7672
+ {
7673
+ "epoch": 0.8231802120141343,
7674
+ "grad_norm": 7.861664295196533,
7675
+ "learning_rate": 1.5304924942898068e-05,
7676
+ "loss": 0.4293,
7677
+ "step": 1092
7678
+ },
7679
+ {
7680
+ "epoch": 0.8239340400471142,
7681
+ "grad_norm": 8.355661392211914,
7682
+ "learning_rate": 1.5178340303321314e-05,
7683
+ "loss": 0.4559,
7684
+ "step": 1093
7685
+ },
7686
+ {
7687
+ "epoch": 0.8246878680800942,
7688
+ "grad_norm": 8.859525680541992,
7689
+ "learning_rate": 1.5052238316461753e-05,
7690
+ "loss": 0.4503,
7691
+ "step": 1094
7692
+ },
7693
+ {
7694
+ "epoch": 0.8254416961130742,
7695
+ "grad_norm": 9.211348533630371,
7696
+ "learning_rate": 1.492661969986574e-05,
7697
+ "loss": 0.4435,
7698
+ "step": 1095
7699
+ },
7700
+ {
7701
+ "epoch": 0.8261955241460541,
7702
+ "grad_norm": 8.610541343688965,
7703
+ "learning_rate": 1.4801485168329066e-05,
7704
+ "loss": 0.4625,
7705
+ "step": 1096
7706
+ },
7707
+ {
7708
+ "epoch": 0.8269493521790342,
7709
+ "grad_norm": 10.033802032470703,
7710
+ "learning_rate": 1.4676835433892989e-05,
7711
+ "loss": 0.437,
7712
+ "step": 1097
7713
+ },
7714
+ {
7715
+ "epoch": 0.8277031802120142,
7716
+ "grad_norm": 10.607207298278809,
7717
+ "learning_rate": 1.4552671205840163e-05,
7718
+ "loss": 0.4369,
7719
+ "step": 1098
7720
+ },
7721
+ {
7722
+ "epoch": 0.8284570082449941,
7723
+ "grad_norm": 10.07897663116455,
7724
+ "learning_rate": 1.4428993190690677e-05,
7725
+ "loss": 0.4563,
7726
+ "step": 1099
7727
+ },
7728
+ {
7729
+ "epoch": 0.8292108362779741,
7730
+ "grad_norm": 12.518508911132812,
7731
+ "learning_rate": 1.4305802092197829e-05,
7732
+ "loss": 0.4645,
7733
+ "step": 1100
7734
+ },
7735
+ {
7736
+ "epoch": 0.8299646643109541,
7737
+ "grad_norm": 5.578033924102783,
7738
+ "learning_rate": 1.4183098611344415e-05,
7739
+ "loss": 0.51,
7740
+ "step": 1101
7741
+ },
7742
+ {
7743
+ "epoch": 0.830718492343934,
7744
+ "grad_norm": 5.301563739776611,
7745
+ "learning_rate": 1.4060883446338502e-05,
7746
+ "loss": 0.4486,
7747
+ "step": 1102
7748
+ },
7749
+ {
7750
+ "epoch": 0.831472320376914,
7751
+ "grad_norm": 5.3994293212890625,
7752
+ "learning_rate": 1.393915729260955e-05,
7753
+ "loss": 0.4536,
7754
+ "step": 1103
7755
+ },
7756
+ {
7757
+ "epoch": 0.832226148409894,
7758
+ "grad_norm": 5.560753345489502,
7759
+ "learning_rate": 1.3817920842804433e-05,
7760
+ "loss": 0.455,
7761
+ "step": 1104
7762
+ },
7763
+ {
7764
+ "epoch": 0.8329799764428739,
7765
+ "grad_norm": 5.810977935791016,
7766
+ "learning_rate": 1.3697174786783584e-05,
7767
+ "loss": 0.4373,
7768
+ "step": 1105
7769
+ },
7770
+ {
7771
+ "epoch": 0.833733804475854,
7772
+ "grad_norm": 5.4894256591796875,
7773
+ "learning_rate": 1.3576919811616862e-05,
7774
+ "loss": 0.4106,
7775
+ "step": 1106
7776
+ },
7777
+ {
7778
+ "epoch": 0.834487632508834,
7779
+ "grad_norm": 5.865782737731934,
7780
+ "learning_rate": 1.345715660157989e-05,
7781
+ "loss": 0.4151,
7782
+ "step": 1107
7783
+ },
7784
+ {
7785
+ "epoch": 0.8352414605418139,
7786
+ "grad_norm": 5.4949469566345215,
7787
+ "learning_rate": 1.3337885838149988e-05,
7788
+ "loss": 0.4422,
7789
+ "step": 1108
7790
+ },
7791
+ {
7792
+ "epoch": 0.8359952885747939,
7793
+ "grad_norm": 5.45637845993042,
7794
+ "learning_rate": 1.3219108200002418e-05,
7795
+ "loss": 0.4237,
7796
+ "step": 1109
7797
+ },
7798
+ {
7799
+ "epoch": 0.8367491166077738,
7800
+ "grad_norm": 5.681154251098633,
7801
+ "learning_rate": 1.3100824363006326e-05,
7802
+ "loss": 0.443,
7803
+ "step": 1110
7804
+ },
7805
+ {
7806
+ "epoch": 0.8375029446407538,
7807
+ "grad_norm": 5.729828357696533,
7808
+ "learning_rate": 1.2983035000221177e-05,
7809
+ "loss": 0.4053,
7810
+ "step": 1111
7811
+ },
7812
+ {
7813
+ "epoch": 0.8382567726737338,
7814
+ "grad_norm": 6.101329326629639,
7815
+ "learning_rate": 1.2865740781892699e-05,
7816
+ "loss": 0.4384,
7817
+ "step": 1112
7818
+ },
7819
+ {
7820
+ "epoch": 0.8390106007067137,
7821
+ "grad_norm": 5.694645881652832,
7822
+ "learning_rate": 1.2748942375449135e-05,
7823
+ "loss": 0.4013,
7824
+ "step": 1113
7825
+ },
7826
+ {
7827
+ "epoch": 0.8397644287396937,
7828
+ "grad_norm": 5.564671516418457,
7829
+ "learning_rate": 1.263264044549748e-05,
7830
+ "loss": 0.4148,
7831
+ "step": 1114
7832
+ },
7833
+ {
7834
+ "epoch": 0.8405182567726738,
7835
+ "grad_norm": 5.393068313598633,
7836
+ "learning_rate": 1.2516835653819725e-05,
7837
+ "loss": 0.3981,
7838
+ "step": 1115
7839
+ },
7840
+ {
7841
+ "epoch": 0.8412720848056537,
7842
+ "grad_norm": 5.637123107910156,
7843
+ "learning_rate": 1.2401528659368911e-05,
7844
+ "loss": 0.406,
7845
+ "step": 1116
7846
+ },
7847
+ {
7848
+ "epoch": 0.8420259128386337,
7849
+ "grad_norm": 5.908216953277588,
7850
+ "learning_rate": 1.2286720118265659e-05,
7851
+ "loss": 0.3637,
7852
+ "step": 1117
7853
+ },
7854
+ {
7855
+ "epoch": 0.8427797408716137,
7856
+ "grad_norm": 5.7352070808410645,
7857
+ "learning_rate": 1.2172410683794177e-05,
7858
+ "loss": 0.4082,
7859
+ "step": 1118
7860
+ },
7861
+ {
7862
+ "epoch": 0.8435335689045936,
7863
+ "grad_norm": 5.5727858543396,
7864
+ "learning_rate": 1.2058601006398718e-05,
7865
+ "loss": 0.3828,
7866
+ "step": 1119
7867
+ },
7868
+ {
7869
+ "epoch": 0.8442873969375736,
7870
+ "grad_norm": 6.22990608215332,
7871
+ "learning_rate": 1.1945291733679764e-05,
7872
+ "loss": 0.4306,
7873
+ "step": 1120
7874
+ },
7875
+ {
7876
+ "epoch": 0.8450412249705536,
7877
+ "grad_norm": 5.981517314910889,
7878
+ "learning_rate": 1.1832483510390469e-05,
7879
+ "loss": 0.4177,
7880
+ "step": 1121
7881
+ },
7882
+ {
7883
+ "epoch": 0.8457950530035335,
7884
+ "grad_norm": 5.5717973709106445,
7885
+ "learning_rate": 1.1720176978432795e-05,
7886
+ "loss": 0.375,
7887
+ "step": 1122
7888
+ },
7889
+ {
7890
+ "epoch": 0.8465488810365136,
7891
+ "grad_norm": 5.83533239364624,
7892
+ "learning_rate": 1.1608372776854103e-05,
7893
+ "loss": 0.4141,
7894
+ "step": 1123
7895
+ },
7896
+ {
7897
+ "epoch": 0.8473027090694936,
7898
+ "grad_norm": 5.770301342010498,
7899
+ "learning_rate": 1.1497071541843306e-05,
7900
+ "loss": 0.3698,
7901
+ "step": 1124
7902
+ },
7903
+ {
7904
+ "epoch": 0.8480565371024735,
7905
+ "grad_norm": 5.999599933624268,
7906
+ "learning_rate": 1.1386273906727363e-05,
7907
+ "loss": 0.4177,
7908
+ "step": 1125
7909
+ },
7910
+ {
7911
+ "epoch": 0.8488103651354535,
7912
+ "grad_norm": 5.716385841369629,
7913
+ "learning_rate": 1.1275980501967642e-05,
7914
+ "loss": 0.3931,
7915
+ "step": 1126
7916
+ },
7917
+ {
7918
+ "epoch": 0.8495641931684335,
7919
+ "grad_norm": 6.15166711807251,
7920
+ "learning_rate": 1.1166191955156346e-05,
7921
+ "loss": 0.4025,
7922
+ "step": 1127
7923
+ },
7924
+ {
7925
+ "epoch": 0.8503180212014134,
7926
+ "grad_norm": 6.117612361907959,
7927
+ "learning_rate": 1.1056908891012884e-05,
7928
+ "loss": 0.4186,
7929
+ "step": 1128
7930
+ },
7931
+ {
7932
+ "epoch": 0.8510718492343934,
7933
+ "grad_norm": 6.109333038330078,
7934
+ "learning_rate": 1.0948131931380457e-05,
7935
+ "loss": 0.3863,
7936
+ "step": 1129
7937
+ },
7938
+ {
7939
+ "epoch": 0.8518256772673733,
7940
+ "grad_norm": 5.863979816436768,
7941
+ "learning_rate": 1.0839861695222354e-05,
7942
+ "loss": 0.3737,
7943
+ "step": 1130
7944
+ },
7945
+ {
7946
+ "epoch": 0.8525795053003533,
7947
+ "grad_norm": 5.980686664581299,
7948
+ "learning_rate": 1.0732098798618517e-05,
7949
+ "loss": 0.3739,
7950
+ "step": 1131
7951
+ },
7952
+ {
7953
+ "epoch": 0.8533333333333334,
7954
+ "grad_norm": 6.321891784667969,
7955
+ "learning_rate": 1.0624843854762034e-05,
7956
+ "loss": 0.416,
7957
+ "step": 1132
7958
+ },
7959
+ {
7960
+ "epoch": 0.8540871613663134,
7961
+ "grad_norm": 6.081487655639648,
7962
+ "learning_rate": 1.0518097473955624e-05,
7963
+ "loss": 0.3922,
7964
+ "step": 1133
7965
+ },
7966
+ {
7967
+ "epoch": 0.8548409893992933,
7968
+ "grad_norm": 6.287003040313721,
7969
+ "learning_rate": 1.0411860263608186e-05,
7970
+ "loss": 0.3747,
7971
+ "step": 1134
7972
+ },
7973
+ {
7974
+ "epoch": 0.8555948174322733,
7975
+ "grad_norm": 6.175232887268066,
7976
+ "learning_rate": 1.0306132828231318e-05,
7977
+ "loss": 0.3708,
7978
+ "step": 1135
7979
+ },
7980
+ {
7981
+ "epoch": 0.8563486454652532,
7982
+ "grad_norm": 6.49648904800415,
7983
+ "learning_rate": 1.0200915769435937e-05,
7984
+ "loss": 0.373,
7985
+ "step": 1136
7986
+ },
7987
+ {
7988
+ "epoch": 0.8571024734982332,
7989
+ "grad_norm": 6.249892234802246,
7990
+ "learning_rate": 1.009620968592876e-05,
7991
+ "loss": 0.3807,
7992
+ "step": 1137
7993
+ },
7994
+ {
7995
+ "epoch": 0.8578563015312132,
7996
+ "grad_norm": 6.616731643676758,
7997
+ "learning_rate": 9.992015173508995e-06,
7998
+ "loss": 0.3981,
7999
+ "step": 1138
8000
+ },
8001
+ {
8002
+ "epoch": 0.8586101295641931,
8003
+ "grad_norm": 6.801102638244629,
8004
+ "learning_rate": 9.88833282506486e-06,
8005
+ "loss": 0.3968,
8006
+ "step": 1139
8007
+ },
8008
+ {
8009
+ "epoch": 0.8593639575971731,
8010
+ "grad_norm": 6.820323467254639,
8011
+ "learning_rate": 9.785163230570282e-06,
8012
+ "loss": 0.3939,
8013
+ "step": 1140
8014
+ },
8015
+ {
8016
+ "epoch": 0.8601177856301532,
8017
+ "grad_norm": 8.20490837097168,
8018
+ "learning_rate": 9.682506977081496e-06,
8019
+ "loss": 0.4353,
8020
+ "step": 1141
8021
+ },
8022
+ {
8023
+ "epoch": 0.8608716136631331,
8024
+ "grad_norm": 7.587864398956299,
8025
+ "learning_rate": 9.580364648733775e-06,
8026
+ "loss": 0.4369,
8027
+ "step": 1142
8028
+ },
8029
+ {
8030
+ "epoch": 0.8616254416961131,
8031
+ "grad_norm": 7.294688701629639,
8032
+ "learning_rate": 9.478736826737944e-06,
8033
+ "loss": 0.411,
8034
+ "step": 1143
8035
+ },
8036
+ {
8037
+ "epoch": 0.8623792697290931,
8038
+ "grad_norm": 7.802835464477539,
8039
+ "learning_rate": 9.37762408937729e-06,
8040
+ "loss": 0.424,
8041
+ "step": 1144
8042
+ },
8043
+ {
8044
+ "epoch": 0.863133097762073,
8045
+ "grad_norm": 8.21778678894043,
8046
+ "learning_rate": 9.277027012004125e-06,
8047
+ "loss": 0.4752,
8048
+ "step": 1145
8049
+ },
8050
+ {
8051
+ "epoch": 0.863886925795053,
8052
+ "grad_norm": 8.805744171142578,
8053
+ "learning_rate": 9.176946167036516e-06,
8054
+ "loss": 0.4736,
8055
+ "step": 1146
8056
+ },
8057
+ {
8058
+ "epoch": 0.864640753828033,
8059
+ "grad_norm": 10.24565601348877,
8060
+ "learning_rate": 9.07738212395508e-06,
8061
+ "loss": 0.4635,
8062
+ "step": 1147
8063
+ },
8064
+ {
8065
+ "epoch": 0.8653945818610129,
8066
+ "grad_norm": 9.218001365661621,
8067
+ "learning_rate": 8.978335449299791e-06,
8068
+ "loss": 0.4313,
8069
+ "step": 1148
8070
+ },
8071
+ {
8072
+ "epoch": 0.8661484098939929,
8073
+ "grad_norm": 10.276748657226562,
8074
+ "learning_rate": 8.87980670666655e-06,
8075
+ "loss": 0.421,
8076
+ "step": 1149
8077
+ },
8078
+ {
8079
+ "epoch": 0.866902237926973,
8080
+ "grad_norm": 11.982145309448242,
8081
+ "learning_rate": 8.781796456704262e-06,
8082
+ "loss": 0.4486,
8083
+ "step": 1150
8084
+ },
8085
+ {
8086
+ "epoch": 0.8676560659599529,
8087
+ "grad_norm": 5.365624904632568,
8088
+ "learning_rate": 8.684305257111425e-06,
8089
+ "loss": 0.5014,
8090
+ "step": 1151
8091
+ },
8092
+ {
8093
+ "epoch": 0.8684098939929329,
8094
+ "grad_norm": 5.599196910858154,
8095
+ "learning_rate": 8.587333662633035e-06,
8096
+ "loss": 0.4984,
8097
+ "step": 1152
8098
+ },
8099
+ {
8100
+ "epoch": 0.8691637220259129,
8101
+ "grad_norm": 5.679477214813232,
8102
+ "learning_rate": 8.490882225057428e-06,
8103
+ "loss": 0.5011,
8104
+ "step": 1153
8105
+ },
8106
+ {
8107
+ "epoch": 0.8699175500588928,
8108
+ "grad_norm": 5.679898738861084,
8109
+ "learning_rate": 8.39495149321322e-06,
8110
+ "loss": 0.443,
8111
+ "step": 1154
8112
+ },
8113
+ {
8114
+ "epoch": 0.8706713780918728,
8115
+ "grad_norm": 5.414709091186523,
8116
+ "learning_rate": 8.299542012965944e-06,
8117
+ "loss": 0.4269,
8118
+ "step": 1155
8119
+ },
8120
+ {
8121
+ "epoch": 0.8714252061248527,
8122
+ "grad_norm": 5.3179426193237305,
8123
+ "learning_rate": 8.204654327215267e-06,
8124
+ "loss": 0.4395,
8125
+ "step": 1156
8126
+ },
8127
+ {
8128
+ "epoch": 0.8721790341578327,
8129
+ "grad_norm": 5.2444963455200195,
8130
+ "learning_rate": 8.110288975891634e-06,
8131
+ "loss": 0.4217,
8132
+ "step": 1157
8133
+ },
8134
+ {
8135
+ "epoch": 0.8729328621908127,
8136
+ "grad_norm": 5.733283996582031,
8137
+ "learning_rate": 8.016446495953367e-06,
8138
+ "loss": 0.4395,
8139
+ "step": 1158
8140
+ },
8141
+ {
8142
+ "epoch": 0.8736866902237928,
8143
+ "grad_norm": 5.545217037200928,
8144
+ "learning_rate": 7.923127421383458e-06,
8145
+ "loss": 0.436,
8146
+ "step": 1159
8147
+ },
8148
+ {
8149
+ "epoch": 0.8744405182567727,
8150
+ "grad_norm": 5.759894371032715,
8151
+ "learning_rate": 7.830332283186714e-06,
8152
+ "loss": 0.4376,
8153
+ "step": 1160
8154
+ },
8155
+ {
8156
+ "epoch": 0.8751943462897527,
8157
+ "grad_norm": 5.31406831741333,
8158
+ "learning_rate": 7.73806160938656e-06,
8159
+ "loss": 0.4097,
8160
+ "step": 1161
8161
+ },
8162
+ {
8163
+ "epoch": 0.8759481743227326,
8164
+ "grad_norm": 5.372743129730225,
8165
+ "learning_rate": 7.646315925022152e-06,
8166
+ "loss": 0.4264,
8167
+ "step": 1162
8168
+ },
8169
+ {
8170
+ "epoch": 0.8767020023557126,
8171
+ "grad_norm": 5.223913192749023,
8172
+ "learning_rate": 7.555095752145313e-06,
8173
+ "loss": 0.3879,
8174
+ "step": 1163
8175
+ },
8176
+ {
8177
+ "epoch": 0.8774558303886926,
8178
+ "grad_norm": 5.493069171905518,
8179
+ "learning_rate": 7.4644016098176615e-06,
8180
+ "loss": 0.4099,
8181
+ "step": 1164
8182
+ },
8183
+ {
8184
+ "epoch": 0.8782096584216725,
8185
+ "grad_norm": 5.413908004760742,
8186
+ "learning_rate": 7.374234014107484e-06,
8187
+ "loss": 0.4041,
8188
+ "step": 1165
8189
+ },
8190
+ {
8191
+ "epoch": 0.8789634864546525,
8192
+ "grad_norm": 5.9703288078308105,
8193
+ "learning_rate": 7.284593478087043e-06,
8194
+ "loss": 0.4391,
8195
+ "step": 1166
8196
+ },
8197
+ {
8198
+ "epoch": 0.8797173144876325,
8199
+ "grad_norm": 6.033265590667725,
8200
+ "learning_rate": 7.195480511829411e-06,
8201
+ "loss": 0.4356,
8202
+ "step": 1167
8203
+ },
8204
+ {
8205
+ "epoch": 0.8804711425206125,
8206
+ "grad_norm": 5.589619159698486,
8207
+ "learning_rate": 7.106895622405752e-06,
8208
+ "loss": 0.4029,
8209
+ "step": 1168
8210
+ },
8211
+ {
8212
+ "epoch": 0.8812249705535925,
8213
+ "grad_norm": 5.580582141876221,
8214
+ "learning_rate": 7.018839313882286e-06,
8215
+ "loss": 0.4039,
8216
+ "step": 1169
8217
+ },
8218
+ {
8219
+ "epoch": 0.8819787985865725,
8220
+ "grad_norm": 5.605942726135254,
8221
+ "learning_rate": 6.931312087317632e-06,
8222
+ "loss": 0.3915,
8223
+ "step": 1170
8224
+ },
8225
+ {
8226
+ "epoch": 0.8827326266195524,
8227
+ "grad_norm": 5.954355239868164,
8228
+ "learning_rate": 6.844314440759647e-06,
8229
+ "loss": 0.4119,
8230
+ "step": 1171
8231
+ },
8232
+ {
8233
+ "epoch": 0.8834864546525324,
8234
+ "grad_norm": 5.943442344665527,
8235
+ "learning_rate": 6.7578468692429345e-06,
8236
+ "loss": 0.4227,
8237
+ "step": 1172
8238
+ },
8239
+ {
8240
+ "epoch": 0.8842402826855124,
8241
+ "grad_norm": 6.070568561553955,
8242
+ "learning_rate": 6.6719098647857525e-06,
8243
+ "loss": 0.3824,
8244
+ "step": 1173
8245
+ },
8246
+ {
8247
+ "epoch": 0.8849941107184923,
8248
+ "grad_norm": 5.827738285064697,
8249
+ "learning_rate": 6.586503916387366e-06,
8250
+ "loss": 0.4358,
8251
+ "step": 1174
8252
+ },
8253
+ {
8254
+ "epoch": 0.8857479387514723,
8255
+ "grad_norm": 5.9503655433654785,
8256
+ "learning_rate": 6.501629510025231e-06,
8257
+ "loss": 0.3862,
8258
+ "step": 1175
8259
+ },
8260
+ {
8261
+ "epoch": 0.8865017667844522,
8262
+ "grad_norm": 5.86431360244751,
8263
+ "learning_rate": 6.417287128652172e-06,
8264
+ "loss": 0.3849,
8265
+ "step": 1176
8266
+ },
8267
+ {
8268
+ "epoch": 0.8872555948174323,
8269
+ "grad_norm": 5.833621978759766,
8270
+ "learning_rate": 6.333477252193731e-06,
8271
+ "loss": 0.3935,
8272
+ "step": 1177
8273
+ },
8274
+ {
8275
+ "epoch": 0.8880094228504123,
8276
+ "grad_norm": 6.094554901123047,
8277
+ "learning_rate": 6.250200357545377e-06,
8278
+ "loss": 0.3911,
8279
+ "step": 1178
8280
+ },
8281
+ {
8282
+ "epoch": 0.8887632508833923,
8283
+ "grad_norm": 5.814612865447998,
8284
+ "learning_rate": 6.167456918569792e-06,
8285
+ "loss": 0.3738,
8286
+ "step": 1179
8287
+ },
8288
+ {
8289
+ "epoch": 0.8895170789163722,
8290
+ "grad_norm": 6.395360946655273,
8291
+ "learning_rate": 6.085247406094197e-06,
8292
+ "loss": 0.3692,
8293
+ "step": 1180
8294
+ },
8295
+ {
8296
+ "epoch": 0.8902709069493522,
8297
+ "grad_norm": 5.914385795593262,
8298
+ "learning_rate": 6.003572287907633e-06,
8299
+ "loss": 0.4008,
8300
+ "step": 1181
8301
+ },
8302
+ {
8303
+ "epoch": 0.8910247349823321,
8304
+ "grad_norm": 6.416135787963867,
8305
+ "learning_rate": 5.922432028758362e-06,
8306
+ "loss": 0.3997,
8307
+ "step": 1182
8308
+ },
8309
+ {
8310
+ "epoch": 0.8917785630153121,
8311
+ "grad_norm": 5.680757522583008,
8312
+ "learning_rate": 5.841827090351171e-06,
8313
+ "loss": 0.347,
8314
+ "step": 1183
8315
+ },
8316
+ {
8317
+ "epoch": 0.8925323910482921,
8318
+ "grad_norm": 5.837109088897705,
8319
+ "learning_rate": 5.761757931344758e-06,
8320
+ "loss": 0.3623,
8321
+ "step": 1184
8322
+ },
8323
+ {
8324
+ "epoch": 0.893286219081272,
8325
+ "grad_norm": 5.914787769317627,
8326
+ "learning_rate": 5.68222500734914e-06,
8327
+ "loss": 0.3632,
8328
+ "step": 1185
8329
+ },
8330
+ {
8331
+ "epoch": 0.8940400471142521,
8332
+ "grad_norm": 6.179137229919434,
8333
+ "learning_rate": 5.603228770923041e-06,
8334
+ "loss": 0.3864,
8335
+ "step": 1186
8336
+ },
8337
+ {
8338
+ "epoch": 0.8947938751472321,
8339
+ "grad_norm": 5.854869365692139,
8340
+ "learning_rate": 5.524769671571317e-06,
8341
+ "loss": 0.3318,
8342
+ "step": 1187
8343
+ },
8344
+ {
8345
+ "epoch": 0.895547703180212,
8346
+ "grad_norm": 6.880571365356445,
8347
+ "learning_rate": 5.446848155742401e-06,
8348
+ "loss": 0.4063,
8349
+ "step": 1188
8350
+ },
8351
+ {
8352
+ "epoch": 0.896301531213192,
8353
+ "grad_norm": 6.602806568145752,
8354
+ "learning_rate": 5.3694646668257855e-06,
8355
+ "loss": 0.3698,
8356
+ "step": 1189
8357
+ },
8358
+ {
8359
+ "epoch": 0.897055359246172,
8360
+ "grad_norm": 7.17775821685791,
8361
+ "learning_rate": 5.292619645149433e-06,
8362
+ "loss": 0.4266,
8363
+ "step": 1190
8364
+ },
8365
+ {
8366
+ "epoch": 0.8978091872791519,
8367
+ "grad_norm": 7.022253036499023,
8368
+ "learning_rate": 5.2163135279773904e-06,
8369
+ "loss": 0.3885,
8370
+ "step": 1191
8371
+ },
8372
+ {
8373
+ "epoch": 0.8985630153121319,
8374
+ "grad_norm": 7.834957599639893,
8375
+ "learning_rate": 5.140546749507136e-06,
8376
+ "loss": 0.4484,
8377
+ "step": 1192
8378
+ },
8379
+ {
8380
+ "epoch": 0.8993168433451119,
8381
+ "grad_norm": 8.505350112915039,
8382
+ "learning_rate": 5.06531974086728e-06,
8383
+ "loss": 0.4535,
8384
+ "step": 1193
8385
+ },
8386
+ {
8387
+ "epoch": 0.9000706713780918,
8388
+ "grad_norm": 8.074254035949707,
8389
+ "learning_rate": 4.9906329301149914e-06,
8390
+ "loss": 0.4528,
8391
+ "step": 1194
8392
+ },
8393
+ {
8394
+ "epoch": 0.9008244994110719,
8395
+ "grad_norm": 8.195548057556152,
8396
+ "learning_rate": 4.916486742233606e-06,
8397
+ "loss": 0.447,
8398
+ "step": 1195
8399
+ },
8400
+ {
8401
+ "epoch": 0.9015783274440519,
8402
+ "grad_norm": 9.020340919494629,
8403
+ "learning_rate": 4.8428815991302005e-06,
8404
+ "loss": 0.4507,
8405
+ "step": 1196
8406
+ },
8407
+ {
8408
+ "epoch": 0.9023321554770318,
8409
+ "grad_norm": 9.480902671813965,
8410
+ "learning_rate": 4.769817919633235e-06,
8411
+ "loss": 0.4905,
8412
+ "step": 1197
8413
+ },
8414
+ {
8415
+ "epoch": 0.9030859835100118,
8416
+ "grad_norm": 9.953953742980957,
8417
+ "learning_rate": 4.697296119490047e-06,
8418
+ "loss": 0.4291,
8419
+ "step": 1198
8420
+ },
8421
+ {
8422
+ "epoch": 0.9038398115429918,
8423
+ "grad_norm": 9.974310874938965,
8424
+ "learning_rate": 4.625316611364661e-06,
8425
+ "loss": 0.4283,
8426
+ "step": 1199
8427
+ },
8428
+ {
8429
+ "epoch": 0.9045936395759717,
8430
+ "grad_norm": 12.497854232788086,
8431
+ "learning_rate": 4.553879804835282e-06,
8432
+ "loss": 0.4614,
8433
+ "step": 1200
8434
+ },
8435
+ {
8436
+ "epoch": 0.9053474676089517,
8437
+ "grad_norm": 4.8798136711120605,
8438
+ "learning_rate": 4.482986106392073e-06,
8439
+ "loss": 0.4771,
8440
+ "step": 1201
8441
+ },
8442
+ {
8443
+ "epoch": 0.9061012956419316,
8444
+ "grad_norm": 4.956184387207031,
8445
+ "learning_rate": 4.412635919434749e-06,
8446
+ "loss": 0.4444,
8447
+ "step": 1202
8448
+ },
8449
+ {
8450
+ "epoch": 0.9068551236749116,
8451
+ "grad_norm": 5.346173286437988,
8452
+ "learning_rate": 4.342829644270429e-06,
8453
+ "loss": 0.4442,
8454
+ "step": 1203
8455
+ },
8456
+ {
8457
+ "epoch": 0.9076089517078917,
8458
+ "grad_norm": 5.293701648712158,
8459
+ "learning_rate": 4.273567678111123e-06,
8460
+ "loss": 0.4614,
8461
+ "step": 1204
8462
+ },
8463
+ {
8464
+ "epoch": 0.9083627797408717,
8465
+ "grad_norm": 5.237243175506592,
8466
+ "learning_rate": 4.204850415071748e-06,
8467
+ "loss": 0.4512,
8468
+ "step": 1205
8469
+ },
8470
+ {
8471
+ "epoch": 0.9091166077738516,
8472
+ "grad_norm": 5.3798604011535645,
8473
+ "learning_rate": 4.136678246167636e-06,
8474
+ "loss": 0.4286,
8475
+ "step": 1206
8476
+ },
8477
+ {
8478
+ "epoch": 0.9098704358068316,
8479
+ "grad_norm": 5.367835998535156,
8480
+ "learning_rate": 4.069051559312531e-06,
8481
+ "loss": 0.4139,
8482
+ "step": 1207
8483
+ },
8484
+ {
8485
+ "epoch": 0.9106242638398115,
8486
+ "grad_norm": 5.50463342666626,
8487
+ "learning_rate": 4.001970739316163e-06,
8488
+ "loss": 0.4407,
8489
+ "step": 1208
8490
+ },
8491
+ {
8492
+ "epoch": 0.9113780918727915,
8493
+ "grad_norm": 5.295793056488037,
8494
+ "learning_rate": 3.935436167882234e-06,
8495
+ "loss": 0.418,
8496
+ "step": 1209
8497
+ },
8498
+ {
8499
+ "epoch": 0.9121319199057715,
8500
+ "grad_norm": 5.284564018249512,
8501
+ "learning_rate": 3.869448223606165e-06,
8502
+ "loss": 0.4096,
8503
+ "step": 1210
8504
+ },
8505
+ {
8506
+ "epoch": 0.9128857479387514,
8507
+ "grad_norm": 5.553956031799316,
8508
+ "learning_rate": 3.8040072819729545e-06,
8509
+ "loss": 0.4141,
8510
+ "step": 1211
8511
+ },
8512
+ {
8513
+ "epoch": 0.9136395759717314,
8514
+ "grad_norm": 5.626007080078125,
8515
+ "learning_rate": 3.7391137153550137e-06,
8516
+ "loss": 0.4138,
8517
+ "step": 1212
8518
+ },
8519
+ {
8520
+ "epoch": 0.9143934040047115,
8521
+ "grad_norm": 5.603013038635254,
8522
+ "learning_rate": 3.6747678930101558e-06,
8523
+ "loss": 0.4148,
8524
+ "step": 1213
8525
+ },
8526
+ {
8527
+ "epoch": 0.9151472320376914,
8528
+ "grad_norm": 5.539734363555908,
8529
+ "learning_rate": 3.6109701810793208e-06,
8530
+ "loss": 0.4181,
8531
+ "step": 1214
8532
+ },
8533
+ {
8534
+ "epoch": 0.9159010600706714,
8535
+ "grad_norm": 5.379584789276123,
8536
+ "learning_rate": 3.5477209425846538e-06,
8537
+ "loss": 0.4015,
8538
+ "step": 1215
8539
+ },
8540
+ {
8541
+ "epoch": 0.9166548881036514,
8542
+ "grad_norm": 5.433023929595947,
8543
+ "learning_rate": 3.4850205374273416e-06,
8544
+ "loss": 0.398,
8545
+ "step": 1216
8546
+ },
8547
+ {
8548
+ "epoch": 0.9174087161366313,
8549
+ "grad_norm": 5.5849199295043945,
8550
+ "learning_rate": 3.4228693223856136e-06,
8551
+ "loss": 0.4165,
8552
+ "step": 1217
8553
+ },
8554
+ {
8555
+ "epoch": 0.9181625441696113,
8556
+ "grad_norm": 5.703511714935303,
8557
+ "learning_rate": 3.361267651112676e-06,
8558
+ "loss": 0.422,
8559
+ "step": 1218
8560
+ },
8561
+ {
8562
+ "epoch": 0.9189163722025913,
8563
+ "grad_norm": 5.733764171600342,
8564
+ "learning_rate": 3.30021587413476e-06,
8565
+ "loss": 0.4017,
8566
+ "step": 1219
8567
+ },
8568
+ {
8569
+ "epoch": 0.9196702002355712,
8570
+ "grad_norm": 5.802048206329346,
8571
+ "learning_rate": 3.2397143388489983e-06,
8572
+ "loss": 0.3935,
8573
+ "step": 1220
8574
+ },
8575
+ {
8576
+ "epoch": 0.9204240282685512,
8577
+ "grad_norm": 5.458968639373779,
8578
+ "learning_rate": 3.1797633895216394e-06,
8579
+ "loss": 0.3783,
8580
+ "step": 1221
8581
+ },
8582
+ {
8583
+ "epoch": 0.9211778563015313,
8584
+ "grad_norm": 5.353023052215576,
8585
+ "learning_rate": 3.120363367285917e-06,
8586
+ "loss": 0.3788,
8587
+ "step": 1222
8588
+ },
8589
+ {
8590
+ "epoch": 0.9219316843345112,
8591
+ "grad_norm": 5.518474578857422,
8592
+ "learning_rate": 3.0615146101401925e-06,
8593
+ "loss": 0.3944,
8594
+ "step": 1223
8595
+ },
8596
+ {
8597
+ "epoch": 0.9226855123674912,
8598
+ "grad_norm": 5.713134765625,
8599
+ "learning_rate": 3.0032174529460165e-06,
8600
+ "loss": 0.3953,
8601
+ "step": 1224
8602
+ },
8603
+ {
8604
+ "epoch": 0.9234393404004712,
8605
+ "grad_norm": 6.142655372619629,
8606
+ "learning_rate": 2.945472227426227e-06,
8607
+ "loss": 0.4168,
8608
+ "step": 1225
8609
+ },
8610
+ {
8611
+ "epoch": 0.9241931684334511,
8612
+ "grad_norm": 5.580604553222656,
8613
+ "learning_rate": 2.8882792621630406e-06,
8614
+ "loss": 0.3642,
8615
+ "step": 1226
8616
+ },
8617
+ {
8618
+ "epoch": 0.9249469964664311,
8619
+ "grad_norm": 5.7619757652282715,
8620
+ "learning_rate": 2.8316388825962324e-06,
8621
+ "loss": 0.3708,
8622
+ "step": 1227
8623
+ },
8624
+ {
8625
+ "epoch": 0.925700824499411,
8626
+ "grad_norm": 6.232563018798828,
8627
+ "learning_rate": 2.7755514110212264e-06,
8628
+ "loss": 0.4063,
8629
+ "step": 1228
8630
+ },
8631
+ {
8632
+ "epoch": 0.926454652532391,
8633
+ "grad_norm": 5.895346164703369,
8634
+ "learning_rate": 2.7200171665872742e-06,
8635
+ "loss": 0.399,
8636
+ "step": 1229
8637
+ },
8638
+ {
8639
+ "epoch": 0.927208480565371,
8640
+ "grad_norm": 5.760490894317627,
8641
+ "learning_rate": 2.6650364652956894e-06,
8642
+ "loss": 0.3785,
8643
+ "step": 1230
8644
+ },
8645
+ {
8646
+ "epoch": 0.927962308598351,
8647
+ "grad_norm": 5.620173454284668,
8648
+ "learning_rate": 2.6106096199979614e-06,
8649
+ "loss": 0.3564,
8650
+ "step": 1231
8651
+ },
8652
+ {
8653
+ "epoch": 0.928716136631331,
8654
+ "grad_norm": 5.84246826171875,
8655
+ "learning_rate": 2.5567369403940776e-06,
8656
+ "loss": 0.3575,
8657
+ "step": 1232
8658
+ },
8659
+ {
8660
+ "epoch": 0.929469964664311,
8661
+ "grad_norm": 5.908325672149658,
8662
+ "learning_rate": 2.50341873303066e-06,
8663
+ "loss": 0.384,
8664
+ "step": 1233
8665
+ },
8666
+ {
8667
+ "epoch": 0.9302237926972909,
8668
+ "grad_norm": 5.850981712341309,
8669
+ "learning_rate": 2.4506553012993093e-06,
8670
+ "loss": 0.3704,
8671
+ "step": 1234
8672
+ },
8673
+ {
8674
+ "epoch": 0.9309776207302709,
8675
+ "grad_norm": 6.301943778991699,
8676
+ "learning_rate": 2.398446945434818e-06,
8677
+ "loss": 0.385,
8678
+ "step": 1235
8679
+ },
8680
+ {
8681
+ "epoch": 0.9317314487632509,
8682
+ "grad_norm": 6.557477951049805,
8683
+ "learning_rate": 2.346793962513483e-06,
8684
+ "loss": 0.3607,
8685
+ "step": 1236
8686
+ },
8687
+ {
8688
+ "epoch": 0.9324852767962308,
8689
+ "grad_norm": 6.442347049713135,
8690
+ "learning_rate": 2.2956966464514175e-06,
8691
+ "loss": 0.3829,
8692
+ "step": 1237
8693
+ },
8694
+ {
8695
+ "epoch": 0.9332391048292108,
8696
+ "grad_norm": 7.224841594696045,
8697
+ "learning_rate": 2.245155288002876e-06,
8698
+ "loss": 0.3964,
8699
+ "step": 1238
8700
+ },
8701
+ {
8702
+ "epoch": 0.9339929328621908,
8703
+ "grad_norm": 7.129518032073975,
8704
+ "learning_rate": 2.1951701747585982e-06,
8705
+ "loss": 0.3682,
8706
+ "step": 1239
8707
+ },
8708
+ {
8709
+ "epoch": 0.9347467608951708,
8710
+ "grad_norm": 6.685035228729248,
8711
+ "learning_rate": 2.1457415911442013e-06,
8712
+ "loss": 0.4049,
8713
+ "step": 1240
8714
+ },
8715
+ {
8716
+ "epoch": 0.9355005889281508,
8717
+ "grad_norm": 7.421708583831787,
8718
+ "learning_rate": 2.0968698184184565e-06,
8719
+ "loss": 0.4029,
8720
+ "step": 1241
8721
+ },
8722
+ {
8723
+ "epoch": 0.9362544169611308,
8724
+ "grad_norm": 7.260560989379883,
8725
+ "learning_rate": 2.04855513467187e-06,
8726
+ "loss": 0.4232,
8727
+ "step": 1242
8728
+ },
8729
+ {
8730
+ "epoch": 0.9370082449941107,
8731
+ "grad_norm": 8.069437980651855,
8732
+ "learning_rate": 2.000797814824906e-06,
8733
+ "loss": 0.4409,
8734
+ "step": 1243
8735
+ },
8736
+ {
8737
+ "epoch": 0.9377620730270907,
8738
+ "grad_norm": 7.945827960968018,
8739
+ "learning_rate": 1.9535981306265884e-06,
8740
+ "loss": 0.4244,
8741
+ "step": 1244
8742
+ },
8743
+ {
8744
+ "epoch": 0.9385159010600707,
8745
+ "grad_norm": 8.818882942199707,
8746
+ "learning_rate": 1.9069563506527998e-06,
8747
+ "loss": 0.4722,
8748
+ "step": 1245
8749
+ },
8750
+ {
8751
+ "epoch": 0.9392697290930506,
8752
+ "grad_norm": 8.6805419921875,
8753
+ "learning_rate": 1.8608727403049309e-06,
8754
+ "loss": 0.4574,
8755
+ "step": 1246
8756
+ },
8757
+ {
8758
+ "epoch": 0.9400235571260306,
8759
+ "grad_norm": 8.550375938415527,
8760
+ "learning_rate": 1.8153475618081673e-06,
8761
+ "loss": 0.4289,
8762
+ "step": 1247
8763
+ },
8764
+ {
8765
+ "epoch": 0.9407773851590105,
8766
+ "grad_norm": 9.816337585449219,
8767
+ "learning_rate": 1.7703810742101813e-06,
8768
+ "loss": 0.4884,
8769
+ "step": 1248
8770
+ },
8771
+ {
8772
+ "epoch": 0.9415312131919906,
8773
+ "grad_norm": 9.228532791137695,
8774
+ "learning_rate": 1.7259735333795545e-06,
8775
+ "loss": 0.4282,
8776
+ "step": 1249
8777
+ },
8778
+ {
8779
+ "epoch": 0.9422850412249706,
8780
+ "grad_norm": 12.300414085388184,
8781
+ "learning_rate": 1.6821251920043246e-06,
8782
+ "loss": 0.4527,
8783
+ "step": 1250
8784
+ },
8785
+ {
8786
+ "epoch": 0.9430388692579506,
8787
+ "grad_norm": 5.250865459442139,
8788
+ "learning_rate": 1.6388362995905848e-06,
8789
+ "loss": 0.509,
8790
+ "step": 1251
8791
+ },
8792
+ {
8793
+ "epoch": 0.9437926972909305,
8794
+ "grad_norm": 5.213113307952881,
8795
+ "learning_rate": 1.5961071024610752e-06,
8796
+ "loss": 0.4615,
8797
+ "step": 1252
8798
+ },
8799
+ {
8800
+ "epoch": 0.9445465253239105,
8801
+ "grad_norm": 5.200348377227783,
8802
+ "learning_rate": 1.5539378437536944e-06,
8803
+ "loss": 0.4463,
8804
+ "step": 1253
8805
+ },
8806
+ {
8807
+ "epoch": 0.9453003533568904,
8808
+ "grad_norm": 5.2860941886901855,
8809
+ "learning_rate": 1.5123287634202454e-06,
8810
+ "loss": 0.4441,
8811
+ "step": 1254
8812
+ },
8813
+ {
8814
+ "epoch": 0.9460541813898704,
8815
+ "grad_norm": 5.183274269104004,
8816
+ "learning_rate": 1.4712800982249474e-06,
8817
+ "loss": 0.4292,
8818
+ "step": 1255
8819
+ },
8820
+ {
8821
+ "epoch": 0.9468080094228504,
8822
+ "grad_norm": 5.593634605407715,
8823
+ "learning_rate": 1.430792081743182e-06,
8824
+ "loss": 0.4589,
8825
+ "step": 1256
8826
+ },
8827
+ {
8828
+ "epoch": 0.9475618374558303,
8829
+ "grad_norm": 5.3267388343811035,
8830
+ "learning_rate": 1.3908649443600707e-06,
8831
+ "loss": 0.4336,
8832
+ "step": 1257
8833
+ },
8834
+ {
8835
+ "epoch": 0.9483156654888104,
8836
+ "grad_norm": 5.741166114807129,
8837
+ "learning_rate": 1.351498913269289e-06,
8838
+ "loss": 0.4008,
8839
+ "step": 1258
8840
+ },
8841
+ {
8842
+ "epoch": 0.9490694935217904,
8843
+ "grad_norm": 5.336604118347168,
8844
+ "learning_rate": 1.3126942124716213e-06,
8845
+ "loss": 0.4218,
8846
+ "step": 1259
8847
+ },
8848
+ {
8849
+ "epoch": 0.9498233215547703,
8850
+ "grad_norm": 5.611804962158203,
8851
+ "learning_rate": 1.2744510627738516e-06,
8852
+ "loss": 0.4434,
8853
+ "step": 1260
8854
+ },
8855
+ {
8856
+ "epoch": 0.9505771495877503,
8857
+ "grad_norm": 5.724870204925537,
8858
+ "learning_rate": 1.2367696817873419e-06,
8859
+ "loss": 0.4227,
8860
+ "step": 1261
8861
+ },
8862
+ {
8863
+ "epoch": 0.9513309776207303,
8864
+ "grad_norm": 5.307777404785156,
8865
+ "learning_rate": 1.1996502839269453e-06,
8866
+ "loss": 0.4002,
8867
+ "step": 1262
8868
+ },
8869
+ {
8870
+ "epoch": 0.9520848056537102,
8871
+ "grad_norm": 5.79971170425415,
8872
+ "learning_rate": 1.1630930804096495e-06,
8873
+ "loss": 0.405,
8874
+ "step": 1263
8875
+ },
8876
+ {
8877
+ "epoch": 0.9528386336866902,
8878
+ "grad_norm": 5.324243068695068,
8879
+ "learning_rate": 1.127098279253491e-06,
8880
+ "loss": 0.4043,
8881
+ "step": 1264
8882
+ },
8883
+ {
8884
+ "epoch": 0.9535924617196702,
8885
+ "grad_norm": 5.532378673553467,
8886
+ "learning_rate": 1.0916660852763216e-06,
8887
+ "loss": 0.4068,
8888
+ "step": 1265
8889
+ },
8890
+ {
8891
+ "epoch": 0.9543462897526501,
8892
+ "grad_norm": 5.695662021636963,
8893
+ "learning_rate": 1.0567967000945866e-06,
8894
+ "loss": 0.4286,
8895
+ "step": 1266
8896
+ },
8897
+ {
8898
+ "epoch": 0.9551001177856302,
8899
+ "grad_norm": 5.8561482429504395,
8900
+ "learning_rate": 1.0224903221222938e-06,
8901
+ "loss": 0.4249,
8902
+ "step": 1267
8903
+ },
8904
+ {
8905
+ "epoch": 0.9558539458186102,
8906
+ "grad_norm": 5.72511625289917,
8907
+ "learning_rate": 9.88747146569813e-07,
8908
+ "loss": 0.4021,
8909
+ "step": 1268
8910
+ },
8911
+ {
8912
+ "epoch": 0.9566077738515901,
8913
+ "grad_norm": 5.385478973388672,
8914
+ "learning_rate": 9.555673654427332e-07,
8915
+ "loss": 0.3788,
8916
+ "step": 1269
8917
+ },
8918
+ {
8919
+ "epoch": 0.9573616018845701,
8920
+ "grad_norm": 5.669264316558838,
8921
+ "learning_rate": 9.229511675408642e-07,
8922
+ "loss": 0.4148,
8923
+ "step": 1270
8924
+ },
8925
+ {
8926
+ "epoch": 0.95811542991755,
8927
+ "grad_norm": 5.313277244567871,
8928
+ "learning_rate": 8.90898738457091e-07,
8929
+ "loss": 0.3641,
8930
+ "step": 1271
8931
+ },
8932
+ {
8933
+ "epoch": 0.95886925795053,
8934
+ "grad_norm": 5.480482578277588,
8935
+ "learning_rate": 8.59410260576321e-07,
8936
+ "loss": 0.3971,
8937
+ "step": 1272
8938
+ },
8939
+ {
8940
+ "epoch": 0.95962308598351,
8941
+ "grad_norm": 5.8209757804870605,
8942
+ "learning_rate": 8.28485913074506e-07,
8943
+ "loss": 0.3919,
8944
+ "step": 1273
8945
+ },
8946
+ {
8947
+ "epoch": 0.96037691401649,
8948
+ "grad_norm": 5.919877052307129,
8949
+ "learning_rate": 7.981258719175322e-07,
8950
+ "loss": 0.3863,
8951
+ "step": 1274
8952
+ },
8953
+ {
8954
+ "epoch": 0.9611307420494699,
8955
+ "grad_norm": 5.9404144287109375,
8956
+ "learning_rate": 7.683303098602989e-07,
8957
+ "loss": 0.4059,
8958
+ "step": 1275
8959
+ },
8960
+ {
8961
+ "epoch": 0.96188457008245,
8962
+ "grad_norm": 5.609850883483887,
8963
+ "learning_rate": 7.39099396445686e-07,
8964
+ "loss": 0.3697,
8965
+ "step": 1276
8966
+ },
8967
+ {
8968
+ "epoch": 0.96263839811543,
8969
+ "grad_norm": 5.695891857147217,
8970
+ "learning_rate": 7.104332980036211e-07,
8971
+ "loss": 0.3917,
8972
+ "step": 1277
8973
+ },
8974
+ {
8975
+ "epoch": 0.9633922261484099,
8976
+ "grad_norm": 5.932850360870361,
8977
+ "learning_rate": 6.823321776501024e-07,
8978
+ "loss": 0.415,
8979
+ "step": 1278
8980
+ },
8981
+ {
8982
+ "epoch": 0.9641460541813899,
8983
+ "grad_norm": 6.023778438568115,
8984
+ "learning_rate": 6.547961952863002e-07,
8985
+ "loss": 0.3817,
8986
+ "step": 1279
8987
+ },
8988
+ {
8989
+ "epoch": 0.9648998822143698,
8990
+ "grad_norm": 5.926705360412598,
8991
+ "learning_rate": 6.278255075976125e-07,
8992
+ "loss": 0.3884,
8993
+ "step": 1280
8994
+ },
8995
+ {
8996
+ "epoch": 0.9656537102473498,
8997
+ "grad_norm": 5.837738513946533,
8998
+ "learning_rate": 6.014202680528324e-07,
8999
+ "loss": 0.3598,
9000
+ "step": 1281
9001
+ },
9002
+ {
9003
+ "epoch": 0.9664075382803298,
9004
+ "grad_norm": 6.178413391113281,
9005
+ "learning_rate": 5.755806269031827e-07,
9006
+ "loss": 0.3917,
9007
+ "step": 1282
9008
+ },
9009
+ {
9010
+ "epoch": 0.9671613663133097,
9011
+ "grad_norm": 6.282332897186279,
9012
+ "learning_rate": 5.503067311815713e-07,
9013
+ "loss": 0.4286,
9014
+ "step": 1283
9015
+ },
9016
+ {
9017
+ "epoch": 0.9679151943462897,
9018
+ "grad_norm": 6.746578216552734,
9019
+ "learning_rate": 5.255987247016591e-07,
9020
+ "loss": 0.4118,
9021
+ "step": 1284
9022
+ },
9023
+ {
9024
+ "epoch": 0.9686690223792698,
9025
+ "grad_norm": 6.075422763824463,
9026
+ "learning_rate": 5.014567480570831e-07,
9027
+ "loss": 0.3829,
9028
+ "step": 1285
9029
+ },
9030
+ {
9031
+ "epoch": 0.9694228504122497,
9032
+ "grad_norm": 6.149974346160889,
9033
+ "learning_rate": 4.778809386206895e-07,
9034
+ "loss": 0.3847,
9035
+ "step": 1286
9036
+ },
9037
+ {
9038
+ "epoch": 0.9701766784452297,
9039
+ "grad_norm": 6.333911418914795,
9040
+ "learning_rate": 4.548714305436685e-07,
9041
+ "loss": 0.3638,
9042
+ "step": 1287
9043
+ },
9044
+ {
9045
+ "epoch": 0.9709305064782097,
9046
+ "grad_norm": 6.391441345214844,
9047
+ "learning_rate": 4.324283547548658e-07,
9048
+ "loss": 0.3893,
9049
+ "step": 1288
9050
+ },
9051
+ {
9052
+ "epoch": 0.9716843345111896,
9053
+ "grad_norm": 6.624934196472168,
9054
+ "learning_rate": 4.1055183896001606e-07,
9055
+ "loss": 0.378,
9056
+ "step": 1289
9057
+ },
9058
+ {
9059
+ "epoch": 0.9724381625441696,
9060
+ "grad_norm": 6.473977565765381,
9061
+ "learning_rate": 3.892420076409886e-07,
9062
+ "loss": 0.366,
9063
+ "step": 1290
9064
+ },
9065
+ {
9066
+ "epoch": 0.9731919905771496,
9067
+ "grad_norm": 6.985432147979736,
9068
+ "learning_rate": 3.68498982055121e-07,
9069
+ "loss": 0.4335,
9070
+ "step": 1291
9071
+ },
9072
+ {
9073
+ "epoch": 0.9739458186101295,
9074
+ "grad_norm": 7.089210510253906,
9075
+ "learning_rate": 3.483228802344973e-07,
9076
+ "loss": 0.4066,
9077
+ "step": 1292
9078
+ },
9079
+ {
9080
+ "epoch": 0.9746996466431095,
9081
+ "grad_norm": 7.46934175491333,
9082
+ "learning_rate": 3.2871381698529324e-07,
9083
+ "loss": 0.4253,
9084
+ "step": 1293
9085
+ },
9086
+ {
9087
+ "epoch": 0.9754534746760896,
9088
+ "grad_norm": 8.461312294006348,
9089
+ "learning_rate": 3.0967190388712097e-07,
9090
+ "loss": 0.4596,
9091
+ "step": 1294
9092
+ },
9093
+ {
9094
+ "epoch": 0.9762073027090695,
9095
+ "grad_norm": 8.289325714111328,
9096
+ "learning_rate": 2.9119724929239645e-07,
9097
+ "loss": 0.4382,
9098
+ "step": 1295
9099
+ },
9100
+ {
9101
+ "epoch": 0.9769611307420495,
9102
+ "grad_norm": 8.890064239501953,
9103
+ "learning_rate": 2.7328995832568426e-07,
9104
+ "loss": 0.4469,
9105
+ "step": 1296
9106
+ },
9107
+ {
9108
+ "epoch": 0.9777149587750295,
9109
+ "grad_norm": 8.737083435058594,
9110
+ "learning_rate": 2.5595013288318703e-07,
9111
+ "loss": 0.4262,
9112
+ "step": 1297
9113
+ },
9114
+ {
9115
+ "epoch": 0.9784687868080094,
9116
+ "grad_norm": 9.281461715698242,
9117
+ "learning_rate": 2.391778716320792e-07,
9118
+ "loss": 0.4036,
9119
+ "step": 1298
9120
+ },
9121
+ {
9122
+ "epoch": 0.9792226148409894,
9123
+ "grad_norm": 9.91952896118164,
9124
+ "learning_rate": 2.2297327000996293e-07,
9125
+ "loss": 0.4469,
9126
+ "step": 1299
9127
+ },
9128
+ {
9129
+ "epoch": 0.9799764428739693,
9130
+ "grad_norm": 11.952555656433105,
9131
+ "learning_rate": 2.0733642022437994e-07,
9132
+ "loss": 0.4597,
9133
+ "step": 1300
9134
+ },
9135
+ {
9136
+ "epoch": 0.9807302709069493,
9137
+ "grad_norm": 5.1298322677612305,
9138
+ "learning_rate": 1.922674112522227e-07,
9139
+ "loss": 0.478,
9140
+ "step": 1301
9141
+ },
9142
+ {
9143
+ "epoch": 0.9814840989399294,
9144
+ "grad_norm": 5.572525501251221,
9145
+ "learning_rate": 1.7776632883924615e-07,
9146
+ "loss": 0.4829,
9147
+ "step": 1302
9148
+ },
9149
+ {
9150
+ "epoch": 0.9822379269729093,
9151
+ "grad_norm": 5.343718528747559,
9152
+ "learning_rate": 1.638332554996125e-07,
9153
+ "loss": 0.4319,
9154
+ "step": 1303
9155
+ },
9156
+ {
9157
+ "epoch": 0.9829917550058893,
9158
+ "grad_norm": 5.716027736663818,
9159
+ "learning_rate": 1.5046827051536928e-07,
9160
+ "loss": 0.4378,
9161
+ "step": 1304
9162
+ },
9163
+ {
9164
+ "epoch": 0.9837455830388693,
9165
+ "grad_norm": 5.513693809509277,
9166
+ "learning_rate": 1.3767144993602766e-07,
9167
+ "loss": 0.4235,
9168
+ "step": 1305
9169
+ },
9170
+ {
9171
+ "epoch": 0.9844994110718492,
9172
+ "grad_norm": 5.508944988250732,
9173
+ "learning_rate": 1.254428665781515e-07,
9174
+ "loss": 0.4007,
9175
+ "step": 1306
9176
+ },
9177
+ {
9178
+ "epoch": 0.9852532391048292,
9179
+ "grad_norm": 5.180131435394287,
9180
+ "learning_rate": 1.1378259002488013e-07,
9181
+ "loss": 0.3939,
9182
+ "step": 1307
9183
+ },
9184
+ {
9185
+ "epoch": 0.9860070671378092,
9186
+ "grad_norm": 5.590184688568115,
9187
+ "learning_rate": 1.0269068662560611e-07,
9188
+ "loss": 0.4166,
9189
+ "step": 1308
9190
+ },
9191
+ {
9192
+ "epoch": 0.9867608951707891,
9193
+ "grad_norm": 5.44436502456665,
9194
+ "learning_rate": 9.216721949553142e-08,
9195
+ "loss": 0.4047,
9196
+ "step": 1309
9197
+ },
9198
+ {
9199
+ "epoch": 0.9875147232037691,
9200
+ "grad_norm": 5.489165782928467,
9201
+ "learning_rate": 8.221224851535647e-08,
9202
+ "loss": 0.3999,
9203
+ "step": 1310
9204
+ },
9205
+ {
9206
+ "epoch": 0.9882685512367492,
9207
+ "grad_norm": 5.663797855377197,
9208
+ "learning_rate": 7.282583033091372e-08,
9209
+ "loss": 0.3842,
9210
+ "step": 1311
9211
+ },
9212
+ {
9213
+ "epoch": 0.9890223792697291,
9214
+ "grad_norm": 5.638896942138672,
9215
+ "learning_rate": 6.400801835286796e-08,
9216
+ "loss": 0.3977,
9217
+ "step": 1312
9218
+ },
9219
+ {
9220
+ "epoch": 0.9897762073027091,
9221
+ "grad_norm": 5.8632307052612305,
9222
+ "learning_rate": 5.57588627563721e-08,
9223
+ "loss": 0.3579,
9224
+ "step": 1313
9225
+ },
9226
+ {
9227
+ "epoch": 0.9905300353356891,
9228
+ "grad_norm": 5.826532363891602,
9229
+ "learning_rate": 4.807841048082296e-08,
9230
+ "loss": 0.4088,
9231
+ "step": 1314
9232
+ },
9233
+ {
9234
+ "epoch": 0.991283863368669,
9235
+ "grad_norm": 5.712516784667969,
9236
+ "learning_rate": 4.096670522959478e-08,
9237
+ "loss": 0.3853,
9238
+ "step": 1315
9239
+ },
9240
+ {
9241
+ "epoch": 0.992037691401649,
9242
+ "grad_norm": 6.0777459144592285,
9243
+ "learning_rate": 3.442378746972841e-08,
9244
+ "loss": 0.4111,
9245
+ "step": 1316
9246
+ },
9247
+ {
9248
+ "epoch": 0.992791519434629,
9249
+ "grad_norm": 5.916062831878662,
9250
+ "learning_rate": 2.844969443178691e-08,
9251
+ "loss": 0.3821,
9252
+ "step": 1317
9253
+ },
9254
+ {
9255
+ "epoch": 0.9935453474676089,
9256
+ "grad_norm": 5.911341190338135,
9257
+ "learning_rate": 2.304446010958916e-08,
9258
+ "loss": 0.38,
9259
+ "step": 1318
9260
+ },
9261
+ {
9262
+ "epoch": 0.9942991755005889,
9263
+ "grad_norm": 6.334498405456543,
9264
+ "learning_rate": 1.8208115260032187e-08,
9265
+ "loss": 0.3812,
9266
+ "step": 1319
9267
+ },
9268
+ {
9269
+ "epoch": 0.995053003533569,
9270
+ "grad_norm": 6.576707363128662,
9271
+ "learning_rate": 1.3940687402924646e-08,
9272
+ "loss": 0.3858,
9273
+ "step": 1320
9274
+ },
9275
+ {
9276
+ "epoch": 0.9958068315665489,
9277
+ "grad_norm": 6.39242696762085,
9278
+ "learning_rate": 1.0242200820786974e-08,
9279
+ "loss": 0.3661,
9280
+ "step": 1321
9281
+ },
9282
+ {
9283
+ "epoch": 0.9965606595995289,
9284
+ "grad_norm": 7.869157791137695,
9285
+ "learning_rate": 7.112676558784781e-09,
9286
+ "loss": 0.3966,
9287
+ "step": 1322
9288
+ },
9289
+ {
9290
+ "epoch": 0.9973144876325089,
9291
+ "grad_norm": 7.689291954040527,
9292
+ "learning_rate": 4.552132424562317e-09,
9293
+ "loss": 0.4297,
9294
+ "step": 1323
9295
+ },
9296
+ {
9297
+ "epoch": 0.9980683156654888,
9298
+ "grad_norm": 8.572519302368164,
9299
+ "learning_rate": 2.5605829881203414e-09,
9300
+ "loss": 0.451,
9301
+ "step": 1324
9302
+ },
9303
+ {
9304
+ "epoch": 0.9988221436984688,
9305
+ "grad_norm": 9.072525024414062,
9306
+ "learning_rate": 1.1380395818050282e-09,
9307
+ "loss": 0.4373,
9308
+ "step": 1325
9309
+ },
9310
+ {
9311
+ "epoch": 0.9995759717314487,
9312
+ "grad_norm": 9.224164962768555,
9313
+ "learning_rate": 2.8451030018583623e-10,
9314
+ "loss": 0.4368,
9315
+ "step": 1326
9316
+ },
9317
+ {
9318
+ "epoch": 1.0007067137809187,
9319
+ "grad_norm": 5.4062819480896,
9320
+ "learning_rate": 0.0,
9321
+ "loss": 0.4839,
9322
+ "step": 1327
9323
  }
9324
  ],
9325
  "logging_steps": 1,
 
9334
  "should_evaluate": false,
9335
  "should_log": false,
9336
  "should_save": true,
9337
+ "should_training_stop": true
9338
  },
9339
  "attributes": {}
9340
  }
9341
  },
9342
+ "total_flos": 1.8606342447625667e+18,
9343
  "train_batch_size": 2,
9344
  "trial_name": null,
9345
  "trial_params": null