fats-fme commited on
Commit
36e179a
·
verified ·
1 Parent(s): 7567305

Training in progress, step 1518, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4de8e702ede5bc6b3eaca2a5d650ed2ef553fae82d389149a34f78cfd6fd9897
3
  size 45118424
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:21721f0ecd25362e2d9945d534a0dac6cdc1b2ee2198f8a32d4aaa5d87a4d3a1
3
  size 45118424
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a43d2f113bd8a83ba02467e931fd302c7d4dc61f997ce829200ee8c00220fc90
3
  size 90365754
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3670ee1b34b37df440e6ffbc094e7a6ca040c206fd1ade54ba1227d4d61c920b
3
  size 90365754
last-checkpoint/rng_state_0.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0bc575ebf0768ae9a255ac1520886bafe24a6ca2fe7b13a84b6a4e1385b450e0
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e341a407d013bd3d8c299b459b942e0f91461288855ccf151918636c56b9eabc
3
  size 14512
last-checkpoint/rng_state_1.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:068483213436abffb475462e08747178c0a017f98404bf7b00ad1cf0be97d692
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dbdd3b2f34ab6ba4fa2c76ff3eee45d49fde9b3bed1d7bfbbe63d769d607e9d8
3
  size 14512
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dec39ded93fb4511e8bde6a8cbd12c97b1efd27612cc52a1620071964af6301a
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5f3f9099f6a15efc79b02559da6b6f60fddd0d0728d78a5f70d7f733dcd70f55
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7505555098345815,
5
  "eval_steps": 380,
6
- "global_step": 1140,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -8019,6 +8019,2652 @@
8019
  "eval_samples_per_second": 17.926,
8020
  "eval_steps_per_second": 4.485,
8021
  "step": 1140
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8022
  }
8023
  ],
8024
  "logging_steps": 1,
@@ -8033,12 +10679,12 @@
8033
  "should_evaluate": false,
8034
  "should_log": false,
8035
  "should_save": true,
8036
- "should_training_stop": false
8037
  },
8038
  "attributes": {}
8039
  }
8040
  },
8041
- "total_flos": 8.825629834425139e+17,
8042
  "train_batch_size": 2,
8043
  "trial_name": null,
8044
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.9994239157271007,
5
  "eval_steps": 380,
6
+ "global_step": 1518,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
8019
  "eval_samples_per_second": 17.926,
8020
  "eval_steps_per_second": 4.485,
8021
  "step": 1140
8022
+ },
8023
+ {
8024
+ "epoch": 0.7512138918607522,
8025
+ "grad_norm": 0.7555129528045654,
8026
+ "learning_rate": 3.081864134739381e-05,
8027
+ "loss": 1.1989,
8028
+ "step": 1141
8029
+ },
8030
+ {
8031
+ "epoch": 0.7518722738869229,
8032
+ "grad_norm": 0.8739767670631409,
8033
+ "learning_rate": 3.0664272015046734e-05,
8034
+ "loss": 1.2435,
8035
+ "step": 1142
8036
+ },
8037
+ {
8038
+ "epoch": 0.7525306559130935,
8039
+ "grad_norm": 0.9945182204246521,
8040
+ "learning_rate": 3.0510220227165474e-05,
8041
+ "loss": 1.1476,
8042
+ "step": 1143
8043
+ },
8044
+ {
8045
+ "epoch": 0.7531890379392643,
8046
+ "grad_norm": 0.9394963383674622,
8047
+ "learning_rate": 3.0356486689277995e-05,
8048
+ "loss": 0.8853,
8049
+ "step": 1144
8050
+ },
8051
+ {
8052
+ "epoch": 0.7538474199654349,
8053
+ "grad_norm": 1.3489819765090942,
8054
+ "learning_rate": 3.0203072105454622e-05,
8055
+ "loss": 1.1426,
8056
+ "step": 1145
8057
+ },
8058
+ {
8059
+ "epoch": 0.7545058019916057,
8060
+ "grad_norm": 1.6051266193389893,
8061
+ "learning_rate": 3.0049977178305076e-05,
8062
+ "loss": 1.5071,
8063
+ "step": 1146
8064
+ },
8065
+ {
8066
+ "epoch": 0.7551641840177763,
8067
+ "grad_norm": 1.4647694826126099,
8068
+ "learning_rate": 2.9897202608975074e-05,
8069
+ "loss": 1.1429,
8070
+ "step": 1147
8071
+ },
8072
+ {
8073
+ "epoch": 0.755822566043947,
8074
+ "grad_norm": 1.5680222511291504,
8075
+ "learning_rate": 2.974474909714304e-05,
8076
+ "loss": 1.1338,
8077
+ "step": 1148
8078
+ },
8079
+ {
8080
+ "epoch": 0.7564809480701177,
8081
+ "grad_norm": 1.7426420450210571,
8082
+ "learning_rate": 2.959261734101716e-05,
8083
+ "loss": 0.9512,
8084
+ "step": 1149
8085
+ },
8086
+ {
8087
+ "epoch": 0.7571393300962884,
8088
+ "grad_norm": 2.067566156387329,
8089
+ "learning_rate": 2.9440808037331967e-05,
8090
+ "loss": 1.0109,
8091
+ "step": 1150
8092
+ },
8093
+ {
8094
+ "epoch": 0.757797712122459,
8095
+ "grad_norm": 0.2545592188835144,
8096
+ "learning_rate": 2.9289321881345254e-05,
8097
+ "loss": 1.0832,
8098
+ "step": 1151
8099
+ },
8100
+ {
8101
+ "epoch": 0.7584560941486297,
8102
+ "grad_norm": 0.27604377269744873,
8103
+ "learning_rate": 2.9138159566834834e-05,
8104
+ "loss": 1.2362,
8105
+ "step": 1152
8106
+ },
8107
+ {
8108
+ "epoch": 0.7591144761748004,
8109
+ "grad_norm": 0.2910035252571106,
8110
+ "learning_rate": 2.8987321786095412e-05,
8111
+ "loss": 1.2334,
8112
+ "step": 1153
8113
+ },
8114
+ {
8115
+ "epoch": 0.7597728582009711,
8116
+ "grad_norm": 0.29931461811065674,
8117
+ "learning_rate": 2.8836809229935357e-05,
8118
+ "loss": 1.1605,
8119
+ "step": 1154
8120
+ },
8121
+ {
8122
+ "epoch": 0.7604312402271418,
8123
+ "grad_norm": 0.32173511385917664,
8124
+ "learning_rate": 2.8686622587673594e-05,
8125
+ "loss": 1.2719,
8126
+ "step": 1155
8127
+ },
8128
+ {
8129
+ "epoch": 0.7610896222533124,
8130
+ "grad_norm": 0.3663305342197418,
8131
+ "learning_rate": 2.8536762547136464e-05,
8132
+ "loss": 1.2495,
8133
+ "step": 1156
8134
+ },
8135
+ {
8136
+ "epoch": 0.7617480042794832,
8137
+ "grad_norm": 0.3718562126159668,
8138
+ "learning_rate": 2.8387229794654423e-05,
8139
+ "loss": 1.2236,
8140
+ "step": 1157
8141
+ },
8142
+ {
8143
+ "epoch": 0.7624063863056538,
8144
+ "grad_norm": 0.39510485529899597,
8145
+ "learning_rate": 2.823802501505909e-05,
8146
+ "loss": 1.2276,
8147
+ "step": 1158
8148
+ },
8149
+ {
8150
+ "epoch": 0.7630647683318246,
8151
+ "grad_norm": 0.4048973321914673,
8152
+ "learning_rate": 2.8089148891680084e-05,
8153
+ "loss": 1.2046,
8154
+ "step": 1159
8155
+ },
8156
+ {
8157
+ "epoch": 0.7637231503579952,
8158
+ "grad_norm": 0.42129042744636536,
8159
+ "learning_rate": 2.7940602106341707e-05,
8160
+ "loss": 1.3255,
8161
+ "step": 1160
8162
+ },
8163
+ {
8164
+ "epoch": 0.764381532384166,
8165
+ "grad_norm": 0.5140630602836609,
8166
+ "learning_rate": 2.7792385339360038e-05,
8167
+ "loss": 1.3431,
8168
+ "step": 1161
8169
+ },
8170
+ {
8171
+ "epoch": 0.7650399144103366,
8172
+ "grad_norm": 0.5049022436141968,
8173
+ "learning_rate": 2.7644499269539724e-05,
8174
+ "loss": 1.2449,
8175
+ "step": 1162
8176
+ },
8177
+ {
8178
+ "epoch": 0.7656982964365073,
8179
+ "grad_norm": 0.5614619851112366,
8180
+ "learning_rate": 2.749694457417089e-05,
8181
+ "loss": 1.336,
8182
+ "step": 1163
8183
+ },
8184
+ {
8185
+ "epoch": 0.766356678462678,
8186
+ "grad_norm": 0.6224168539047241,
8187
+ "learning_rate": 2.7349721929026005e-05,
8188
+ "loss": 1.2038,
8189
+ "step": 1164
8190
+ },
8191
+ {
8192
+ "epoch": 0.7670150604888486,
8193
+ "grad_norm": 0.6956164240837097,
8194
+ "learning_rate": 2.720283200835686e-05,
8195
+ "loss": 1.3149,
8196
+ "step": 1165
8197
+ },
8198
+ {
8199
+ "epoch": 0.7676734425150193,
8200
+ "grad_norm": 0.7140865921974182,
8201
+ "learning_rate": 2.7056275484891304e-05,
8202
+ "loss": 1.2284,
8203
+ "step": 1166
8204
+ },
8205
+ {
8206
+ "epoch": 0.76833182454119,
8207
+ "grad_norm": 0.8704789876937866,
8208
+ "learning_rate": 2.691005302983045e-05,
8209
+ "loss": 1.1158,
8210
+ "step": 1167
8211
+ },
8212
+ {
8213
+ "epoch": 0.7689902065673607,
8214
+ "grad_norm": 1.1140766143798828,
8215
+ "learning_rate": 2.6764165312845403e-05,
8216
+ "loss": 1.1269,
8217
+ "step": 1168
8218
+ },
8219
+ {
8220
+ "epoch": 0.7696485885935314,
8221
+ "grad_norm": 1.0424233675003052,
8222
+ "learning_rate": 2.661861300207412e-05,
8223
+ "loss": 0.944,
8224
+ "step": 1169
8225
+ },
8226
+ {
8227
+ "epoch": 0.7703069706197021,
8228
+ "grad_norm": 1.2212202548980713,
8229
+ "learning_rate": 2.6473396764118575e-05,
8230
+ "loss": 1.1607,
8231
+ "step": 1170
8232
+ },
8233
+ {
8234
+ "epoch": 0.7709653526458727,
8235
+ "grad_norm": 1.0277799367904663,
8236
+ "learning_rate": 2.6328517264041563e-05,
8237
+ "loss": 0.7129,
8238
+ "step": 1171
8239
+ },
8240
+ {
8241
+ "epoch": 0.7716237346720435,
8242
+ "grad_norm": 1.411064624786377,
8243
+ "learning_rate": 2.618397516536367e-05,
8244
+ "loss": 1.1172,
8245
+ "step": 1172
8246
+ },
8247
+ {
8248
+ "epoch": 0.7722821166982141,
8249
+ "grad_norm": 1.4100395441055298,
8250
+ "learning_rate": 2.6039771130060254e-05,
8251
+ "loss": 0.8726,
8252
+ "step": 1173
8253
+ },
8254
+ {
8255
+ "epoch": 0.7729404987243849,
8256
+ "grad_norm": 1.6474452018737793,
8257
+ "learning_rate": 2.589590581855843e-05,
8258
+ "loss": 0.8718,
8259
+ "step": 1174
8260
+ },
8261
+ {
8262
+ "epoch": 0.7735988807505555,
8263
+ "grad_norm": 1.7511224746704102,
8264
+ "learning_rate": 2.575237988973398e-05,
8265
+ "loss": 0.7599,
8266
+ "step": 1175
8267
+ },
8268
+ {
8269
+ "epoch": 0.7742572627767262,
8270
+ "grad_norm": 0.2579965889453888,
8271
+ "learning_rate": 2.560919400090843e-05,
8272
+ "loss": 1.2273,
8273
+ "step": 1176
8274
+ },
8275
+ {
8276
+ "epoch": 0.7749156448028969,
8277
+ "grad_norm": 0.2835389971733093,
8278
+ "learning_rate": 2.5466348807845908e-05,
8279
+ "loss": 1.2614,
8280
+ "step": 1177
8281
+ },
8282
+ {
8283
+ "epoch": 0.7755740268290676,
8284
+ "grad_norm": 0.29296889901161194,
8285
+ "learning_rate": 2.53238449647503e-05,
8286
+ "loss": 1.2371,
8287
+ "step": 1178
8288
+ },
8289
+ {
8290
+ "epoch": 0.7762324088552383,
8291
+ "grad_norm": 0.32429298758506775,
8292
+ "learning_rate": 2.5181683124262136e-05,
8293
+ "loss": 1.1937,
8294
+ "step": 1179
8295
+ },
8296
+ {
8297
+ "epoch": 0.7768907908814089,
8298
+ "grad_norm": 0.3148968815803528,
8299
+ "learning_rate": 2.503986393745564e-05,
8300
+ "loss": 1.1598,
8301
+ "step": 1180
8302
+ },
8303
+ {
8304
+ "epoch": 0.7775491729075796,
8305
+ "grad_norm": 0.3182394206523895,
8306
+ "learning_rate": 2.4898388053835763e-05,
8307
+ "loss": 1.1057,
8308
+ "step": 1181
8309
+ },
8310
+ {
8311
+ "epoch": 0.7782075549337503,
8312
+ "grad_norm": 0.34069356322288513,
8313
+ "learning_rate": 2.4757256121335183e-05,
8314
+ "loss": 1.2295,
8315
+ "step": 1182
8316
+ },
8317
+ {
8318
+ "epoch": 0.778865936959921,
8319
+ "grad_norm": 0.3777032494544983,
8320
+ "learning_rate": 2.461646878631133e-05,
8321
+ "loss": 1.404,
8322
+ "step": 1183
8323
+ },
8324
+ {
8325
+ "epoch": 0.7795243189860916,
8326
+ "grad_norm": 0.3982040584087372,
8327
+ "learning_rate": 2.4476026693543484e-05,
8328
+ "loss": 1.2168,
8329
+ "step": 1184
8330
+ },
8331
+ {
8332
+ "epoch": 0.7801827010122624,
8333
+ "grad_norm": 0.4333396553993225,
8334
+ "learning_rate": 2.4335930486229774e-05,
8335
+ "loss": 1.2611,
8336
+ "step": 1185
8337
+ },
8338
+ {
8339
+ "epoch": 0.780841083038433,
8340
+ "grad_norm": 0.46400609612464905,
8341
+ "learning_rate": 2.419618080598417e-05,
8342
+ "loss": 1.3248,
8343
+ "step": 1186
8344
+ },
8345
+ {
8346
+ "epoch": 0.7814994650646038,
8347
+ "grad_norm": 0.49693915247917175,
8348
+ "learning_rate": 2.405677829283366e-05,
8349
+ "loss": 1.3477,
8350
+ "step": 1187
8351
+ },
8352
+ {
8353
+ "epoch": 0.7821578470907744,
8354
+ "grad_norm": 0.5477811694145203,
8355
+ "learning_rate": 2.3917723585215357e-05,
8356
+ "loss": 1.2802,
8357
+ "step": 1188
8358
+ },
8359
+ {
8360
+ "epoch": 0.7828162291169452,
8361
+ "grad_norm": 0.5534879565238953,
8362
+ "learning_rate": 2.377901731997335e-05,
8363
+ "loss": 1.2442,
8364
+ "step": 1189
8365
+ },
8366
+ {
8367
+ "epoch": 0.7834746111431158,
8368
+ "grad_norm": 0.6362003087997437,
8369
+ "learning_rate": 2.3640660132355996e-05,
8370
+ "loss": 1.2242,
8371
+ "step": 1190
8372
+ },
8373
+ {
8374
+ "epoch": 0.7841329931692865,
8375
+ "grad_norm": 0.726051390171051,
8376
+ "learning_rate": 2.3502652656012947e-05,
8377
+ "loss": 1.2611,
8378
+ "step": 1191
8379
+ },
8380
+ {
8381
+ "epoch": 0.7847913751954572,
8382
+ "grad_norm": 0.8183614015579224,
8383
+ "learning_rate": 2.3364995522992227e-05,
8384
+ "loss": 1.1556,
8385
+ "step": 1192
8386
+ },
8387
+ {
8388
+ "epoch": 0.7854497572216278,
8389
+ "grad_norm": 0.8726836442947388,
8390
+ "learning_rate": 2.3227689363737382e-05,
8391
+ "loss": 1.2289,
8392
+ "step": 1193
8393
+ },
8394
+ {
8395
+ "epoch": 0.7861081392477985,
8396
+ "grad_norm": 1.0491002798080444,
8397
+ "learning_rate": 2.3090734807084548e-05,
8398
+ "loss": 1.3026,
8399
+ "step": 1194
8400
+ },
8401
+ {
8402
+ "epoch": 0.7867665212739692,
8403
+ "grad_norm": 1.1141643524169922,
8404
+ "learning_rate": 2.2954132480259504e-05,
8405
+ "loss": 0.9071,
8406
+ "step": 1195
8407
+ },
8408
+ {
8409
+ "epoch": 0.7874249033001399,
8410
+ "grad_norm": 1.2619067430496216,
8411
+ "learning_rate": 2.2817883008875063e-05,
8412
+ "loss": 1.0773,
8413
+ "step": 1196
8414
+ },
8415
+ {
8416
+ "epoch": 0.7880832853263106,
8417
+ "grad_norm": 1.916133165359497,
8418
+ "learning_rate": 2.2681987016927908e-05,
8419
+ "loss": 1.3466,
8420
+ "step": 1197
8421
+ },
8422
+ {
8423
+ "epoch": 0.7887416673524813,
8424
+ "grad_norm": 1.8914225101470947,
8425
+ "learning_rate": 2.2546445126795822e-05,
8426
+ "loss": 1.0075,
8427
+ "step": 1198
8428
+ },
8429
+ {
8430
+ "epoch": 0.7894000493786519,
8431
+ "grad_norm": 1.9101247787475586,
8432
+ "learning_rate": 2.2411257959234966e-05,
8433
+ "loss": 1.0738,
8434
+ "step": 1199
8435
+ },
8436
+ {
8437
+ "epoch": 0.7900584314048227,
8438
+ "grad_norm": 2.5399341583251953,
8439
+ "learning_rate": 2.227642613337686e-05,
8440
+ "loss": 1.1081,
8441
+ "step": 1200
8442
+ },
8443
+ {
8444
+ "epoch": 0.7907168134309933,
8445
+ "grad_norm": 0.2590787708759308,
8446
+ "learning_rate": 2.2141950266725687e-05,
8447
+ "loss": 1.1662,
8448
+ "step": 1201
8449
+ },
8450
+ {
8451
+ "epoch": 0.7913751954571641,
8452
+ "grad_norm": 0.31000667810440063,
8453
+ "learning_rate": 2.2007830975155363e-05,
8454
+ "loss": 1.2154,
8455
+ "step": 1202
8456
+ },
8457
+ {
8458
+ "epoch": 0.7920335774833347,
8459
+ "grad_norm": 0.28687340021133423,
8460
+ "learning_rate": 2.1874068872906772e-05,
8461
+ "loss": 1.1468,
8462
+ "step": 1203
8463
+ },
8464
+ {
8465
+ "epoch": 0.7926919595095054,
8466
+ "grad_norm": 0.3054833710193634,
8467
+ "learning_rate": 2.1740664572584946e-05,
8468
+ "loss": 1.1847,
8469
+ "step": 1204
8470
+ },
8471
+ {
8472
+ "epoch": 0.7933503415356761,
8473
+ "grad_norm": 0.32457491755485535,
8474
+ "learning_rate": 2.160761868515623e-05,
8475
+ "loss": 1.2377,
8476
+ "step": 1205
8477
+ },
8478
+ {
8479
+ "epoch": 0.7940087235618467,
8480
+ "grad_norm": 0.3366299867630005,
8481
+ "learning_rate": 2.1474931819945553e-05,
8482
+ "loss": 1.284,
8483
+ "step": 1206
8484
+ },
8485
+ {
8486
+ "epoch": 0.7946671055880175,
8487
+ "grad_norm": 0.3629007339477539,
8488
+ "learning_rate": 2.1342604584633506e-05,
8489
+ "loss": 1.2582,
8490
+ "step": 1207
8491
+ },
8492
+ {
8493
+ "epoch": 0.7953254876141881,
8494
+ "grad_norm": 0.3729316294193268,
8495
+ "learning_rate": 2.1210637585253703e-05,
8496
+ "loss": 1.2428,
8497
+ "step": 1208
8498
+ },
8499
+ {
8500
+ "epoch": 0.7959838696403588,
8501
+ "grad_norm": 0.390794575214386,
8502
+ "learning_rate": 2.107903142619e-05,
8503
+ "loss": 1.2041,
8504
+ "step": 1209
8505
+ },
8506
+ {
8507
+ "epoch": 0.7966422516665295,
8508
+ "grad_norm": 0.40834668278694153,
8509
+ "learning_rate": 2.0947786710173546e-05,
8510
+ "loss": 1.2392,
8511
+ "step": 1210
8512
+ },
8513
+ {
8514
+ "epoch": 0.7973006336927002,
8515
+ "grad_norm": 0.43642354011535645,
8516
+ "learning_rate": 2.081690403828024e-05,
8517
+ "loss": 1.2946,
8518
+ "step": 1211
8519
+ },
8520
+ {
8521
+ "epoch": 0.7979590157188708,
8522
+ "grad_norm": 0.46954917907714844,
8523
+ "learning_rate": 2.0686384009927838e-05,
8524
+ "loss": 1.3417,
8525
+ "step": 1212
8526
+ },
8527
+ {
8528
+ "epoch": 0.7986173977450416,
8529
+ "grad_norm": 0.5424888134002686,
8530
+ "learning_rate": 2.0556227222873313e-05,
8531
+ "loss": 1.4782,
8532
+ "step": 1213
8533
+ },
8534
+ {
8535
+ "epoch": 0.7992757797712122,
8536
+ "grad_norm": 0.5052427053451538,
8537
+ "learning_rate": 2.0426434273210014e-05,
8538
+ "loss": 1.18,
8539
+ "step": 1214
8540
+ },
8541
+ {
8542
+ "epoch": 0.799934161797383,
8543
+ "grad_norm": 0.5371694564819336,
8544
+ "learning_rate": 2.029700575536504e-05,
8545
+ "loss": 1.2642,
8546
+ "step": 1215
8547
+ },
8548
+ {
8549
+ "epoch": 0.8005925438235536,
8550
+ "grad_norm": 0.6594541668891907,
8551
+ "learning_rate": 2.0167942262096316e-05,
8552
+ "loss": 1.3036,
8553
+ "step": 1216
8554
+ },
8555
+ {
8556
+ "epoch": 0.8012509258497243,
8557
+ "grad_norm": 0.7874505519866943,
8558
+ "learning_rate": 2.003924438449023e-05,
8559
+ "loss": 1.1885,
8560
+ "step": 1217
8561
+ },
8562
+ {
8563
+ "epoch": 0.801909307875895,
8564
+ "grad_norm": 0.955467164516449,
8565
+ "learning_rate": 1.9910912711958618e-05,
8566
+ "loss": 1.2362,
8567
+ "step": 1218
8568
+ },
8569
+ {
8570
+ "epoch": 0.8025676899020657,
8571
+ "grad_norm": 0.9550561904907227,
8572
+ "learning_rate": 1.9782947832236097e-05,
8573
+ "loss": 1.037,
8574
+ "step": 1219
8575
+ },
8576
+ {
8577
+ "epoch": 0.8032260719282364,
8578
+ "grad_norm": 1.281804084777832,
8579
+ "learning_rate": 1.9655350331377566e-05,
8580
+ "loss": 1.0645,
8581
+ "step": 1220
8582
+ },
8583
+ {
8584
+ "epoch": 0.803884453954407,
8585
+ "grad_norm": 1.2864665985107422,
8586
+ "learning_rate": 1.9528120793755322e-05,
8587
+ "loss": 1.0086,
8588
+ "step": 1221
8589
+ },
8590
+ {
8591
+ "epoch": 0.8045428359805777,
8592
+ "grad_norm": 1.5257987976074219,
8593
+ "learning_rate": 1.9401259802056492e-05,
8594
+ "loss": 1.1066,
8595
+ "step": 1222
8596
+ },
8597
+ {
8598
+ "epoch": 0.8052012180067484,
8599
+ "grad_norm": 1.65569007396698,
8600
+ "learning_rate": 1.9274767937280357e-05,
8601
+ "loss": 1.2644,
8602
+ "step": 1223
8603
+ },
8604
+ {
8605
+ "epoch": 0.8058596000329191,
8606
+ "grad_norm": 1.5913068056106567,
8607
+ "learning_rate": 1.9148645778735554e-05,
8608
+ "loss": 0.7979,
8609
+ "step": 1224
8610
+ },
8611
+ {
8612
+ "epoch": 0.8065179820590898,
8613
+ "grad_norm": 2.411531448364258,
8614
+ "learning_rate": 1.9022893904037676e-05,
8615
+ "loss": 1.2982,
8616
+ "step": 1225
8617
+ },
8618
+ {
8619
+ "epoch": 0.8071763640852605,
8620
+ "grad_norm": 0.24755673110485077,
8621
+ "learning_rate": 1.889751288910645e-05,
8622
+ "loss": 1.1338,
8623
+ "step": 1226
8624
+ },
8625
+ {
8626
+ "epoch": 0.8078347461114311,
8627
+ "grad_norm": 0.2823069989681244,
8628
+ "learning_rate": 1.8772503308163046e-05,
8629
+ "loss": 1.2658,
8630
+ "step": 1227
8631
+ },
8632
+ {
8633
+ "epoch": 0.8084931281376019,
8634
+ "grad_norm": 0.28120023012161255,
8635
+ "learning_rate": 1.8647865733727643e-05,
8636
+ "loss": 1.1407,
8637
+ "step": 1228
8638
+ },
8639
+ {
8640
+ "epoch": 0.8091515101637725,
8641
+ "grad_norm": 0.321236789226532,
8642
+ "learning_rate": 1.8523600736616632e-05,
8643
+ "loss": 1.2701,
8644
+ "step": 1229
8645
+ },
8646
+ {
8647
+ "epoch": 0.8098098921899433,
8648
+ "grad_norm": 0.33734390139579773,
8649
+ "learning_rate": 1.8399708885940136e-05,
8650
+ "loss": 1.1863,
8651
+ "step": 1230
8652
+ },
8653
+ {
8654
+ "epoch": 0.8104682742161139,
8655
+ "grad_norm": 0.33143654465675354,
8656
+ "learning_rate": 1.8276190749099264e-05,
8657
+ "loss": 1.315,
8658
+ "step": 1231
8659
+ },
8660
+ {
8661
+ "epoch": 0.8111266562422846,
8662
+ "grad_norm": 0.3370499610900879,
8663
+ "learning_rate": 1.8153046891783652e-05,
8664
+ "loss": 1.204,
8665
+ "step": 1232
8666
+ },
8667
+ {
8668
+ "epoch": 0.8117850382684553,
8669
+ "grad_norm": 0.37255147099494934,
8670
+ "learning_rate": 1.8030277877968772e-05,
8671
+ "loss": 1.2116,
8672
+ "step": 1233
8673
+ },
8674
+ {
8675
+ "epoch": 0.8124434202946259,
8676
+ "grad_norm": 0.39773163199424744,
8677
+ "learning_rate": 1.790788426991339e-05,
8678
+ "loss": 1.3115,
8679
+ "step": 1234
8680
+ },
8681
+ {
8682
+ "epoch": 0.8131018023207967,
8683
+ "grad_norm": 0.4204883873462677,
8684
+ "learning_rate": 1.778586662815701e-05,
8685
+ "loss": 1.3576,
8686
+ "step": 1235
8687
+ },
8688
+ {
8689
+ "epoch": 0.8137601843469673,
8690
+ "grad_norm": 0.48859432339668274,
8691
+ "learning_rate": 1.7664225511517198e-05,
8692
+ "loss": 1.2549,
8693
+ "step": 1236
8694
+ },
8695
+ {
8696
+ "epoch": 0.814418566373138,
8697
+ "grad_norm": 0.4854777157306671,
8698
+ "learning_rate": 1.7542961477087172e-05,
8699
+ "loss": 1.3323,
8700
+ "step": 1237
8701
+ },
8702
+ {
8703
+ "epoch": 0.8150769483993087,
8704
+ "grad_norm": 0.5650511980056763,
8705
+ "learning_rate": 1.742207508023327e-05,
8706
+ "loss": 1.2028,
8707
+ "step": 1238
8708
+ },
8709
+ {
8710
+ "epoch": 0.8157353304254794,
8711
+ "grad_norm": 0.6029946208000183,
8712
+ "learning_rate": 1.7301566874592134e-05,
8713
+ "loss": 1.36,
8714
+ "step": 1239
8715
+ },
8716
+ {
8717
+ "epoch": 0.81639371245165,
8718
+ "grad_norm": 0.6795003414154053,
8719
+ "learning_rate": 1.718143741206849e-05,
8720
+ "loss": 1.3337,
8721
+ "step": 1240
8722
+ },
8723
+ {
8724
+ "epoch": 0.8170520944778208,
8725
+ "grad_norm": 0.7911986112594604,
8726
+ "learning_rate": 1.7061687242832468e-05,
8727
+ "loss": 1.3073,
8728
+ "step": 1241
8729
+ },
8730
+ {
8731
+ "epoch": 0.8177104765039914,
8732
+ "grad_norm": 0.9688619375228882,
8733
+ "learning_rate": 1.694231691531709e-05,
8734
+ "loss": 1.3579,
8735
+ "step": 1242
8736
+ },
8737
+ {
8738
+ "epoch": 0.8183688585301622,
8739
+ "grad_norm": 0.9323916435241699,
8740
+ "learning_rate": 1.6823326976215792e-05,
8741
+ "loss": 1.1159,
8742
+ "step": 1243
8743
+ },
8744
+ {
8745
+ "epoch": 0.8190272405563328,
8746
+ "grad_norm": 1.2399168014526367,
8747
+ "learning_rate": 1.670471797047992e-05,
8748
+ "loss": 1.2605,
8749
+ "step": 1244
8750
+ },
8751
+ {
8752
+ "epoch": 0.8196856225825035,
8753
+ "grad_norm": 1.2477198839187622,
8754
+ "learning_rate": 1.6586490441316116e-05,
8755
+ "loss": 1.3426,
8756
+ "step": 1245
8757
+ },
8758
+ {
8759
+ "epoch": 0.8203440046086742,
8760
+ "grad_norm": 1.4674113988876343,
8761
+ "learning_rate": 1.6468644930184095e-05,
8762
+ "loss": 1.0689,
8763
+ "step": 1246
8764
+ },
8765
+ {
8766
+ "epoch": 0.8210023866348448,
8767
+ "grad_norm": 1.4392623901367188,
8768
+ "learning_rate": 1.6351181976793894e-05,
8769
+ "loss": 1.0795,
8770
+ "step": 1247
8771
+ },
8772
+ {
8773
+ "epoch": 0.8216607686610156,
8774
+ "grad_norm": 1.4645551443099976,
8775
+ "learning_rate": 1.62341021191035e-05,
8776
+ "loss": 1.2043,
8777
+ "step": 1248
8778
+ },
8779
+ {
8780
+ "epoch": 0.8223191506871862,
8781
+ "grad_norm": 1.7416354417800903,
8782
+ "learning_rate": 1.611740589331645e-05,
8783
+ "loss": 0.9595,
8784
+ "step": 1249
8785
+ },
8786
+ {
8787
+ "epoch": 0.8229775327133569,
8788
+ "grad_norm": 1.685441255569458,
8789
+ "learning_rate": 1.6001093833879287e-05,
8790
+ "loss": 0.7698,
8791
+ "step": 1250
8792
+ },
8793
+ {
8794
+ "epoch": 0.8236359147395276,
8795
+ "grad_norm": 0.25341877341270447,
8796
+ "learning_rate": 1.588516647347916e-05,
8797
+ "loss": 1.2026,
8798
+ "step": 1251
8799
+ },
8800
+ {
8801
+ "epoch": 0.8242942967656983,
8802
+ "grad_norm": 0.27512264251708984,
8803
+ "learning_rate": 1.5769624343041355e-05,
8804
+ "loss": 1.2053,
8805
+ "step": 1252
8806
+ },
8807
+ {
8808
+ "epoch": 0.824952678791869,
8809
+ "grad_norm": 0.28133538365364075,
8810
+ "learning_rate": 1.5654467971726894e-05,
8811
+ "loss": 1.1509,
8812
+ "step": 1253
8813
+ },
8814
+ {
8815
+ "epoch": 0.8256110608180397,
8816
+ "grad_norm": 0.3063061535358429,
8817
+ "learning_rate": 1.553969788693008e-05,
8818
+ "loss": 1.1995,
8819
+ "step": 1254
8820
+ },
8821
+ {
8822
+ "epoch": 0.8262694428442103,
8823
+ "grad_norm": 0.3312765955924988,
8824
+ "learning_rate": 1.542531461427611e-05,
8825
+ "loss": 1.2657,
8826
+ "step": 1255
8827
+ },
8828
+ {
8829
+ "epoch": 0.8269278248703811,
8830
+ "grad_norm": 0.3586176335811615,
8831
+ "learning_rate": 1.531131867761866e-05,
8832
+ "loss": 1.1941,
8833
+ "step": 1256
8834
+ },
8835
+ {
8836
+ "epoch": 0.8275862068965517,
8837
+ "grad_norm": 0.36552894115448,
8838
+ "learning_rate": 1.5197710599037429e-05,
8839
+ "loss": 1.198,
8840
+ "step": 1257
8841
+ },
8842
+ {
8843
+ "epoch": 0.8282445889227225,
8844
+ "grad_norm": 0.384895920753479,
8845
+ "learning_rate": 1.5084490898835856e-05,
8846
+ "loss": 1.2629,
8847
+ "step": 1258
8848
+ },
8849
+ {
8850
+ "epoch": 0.8289029709488931,
8851
+ "grad_norm": 0.3710484802722931,
8852
+ "learning_rate": 1.497166009553871e-05,
8853
+ "loss": 1.2126,
8854
+ "step": 1259
8855
+ },
8856
+ {
8857
+ "epoch": 0.8295613529750637,
8858
+ "grad_norm": 0.4181410074234009,
8859
+ "learning_rate": 1.4859218705889588e-05,
8860
+ "loss": 1.2037,
8861
+ "step": 1260
8862
+ },
8863
+ {
8864
+ "epoch": 0.8302197350012345,
8865
+ "grad_norm": 0.4357868731021881,
8866
+ "learning_rate": 1.4747167244848714e-05,
8867
+ "loss": 1.185,
8868
+ "step": 1261
8869
+ },
8870
+ {
8871
+ "epoch": 0.8308781170274051,
8872
+ "grad_norm": 0.489761620759964,
8873
+ "learning_rate": 1.4635506225590512e-05,
8874
+ "loss": 1.3106,
8875
+ "step": 1262
8876
+ },
8877
+ {
8878
+ "epoch": 0.8315364990535759,
8879
+ "grad_norm": 0.5292978882789612,
8880
+ "learning_rate": 1.4524236159501226e-05,
8881
+ "loss": 1.3421,
8882
+ "step": 1263
8883
+ },
8884
+ {
8885
+ "epoch": 0.8321948810797465,
8886
+ "grad_norm": 0.5524282455444336,
8887
+ "learning_rate": 1.4413357556176631e-05,
8888
+ "loss": 1.2944,
8889
+ "step": 1264
8890
+ },
8891
+ {
8892
+ "epoch": 0.8328532631059172,
8893
+ "grad_norm": 0.6491603851318359,
8894
+ "learning_rate": 1.430287092341971e-05,
8895
+ "loss": 1.3944,
8896
+ "step": 1265
8897
+ },
8898
+ {
8899
+ "epoch": 0.8335116451320879,
8900
+ "grad_norm": 0.6646156311035156,
8901
+ "learning_rate": 1.4192776767238158e-05,
8902
+ "loss": 1.2302,
8903
+ "step": 1266
8904
+ },
8905
+ {
8906
+ "epoch": 0.8341700271582586,
8907
+ "grad_norm": 0.8558313846588135,
8908
+ "learning_rate": 1.408307559184242e-05,
8909
+ "loss": 1.252,
8910
+ "step": 1267
8911
+ },
8912
+ {
8913
+ "epoch": 0.8348284091844292,
8914
+ "grad_norm": 0.9991942644119263,
8915
+ "learning_rate": 1.3973767899642975e-05,
8916
+ "loss": 1.1287,
8917
+ "step": 1268
8918
+ },
8919
+ {
8920
+ "epoch": 0.8354867912106,
8921
+ "grad_norm": 1.0037152767181396,
8922
+ "learning_rate": 1.38648541912483e-05,
8923
+ "loss": 1.2154,
8924
+ "step": 1269
8925
+ },
8926
+ {
8927
+ "epoch": 0.8361451732367706,
8928
+ "grad_norm": 1.1659568548202515,
8929
+ "learning_rate": 1.3756334965462502e-05,
8930
+ "loss": 1.0629,
8931
+ "step": 1270
8932
+ },
8933
+ {
8934
+ "epoch": 0.8368035552629414,
8935
+ "grad_norm": 1.38374662399292,
8936
+ "learning_rate": 1.3648210719283028e-05,
8937
+ "loss": 1.0876,
8938
+ "step": 1271
8939
+ },
8940
+ {
8941
+ "epoch": 0.837461937289112,
8942
+ "grad_norm": 1.2293808460235596,
8943
+ "learning_rate": 1.3540481947898376e-05,
8944
+ "loss": 0.8495,
8945
+ "step": 1272
8946
+ },
8947
+ {
8948
+ "epoch": 0.8381203193152827,
8949
+ "grad_norm": 1.2876181602478027,
8950
+ "learning_rate": 1.3433149144685908e-05,
8951
+ "loss": 0.8809,
8952
+ "step": 1273
8953
+ },
8954
+ {
8955
+ "epoch": 0.8387787013414534,
8956
+ "grad_norm": 1.7796697616577148,
8957
+ "learning_rate": 1.3326212801209392e-05,
8958
+ "loss": 1.0504,
8959
+ "step": 1274
8960
+ },
8961
+ {
8962
+ "epoch": 0.839437083367624,
8963
+ "grad_norm": 2.186758041381836,
8964
+ "learning_rate": 1.3219673407217037e-05,
8965
+ "loss": 1.0458,
8966
+ "step": 1275
8967
+ },
8968
+ {
8969
+ "epoch": 0.8400954653937948,
8970
+ "grad_norm": 0.2571915090084076,
8971
+ "learning_rate": 1.311353145063905e-05,
8972
+ "loss": 1.1547,
8973
+ "step": 1276
8974
+ },
8975
+ {
8976
+ "epoch": 0.8407538474199654,
8977
+ "grad_norm": 0.2778959274291992,
8978
+ "learning_rate": 1.3007787417585372e-05,
8979
+ "loss": 1.1754,
8980
+ "step": 1277
8981
+ },
8982
+ {
8983
+ "epoch": 0.8414122294461361,
8984
+ "grad_norm": 0.3004729747772217,
8985
+ "learning_rate": 1.2902441792343612e-05,
8986
+ "loss": 1.2591,
8987
+ "step": 1278
8988
+ },
8989
+ {
8990
+ "epoch": 0.8420706114723068,
8991
+ "grad_norm": 0.3155894875526428,
8992
+ "learning_rate": 1.279749505737674e-05,
8993
+ "loss": 1.2791,
8994
+ "step": 1279
8995
+ },
8996
+ {
8997
+ "epoch": 0.8427289934984775,
8998
+ "grad_norm": 0.33009597659111023,
8999
+ "learning_rate": 1.2692947693320867e-05,
9000
+ "loss": 1.1802,
9001
+ "step": 1280
9002
+ },
9003
+ {
9004
+ "epoch": 0.8433873755246482,
9005
+ "grad_norm": 0.3477858603000641,
9006
+ "learning_rate": 1.2588800178983051e-05,
9007
+ "loss": 1.2065,
9008
+ "step": 1281
9009
+ },
9010
+ {
9011
+ "epoch": 0.8440457575508189,
9012
+ "grad_norm": 0.355474591255188,
9013
+ "learning_rate": 1.2485052991339174e-05,
9014
+ "loss": 1.2134,
9015
+ "step": 1282
9016
+ },
9017
+ {
9018
+ "epoch": 0.8447041395769895,
9019
+ "grad_norm": 0.3893088400363922,
9020
+ "learning_rate": 1.2381706605531562e-05,
9021
+ "loss": 1.2709,
9022
+ "step": 1283
9023
+ },
9024
+ {
9025
+ "epoch": 0.8453625216031603,
9026
+ "grad_norm": 0.39613381028175354,
9027
+ "learning_rate": 1.2278761494867119e-05,
9028
+ "loss": 1.239,
9029
+ "step": 1284
9030
+ },
9031
+ {
9032
+ "epoch": 0.8460209036293309,
9033
+ "grad_norm": 0.42657214403152466,
9034
+ "learning_rate": 1.2176218130814887e-05,
9035
+ "loss": 1.2017,
9036
+ "step": 1285
9037
+ },
9038
+ {
9039
+ "epoch": 0.8466792856555017,
9040
+ "grad_norm": 0.5077014565467834,
9041
+ "learning_rate": 1.2074076983003958e-05,
9042
+ "loss": 1.2926,
9043
+ "step": 1286
9044
+ },
9045
+ {
9046
+ "epoch": 0.8473376676816723,
9047
+ "grad_norm": 0.4870278537273407,
9048
+ "learning_rate": 1.1972338519221393e-05,
9049
+ "loss": 1.2529,
9050
+ "step": 1287
9051
+ },
9052
+ {
9053
+ "epoch": 0.8479960497078429,
9054
+ "grad_norm": 0.5146488547325134,
9055
+ "learning_rate": 1.1871003205410091e-05,
9056
+ "loss": 1.3742,
9057
+ "step": 1288
9058
+ },
9059
+ {
9060
+ "epoch": 0.8486544317340137,
9061
+ "grad_norm": 0.6352048516273499,
9062
+ "learning_rate": 1.1770071505666491e-05,
9063
+ "loss": 1.2944,
9064
+ "step": 1289
9065
+ },
9066
+ {
9067
+ "epoch": 0.8493128137601843,
9068
+ "grad_norm": 0.6424921154975891,
9069
+ "learning_rate": 1.166954388223862e-05,
9070
+ "loss": 1.232,
9071
+ "step": 1290
9072
+ },
9073
+ {
9074
+ "epoch": 0.849971195786355,
9075
+ "grad_norm": 0.745509922504425,
9076
+ "learning_rate": 1.1569420795523911e-05,
9077
+ "loss": 1.46,
9078
+ "step": 1291
9079
+ },
9080
+ {
9081
+ "epoch": 0.8506295778125257,
9082
+ "grad_norm": 0.8032955527305603,
9083
+ "learning_rate": 1.1469702704067064e-05,
9084
+ "loss": 1.1648,
9085
+ "step": 1292
9086
+ },
9087
+ {
9088
+ "epoch": 0.8512879598386964,
9089
+ "grad_norm": 0.9472469091415405,
9090
+ "learning_rate": 1.1370390064558034e-05,
9091
+ "loss": 1.2158,
9092
+ "step": 1293
9093
+ },
9094
+ {
9095
+ "epoch": 0.8519463418648671,
9096
+ "grad_norm": 1.1131627559661865,
9097
+ "learning_rate": 1.1271483331829835e-05,
9098
+ "loss": 1.1096,
9099
+ "step": 1294
9100
+ },
9101
+ {
9102
+ "epoch": 0.8526047238910378,
9103
+ "grad_norm": 1.2295578718185425,
9104
+ "learning_rate": 1.1172982958856482e-05,
9105
+ "loss": 1.0952,
9106
+ "step": 1295
9107
+ },
9108
+ {
9109
+ "epoch": 0.8532631059172084,
9110
+ "grad_norm": 1.3151978254318237,
9111
+ "learning_rate": 1.107488939675102e-05,
9112
+ "loss": 0.9785,
9113
+ "step": 1296
9114
+ },
9115
+ {
9116
+ "epoch": 0.8539214879433792,
9117
+ "grad_norm": 1.631568431854248,
9118
+ "learning_rate": 1.0977203094763345e-05,
9119
+ "loss": 1.1322,
9120
+ "step": 1297
9121
+ },
9122
+ {
9123
+ "epoch": 0.8545798699695498,
9124
+ "grad_norm": 1.512904405593872,
9125
+ "learning_rate": 1.0879924500278116e-05,
9126
+ "loss": 1.1041,
9127
+ "step": 1298
9128
+ },
9129
+ {
9130
+ "epoch": 0.8552382519957206,
9131
+ "grad_norm": 1.573190689086914,
9132
+ "learning_rate": 1.0783054058812858e-05,
9133
+ "loss": 0.8695,
9134
+ "step": 1299
9135
+ },
9136
+ {
9137
+ "epoch": 0.8558966340218912,
9138
+ "grad_norm": 1.600016474723816,
9139
+ "learning_rate": 1.0686592214015768e-05,
9140
+ "loss": 0.7234,
9141
+ "step": 1300
9142
+ },
9143
+ {
9144
+ "epoch": 0.8565550160480618,
9145
+ "grad_norm": 0.2644733488559723,
9146
+ "learning_rate": 1.0590539407663803e-05,
9147
+ "loss": 1.1294,
9148
+ "step": 1301
9149
+ },
9150
+ {
9151
+ "epoch": 0.8572133980742326,
9152
+ "grad_norm": 0.28398260474205017,
9153
+ "learning_rate": 1.0494896079660554e-05,
9154
+ "loss": 1.2221,
9155
+ "step": 1302
9156
+ },
9157
+ {
9158
+ "epoch": 0.8578717801004032,
9159
+ "grad_norm": 0.3015180230140686,
9160
+ "learning_rate": 1.0399662668034327e-05,
9161
+ "loss": 1.1769,
9162
+ "step": 1303
9163
+ },
9164
+ {
9165
+ "epoch": 0.858530162126574,
9166
+ "grad_norm": 0.295482873916626,
9167
+ "learning_rate": 1.0304839608936e-05,
9168
+ "loss": 1.1557,
9169
+ "step": 1304
9170
+ },
9171
+ {
9172
+ "epoch": 0.8591885441527446,
9173
+ "grad_norm": 0.3402240574359894,
9174
+ "learning_rate": 1.021042733663723e-05,
9175
+ "loss": 1.1766,
9176
+ "step": 1305
9177
+ },
9178
+ {
9179
+ "epoch": 0.8598469261789153,
9180
+ "grad_norm": 0.35621342062950134,
9181
+ "learning_rate": 1.0116426283528302e-05,
9182
+ "loss": 1.268,
9183
+ "step": 1306
9184
+ },
9185
+ {
9186
+ "epoch": 0.860505308205086,
9187
+ "grad_norm": 0.36093905568122864,
9188
+ "learning_rate": 1.0022836880116138e-05,
9189
+ "loss": 1.2207,
9190
+ "step": 1307
9191
+ },
9192
+ {
9193
+ "epoch": 0.8611636902312567,
9194
+ "grad_norm": 0.4131215512752533,
9195
+ "learning_rate": 9.929659555022442e-06,
9196
+ "loss": 1.3246,
9197
+ "step": 1308
9198
+ },
9199
+ {
9200
+ "epoch": 0.8618220722574274,
9201
+ "grad_norm": 0.4348328113555908,
9202
+ "learning_rate": 9.836894734981706e-06,
9203
+ "loss": 1.2316,
9204
+ "step": 1309
9205
+ },
9206
+ {
9207
+ "epoch": 0.8624804542835981,
9208
+ "grad_norm": 0.471159964799881,
9209
+ "learning_rate": 9.744542844839143e-06,
9210
+ "loss": 1.4138,
9211
+ "step": 1310
9212
+ },
9213
+ {
9214
+ "epoch": 0.8631388363097687,
9215
+ "grad_norm": 0.4972412586212158,
9216
+ "learning_rate": 9.652604307548895e-06,
9217
+ "loss": 1.3278,
9218
+ "step": 1311
9219
+ },
9220
+ {
9221
+ "epoch": 0.8637972183359395,
9222
+ "grad_norm": 0.5030047297477722,
9223
+ "learning_rate": 9.561079544171992e-06,
9224
+ "loss": 1.2477,
9225
+ "step": 1312
9226
+ },
9227
+ {
9228
+ "epoch": 0.8644556003621101,
9229
+ "grad_norm": 0.5558236241340637,
9230
+ "learning_rate": 9.469968973874466e-06,
9231
+ "loss": 1.4028,
9232
+ "step": 1313
9233
+ },
9234
+ {
9235
+ "epoch": 0.8651139823882807,
9236
+ "grad_norm": 0.6310866475105286,
9237
+ "learning_rate": 9.37927301392545e-06,
9238
+ "loss": 1.2789,
9239
+ "step": 1314
9240
+ },
9241
+ {
9242
+ "epoch": 0.8657723644144515,
9243
+ "grad_norm": 0.7040503025054932,
9244
+ "learning_rate": 9.28899207969518e-06,
9245
+ "loss": 1.1996,
9246
+ "step": 1315
9247
+ },
9248
+ {
9249
+ "epoch": 0.8664307464406221,
9250
+ "grad_norm": 0.7893826365470886,
9251
+ "learning_rate": 9.199126584653183e-06,
9252
+ "loss": 1.324,
9253
+ "step": 1316
9254
+ },
9255
+ {
9256
+ "epoch": 0.8670891284667929,
9257
+ "grad_norm": 0.9313814043998718,
9258
+ "learning_rate": 9.109676940366418e-06,
9259
+ "loss": 1.2993,
9260
+ "step": 1317
9261
+ },
9262
+ {
9263
+ "epoch": 0.8677475104929635,
9264
+ "grad_norm": 0.8821551203727722,
9265
+ "learning_rate": 9.02064355649721e-06,
9266
+ "loss": 1.0871,
9267
+ "step": 1318
9268
+ },
9269
+ {
9270
+ "epoch": 0.8684058925191342,
9271
+ "grad_norm": 1.143466591835022,
9272
+ "learning_rate": 8.932026840801554e-06,
9273
+ "loss": 1.2784,
9274
+ "step": 1319
9275
+ },
9276
+ {
9277
+ "epoch": 0.8690642745453049,
9278
+ "grad_norm": 1.2319263219833374,
9279
+ "learning_rate": 8.843827199127207e-06,
9280
+ "loss": 0.9828,
9281
+ "step": 1320
9282
+ },
9283
+ {
9284
+ "epoch": 0.8697226565714756,
9285
+ "grad_norm": 1.3100347518920898,
9286
+ "learning_rate": 8.756045035411753e-06,
9287
+ "loss": 1.0976,
9288
+ "step": 1321
9289
+ },
9290
+ {
9291
+ "epoch": 0.8703810385976463,
9292
+ "grad_norm": 1.8412470817565918,
9293
+ "learning_rate": 8.668680751680835e-06,
9294
+ "loss": 1.3813,
9295
+ "step": 1322
9296
+ },
9297
+ {
9298
+ "epoch": 0.871039420623817,
9299
+ "grad_norm": 1.6632609367370605,
9300
+ "learning_rate": 8.5817347480463e-06,
9301
+ "loss": 0.9646,
9302
+ "step": 1323
9303
+ },
9304
+ {
9305
+ "epoch": 0.8716978026499876,
9306
+ "grad_norm": 1.9535080194473267,
9307
+ "learning_rate": 8.495207422704298e-06,
9308
+ "loss": 0.9062,
9309
+ "step": 1324
9310
+ },
9311
+ {
9312
+ "epoch": 0.8723561846761584,
9313
+ "grad_norm": 1.937402606010437,
9314
+ "learning_rate": 8.409099171933544e-06,
9315
+ "loss": 0.8929,
9316
+ "step": 1325
9317
+ },
9318
+ {
9319
+ "epoch": 0.873014566702329,
9320
+ "grad_norm": 0.26802825927734375,
9321
+ "learning_rate": 8.323410390093522e-06,
9322
+ "loss": 1.1504,
9323
+ "step": 1326
9324
+ },
9325
+ {
9326
+ "epoch": 0.8736729487284998,
9327
+ "grad_norm": 0.2851593494415283,
9328
+ "learning_rate": 8.238141469622529e-06,
9329
+ "loss": 1.1977,
9330
+ "step": 1327
9331
+ },
9332
+ {
9333
+ "epoch": 0.8743313307546704,
9334
+ "grad_norm": 0.29775407910346985,
9335
+ "learning_rate": 8.15329280103605e-06,
9336
+ "loss": 1.2695,
9337
+ "step": 1328
9338
+ },
9339
+ {
9340
+ "epoch": 0.874989712780841,
9341
+ "grad_norm": 0.29565665125846863,
9342
+ "learning_rate": 8.068864772924855e-06,
9343
+ "loss": 1.0892,
9344
+ "step": 1329
9345
+ },
9346
+ {
9347
+ "epoch": 0.8756480948070118,
9348
+ "grad_norm": 0.3173798620700836,
9349
+ "learning_rate": 7.984857771953303e-06,
9350
+ "loss": 1.2387,
9351
+ "step": 1330
9352
+ },
9353
+ {
9354
+ "epoch": 0.8763064768331824,
9355
+ "grad_norm": 0.34442922472953796,
9356
+ "learning_rate": 7.901272182857478e-06,
9357
+ "loss": 1.23,
9358
+ "step": 1331
9359
+ },
9360
+ {
9361
+ "epoch": 0.8769648588593532,
9362
+ "grad_norm": 0.35819026827812195,
9363
+ "learning_rate": 7.818108388443546e-06,
9364
+ "loss": 1.2773,
9365
+ "step": 1332
9366
+ },
9367
+ {
9368
+ "epoch": 0.8776232408855238,
9369
+ "grad_norm": 0.3835400938987732,
9370
+ "learning_rate": 7.735366769585817e-06,
9371
+ "loss": 1.2615,
9372
+ "step": 1333
9373
+ },
9374
+ {
9375
+ "epoch": 0.8782816229116945,
9376
+ "grad_norm": 0.4186893701553345,
9377
+ "learning_rate": 7.653047705225257e-06,
9378
+ "loss": 1.2031,
9379
+ "step": 1334
9380
+ },
9381
+ {
9382
+ "epoch": 0.8789400049378652,
9383
+ "grad_norm": 0.4734337627887726,
9384
+ "learning_rate": 7.571151572367541e-06,
9385
+ "loss": 1.34,
9386
+ "step": 1335
9387
+ },
9388
+ {
9389
+ "epoch": 0.8795983869640359,
9390
+ "grad_norm": 0.494617760181427,
9391
+ "learning_rate": 7.489678746081364e-06,
9392
+ "loss": 1.269,
9393
+ "step": 1336
9394
+ },
9395
+ {
9396
+ "epoch": 0.8802567689902066,
9397
+ "grad_norm": 0.540384829044342,
9398
+ "learning_rate": 7.408629599496808e-06,
9399
+ "loss": 1.3307,
9400
+ "step": 1337
9401
+ },
9402
+ {
9403
+ "epoch": 0.8809151510163773,
9404
+ "grad_norm": 0.5604397058486938,
9405
+ "learning_rate": 7.32800450380361e-06,
9406
+ "loss": 1.2498,
9407
+ "step": 1338
9408
+ },
9409
+ {
9410
+ "epoch": 0.8815735330425479,
9411
+ "grad_norm": 0.6044402122497559,
9412
+ "learning_rate": 7.247803828249356e-06,
9413
+ "loss": 1.2038,
9414
+ "step": 1339
9415
+ },
9416
+ {
9417
+ "epoch": 0.8822319150687187,
9418
+ "grad_norm": 0.6669920682907104,
9419
+ "learning_rate": 7.168027940137922e-06,
9420
+ "loss": 1.1242,
9421
+ "step": 1340
9422
+ },
9423
+ {
9424
+ "epoch": 0.8828902970948893,
9425
+ "grad_norm": 0.8415902853012085,
9426
+ "learning_rate": 7.088677204827721e-06,
9427
+ "loss": 1.3357,
9428
+ "step": 1341
9429
+ },
9430
+ {
9431
+ "epoch": 0.8835486791210599,
9432
+ "grad_norm": 0.9297363758087158,
9433
+ "learning_rate": 7.009751985730062e-06,
9434
+ "loss": 1.2527,
9435
+ "step": 1342
9436
+ },
9437
+ {
9438
+ "epoch": 0.8842070611472307,
9439
+ "grad_norm": 1.0265207290649414,
9440
+ "learning_rate": 6.93125264430744e-06,
9441
+ "loss": 1.0002,
9442
+ "step": 1343
9443
+ },
9444
+ {
9445
+ "epoch": 0.8848654431734013,
9446
+ "grad_norm": 1.0541255474090576,
9447
+ "learning_rate": 6.853179540071964e-06,
9448
+ "loss": 1.104,
9449
+ "step": 1344
9450
+ },
9451
+ {
9452
+ "epoch": 0.8855238251995721,
9453
+ "grad_norm": 1.1322312355041504,
9454
+ "learning_rate": 6.775533030583559e-06,
9455
+ "loss": 0.8635,
9456
+ "step": 1345
9457
+ },
9458
+ {
9459
+ "epoch": 0.8861822072257427,
9460
+ "grad_norm": 1.4108020067214966,
9461
+ "learning_rate": 6.698313471448547e-06,
9462
+ "loss": 1.1874,
9463
+ "step": 1346
9464
+ },
9465
+ {
9466
+ "epoch": 0.8868405892519134,
9467
+ "grad_norm": 1.4998079538345337,
9468
+ "learning_rate": 6.62152121631785e-06,
9469
+ "loss": 1.2854,
9470
+ "step": 1347
9471
+ },
9472
+ {
9473
+ "epoch": 0.8874989712780841,
9474
+ "grad_norm": 2.0073752403259277,
9475
+ "learning_rate": 6.545156616885373e-06,
9476
+ "loss": 1.1182,
9477
+ "step": 1348
9478
+ },
9479
+ {
9480
+ "epoch": 0.8881573533042548,
9481
+ "grad_norm": 1.9627798795700073,
9482
+ "learning_rate": 6.469220022886491e-06,
9483
+ "loss": 1.0721,
9484
+ "step": 1349
9485
+ },
9486
+ {
9487
+ "epoch": 0.8888157353304255,
9488
+ "grad_norm": 2.0956573486328125,
9489
+ "learning_rate": 6.39371178209639e-06,
9490
+ "loss": 1.06,
9491
+ "step": 1350
9492
+ },
9493
+ {
9494
+ "epoch": 0.8894741173565962,
9495
+ "grad_norm": 0.26062607765197754,
9496
+ "learning_rate": 6.31863224032847e-06,
9497
+ "loss": 1.2184,
9498
+ "step": 1351
9499
+ },
9500
+ {
9501
+ "epoch": 0.8901324993827668,
9502
+ "grad_norm": 0.2938222289085388,
9503
+ "learning_rate": 6.24398174143277e-06,
9504
+ "loss": 1.262,
9505
+ "step": 1352
9506
+ },
9507
+ {
9508
+ "epoch": 0.8907908814089376,
9509
+ "grad_norm": 0.2993498146533966,
9510
+ "learning_rate": 6.169760627294408e-06,
9511
+ "loss": 1.0936,
9512
+ "step": 1353
9513
+ },
9514
+ {
9515
+ "epoch": 0.8914492634351082,
9516
+ "grad_norm": 0.3110993802547455,
9517
+ "learning_rate": 6.095969237831956e-06,
9518
+ "loss": 1.189,
9519
+ "step": 1354
9520
+ },
9521
+ {
9522
+ "epoch": 0.8921076454612789,
9523
+ "grad_norm": 0.3342379927635193,
9524
+ "learning_rate": 6.022607910996014e-06,
9525
+ "loss": 1.1589,
9526
+ "step": 1355
9527
+ },
9528
+ {
9529
+ "epoch": 0.8927660274874496,
9530
+ "grad_norm": 0.34470638632774353,
9531
+ "learning_rate": 5.949676982767505e-06,
9532
+ "loss": 1.2739,
9533
+ "step": 1356
9534
+ },
9535
+ {
9536
+ "epoch": 0.8934244095136202,
9537
+ "grad_norm": 0.3623284101486206,
9538
+ "learning_rate": 5.877176787156213e-06,
9539
+ "loss": 1.2129,
9540
+ "step": 1357
9541
+ },
9542
+ {
9543
+ "epoch": 0.894082791539791,
9544
+ "grad_norm": 0.3873266875743866,
9545
+ "learning_rate": 5.805107656199271e-06,
9546
+ "loss": 1.2821,
9547
+ "step": 1358
9548
+ },
9549
+ {
9550
+ "epoch": 0.8947411735659616,
9551
+ "grad_norm": 0.4302651882171631,
9552
+ "learning_rate": 5.733469919959622e-06,
9553
+ "loss": 1.2724,
9554
+ "step": 1359
9555
+ },
9556
+ {
9557
+ "epoch": 0.8953995555921324,
9558
+ "grad_norm": 0.44161009788513184,
9559
+ "learning_rate": 5.66226390652449e-06,
9560
+ "loss": 1.33,
9561
+ "step": 1360
9562
+ },
9563
+ {
9564
+ "epoch": 0.896057937618303,
9565
+ "grad_norm": 0.4458579421043396,
9566
+ "learning_rate": 5.591489942003902e-06,
9567
+ "loss": 1.3203,
9568
+ "step": 1361
9569
+ },
9570
+ {
9571
+ "epoch": 0.8967163196444737,
9572
+ "grad_norm": 0.50836181640625,
9573
+ "learning_rate": 5.521148350529137e-06,
9574
+ "loss": 1.4751,
9575
+ "step": 1362
9576
+ },
9577
+ {
9578
+ "epoch": 0.8973747016706444,
9579
+ "grad_norm": 0.5364328026771545,
9580
+ "learning_rate": 5.451239454251356e-06,
9581
+ "loss": 1.3369,
9582
+ "step": 1363
9583
+ },
9584
+ {
9585
+ "epoch": 0.8980330836968151,
9586
+ "grad_norm": 0.5729132890701294,
9587
+ "learning_rate": 5.381763573340049e-06,
9588
+ "loss": 1.2195,
9589
+ "step": 1364
9590
+ },
9591
+ {
9592
+ "epoch": 0.8986914657229857,
9593
+ "grad_norm": 0.5974079966545105,
9594
+ "learning_rate": 5.312721025981504e-06,
9595
+ "loss": 1.2283,
9596
+ "step": 1365
9597
+ },
9598
+ {
9599
+ "epoch": 0.8993498477491565,
9600
+ "grad_norm": 0.6872406601905823,
9601
+ "learning_rate": 5.244112128377476e-06,
9602
+ "loss": 1.3682,
9603
+ "step": 1366
9604
+ },
9605
+ {
9606
+ "epoch": 0.9000082297753271,
9607
+ "grad_norm": 0.8229653239250183,
9608
+ "learning_rate": 5.1759371947437516e-06,
9609
+ "loss": 1.3575,
9610
+ "step": 1367
9611
+ },
9612
+ {
9613
+ "epoch": 0.9006666118014979,
9614
+ "grad_norm": 0.83298259973526,
9615
+ "learning_rate": 5.108196537308507e-06,
9616
+ "loss": 1.1735,
9617
+ "step": 1368
9618
+ },
9619
+ {
9620
+ "epoch": 0.9013249938276685,
9621
+ "grad_norm": 1.0485754013061523,
9622
+ "learning_rate": 5.040890466311121e-06,
9623
+ "loss": 1.1567,
9624
+ "step": 1369
9625
+ },
9626
+ {
9627
+ "epoch": 0.9019833758538391,
9628
+ "grad_norm": 1.270142912864685,
9629
+ "learning_rate": 4.97401929000062e-06,
9630
+ "loss": 1.1402,
9631
+ "step": 1370
9632
+ },
9633
+ {
9634
+ "epoch": 0.9026417578800099,
9635
+ "grad_norm": 1.2949579954147339,
9636
+ "learning_rate": 4.907583314634267e-06,
9637
+ "loss": 0.8752,
9638
+ "step": 1371
9639
+ },
9640
+ {
9641
+ "epoch": 0.9033001399061805,
9642
+ "grad_norm": 1.4545363187789917,
9643
+ "learning_rate": 4.841582844476245e-06,
9644
+ "loss": 1.0948,
9645
+ "step": 1372
9646
+ },
9647
+ {
9648
+ "epoch": 0.9039585219323513,
9649
+ "grad_norm": 1.7462900876998901,
9650
+ "learning_rate": 4.7760181817961604e-06,
9651
+ "loss": 1.0682,
9652
+ "step": 1373
9653
+ },
9654
+ {
9655
+ "epoch": 0.9046169039585219,
9656
+ "grad_norm": 1.53018319606781,
9657
+ "learning_rate": 4.710889626867687e-06,
9658
+ "loss": 0.8449,
9659
+ "step": 1374
9660
+ },
9661
+ {
9662
+ "epoch": 0.9052752859846926,
9663
+ "grad_norm": 2.336136817932129,
9664
+ "learning_rate": 4.646197477967251e-06,
9665
+ "loss": 1.2089,
9666
+ "step": 1375
9667
+ },
9668
+ {
9669
+ "epoch": 0.9059336680108633,
9670
+ "grad_norm": 0.24908111989498138,
9671
+ "learning_rate": 4.5819420313726545e-06,
9672
+ "loss": 1.1893,
9673
+ "step": 1376
9674
+ },
9675
+ {
9676
+ "epoch": 0.906592050037034,
9677
+ "grad_norm": 0.2742631733417511,
9678
+ "learning_rate": 4.518123581361577e-06,
9679
+ "loss": 1.2126,
9680
+ "step": 1377
9681
+ },
9682
+ {
9683
+ "epoch": 0.9072504320632047,
9684
+ "grad_norm": 0.29479411244392395,
9685
+ "learning_rate": 4.4547424202104335e-06,
9686
+ "loss": 1.1572,
9687
+ "step": 1378
9688
+ },
9689
+ {
9690
+ "epoch": 0.9079088140893754,
9691
+ "grad_norm": 0.299268901348114,
9692
+ "learning_rate": 4.391798838192884e-06,
9693
+ "loss": 1.1414,
9694
+ "step": 1379
9695
+ },
9696
+ {
9697
+ "epoch": 0.908567196115546,
9698
+ "grad_norm": 0.32361260056495667,
9699
+ "learning_rate": 4.329293123578604e-06,
9700
+ "loss": 1.2059,
9701
+ "step": 1380
9702
+ },
9703
+ {
9704
+ "epoch": 0.9092255781417168,
9705
+ "grad_norm": 0.35213223099708557,
9706
+ "learning_rate": 4.267225562631871e-06,
9707
+ "loss": 1.1661,
9708
+ "step": 1381
9709
+ },
9710
+ {
9711
+ "epoch": 0.9098839601678874,
9712
+ "grad_norm": 0.36282479763031006,
9713
+ "learning_rate": 4.2055964396103486e-06,
9714
+ "loss": 1.2415,
9715
+ "step": 1382
9716
+ },
9717
+ {
9718
+ "epoch": 0.910542342194058,
9719
+ "grad_norm": 0.39451318979263306,
9720
+ "learning_rate": 4.1444060367636925e-06,
9721
+ "loss": 1.1791,
9722
+ "step": 1383
9723
+ },
9724
+ {
9725
+ "epoch": 0.9112007242202288,
9726
+ "grad_norm": 0.4231424927711487,
9727
+ "learning_rate": 4.083654634332334e-06,
9728
+ "loss": 1.3214,
9729
+ "step": 1384
9730
+ },
9731
+ {
9732
+ "epoch": 0.9118591062463994,
9733
+ "grad_norm": 0.4535464942455292,
9734
+ "learning_rate": 4.023342510546191e-06,
9735
+ "loss": 1.2253,
9736
+ "step": 1385
9737
+ },
9738
+ {
9739
+ "epoch": 0.9125174882725702,
9740
+ "grad_norm": 0.5160973072052002,
9741
+ "learning_rate": 3.963469941623288e-06,
9742
+ "loss": 1.2891,
9743
+ "step": 1386
9744
+ },
9745
+ {
9746
+ "epoch": 0.9131758702987408,
9747
+ "grad_norm": 0.5102490782737732,
9748
+ "learning_rate": 3.904037201768618e-06,
9749
+ "loss": 1.2608,
9750
+ "step": 1387
9751
+ },
9752
+ {
9753
+ "epoch": 0.9138342523249116,
9754
+ "grad_norm": 0.5157856941223145,
9755
+ "learning_rate": 3.845044563172895e-06,
9756
+ "loss": 1.3482,
9757
+ "step": 1388
9758
+ },
9759
+ {
9760
+ "epoch": 0.9144926343510822,
9761
+ "grad_norm": 0.576413094997406,
9762
+ "learning_rate": 3.786492296011157e-06,
9763
+ "loss": 1.2207,
9764
+ "step": 1389
9765
+ },
9766
+ {
9767
+ "epoch": 0.9151510163772529,
9768
+ "grad_norm": 0.652743399143219,
9769
+ "learning_rate": 3.7283806684416776e-06,
9770
+ "loss": 1.3499,
9771
+ "step": 1390
9772
+ },
9773
+ {
9774
+ "epoch": 0.9158093984034236,
9775
+ "grad_norm": 0.7483471035957336,
9776
+ "learning_rate": 3.670709946604667e-06,
9777
+ "loss": 1.3639,
9778
+ "step": 1391
9779
+ },
9780
+ {
9781
+ "epoch": 0.9164677804295943,
9782
+ "grad_norm": 0.7818670868873596,
9783
+ "learning_rate": 3.6134803946210937e-06,
9784
+ "loss": 1.1841,
9785
+ "step": 1392
9786
+ },
9787
+ {
9788
+ "epoch": 0.917126162455765,
9789
+ "grad_norm": 0.8835737109184265,
9790
+ "learning_rate": 3.5566922745914335e-06,
9791
+ "loss": 1.0998,
9792
+ "step": 1393
9793
+ },
9794
+ {
9795
+ "epoch": 0.9177845444819357,
9796
+ "grad_norm": 1.2403169870376587,
9797
+ "learning_rate": 3.5003458465944882e-06,
9798
+ "loss": 1.5137,
9799
+ "step": 1394
9800
+ },
9801
+ {
9802
+ "epoch": 0.9184429265081063,
9803
+ "grad_norm": 1.1381645202636719,
9804
+ "learning_rate": 3.444441368686191e-06,
9805
+ "loss": 1.069,
9806
+ "step": 1395
9807
+ },
9808
+ {
9809
+ "epoch": 0.919101308534277,
9810
+ "grad_norm": 1.4728044271469116,
9811
+ "learning_rate": 3.388979096898415e-06,
9812
+ "loss": 1.2426,
9813
+ "step": 1396
9814
+ },
9815
+ {
9816
+ "epoch": 0.9197596905604477,
9817
+ "grad_norm": 1.2873393297195435,
9818
+ "learning_rate": 3.3339592852378864e-06,
9819
+ "loss": 0.962,
9820
+ "step": 1397
9821
+ },
9822
+ {
9823
+ "epoch": 0.9204180725866183,
9824
+ "grad_norm": 1.5346226692199707,
9825
+ "learning_rate": 3.2793821856848426e-06,
9826
+ "loss": 0.9109,
9827
+ "step": 1398
9828
+ },
9829
+ {
9830
+ "epoch": 0.9210764546127891,
9831
+ "grad_norm": 1.9029617309570312,
9832
+ "learning_rate": 3.225248048192053e-06,
9833
+ "loss": 1.1107,
9834
+ "step": 1399
9835
+ },
9836
+ {
9837
+ "epoch": 0.9217348366389597,
9838
+ "grad_norm": 1.7355810403823853,
9839
+ "learning_rate": 3.171557120683588e-06,
9840
+ "loss": 1.0064,
9841
+ "step": 1400
9842
+ },
9843
+ {
9844
+ "epoch": 0.9223932186651305,
9845
+ "grad_norm": 0.2773732841014862,
9846
+ "learning_rate": 3.118309649053686e-06,
9847
+ "loss": 1.2105,
9848
+ "step": 1401
9849
+ },
9850
+ {
9851
+ "epoch": 0.9230516006913011,
9852
+ "grad_norm": 0.2957621216773987,
9853
+ "learning_rate": 3.065505877165675e-06,
9854
+ "loss": 1.2446,
9855
+ "step": 1402
9856
+ },
9857
+ {
9858
+ "epoch": 0.9237099827174718,
9859
+ "grad_norm": 0.31012555956840515,
9860
+ "learning_rate": 3.01314604685079e-06,
9861
+ "loss": 1.246,
9862
+ "step": 1403
9863
+ },
9864
+ {
9865
+ "epoch": 0.9243683647436425,
9866
+ "grad_norm": 0.3149036169052124,
9867
+ "learning_rate": 2.9612303979071e-06,
9868
+ "loss": 1.161,
9869
+ "step": 1404
9870
+ },
9871
+ {
9872
+ "epoch": 0.9250267467698132,
9873
+ "grad_norm": 0.35212263464927673,
9874
+ "learning_rate": 2.909759168098436e-06,
9875
+ "loss": 1.2855,
9876
+ "step": 1405
9877
+ },
9878
+ {
9879
+ "epoch": 0.9256851287959839,
9880
+ "grad_norm": 0.3609144389629364,
9881
+ "learning_rate": 2.858732593153246e-06,
9882
+ "loss": 1.1838,
9883
+ "step": 1406
9884
+ },
9885
+ {
9886
+ "epoch": 0.9263435108221546,
9887
+ "grad_norm": 0.3796745538711548,
9888
+ "learning_rate": 2.8081509067635516e-06,
9889
+ "loss": 1.2689,
9890
+ "step": 1407
9891
+ },
9892
+ {
9893
+ "epoch": 0.9270018928483252,
9894
+ "grad_norm": 0.38216182589530945,
9895
+ "learning_rate": 2.7580143405838586e-06,
9896
+ "loss": 1.1406,
9897
+ "step": 1408
9898
+ },
9899
+ {
9900
+ "epoch": 0.9276602748744959,
9901
+ "grad_norm": 0.4440428912639618,
9902
+ "learning_rate": 2.708323124230139e-06,
9903
+ "loss": 1.2299,
9904
+ "step": 1409
9905
+ },
9906
+ {
9907
+ "epoch": 0.9283186569006666,
9908
+ "grad_norm": 0.4657718241214752,
9909
+ "learning_rate": 2.659077485278716e-06,
9910
+ "loss": 1.2485,
9911
+ "step": 1410
9912
+ },
9913
+ {
9914
+ "epoch": 0.9289770389268373,
9915
+ "grad_norm": 0.5070340037345886,
9916
+ "learning_rate": 2.6102776492652805e-06,
9917
+ "loss": 1.4255,
9918
+ "step": 1411
9919
+ },
9920
+ {
9921
+ "epoch": 0.929635420953008,
9922
+ "grad_norm": 0.5538939237594604,
9923
+ "learning_rate": 2.5619238396837662e-06,
9924
+ "loss": 1.4407,
9925
+ "step": 1412
9926
+ },
9927
+ {
9928
+ "epoch": 0.9302938029791786,
9929
+ "grad_norm": 0.5763673186302185,
9930
+ "learning_rate": 2.514016277985487e-06,
9931
+ "loss": 1.2522,
9932
+ "step": 1413
9933
+ },
9934
+ {
9935
+ "epoch": 0.9309521850053494,
9936
+ "grad_norm": 0.6714739203453064,
9937
+ "learning_rate": 2.466555183577968e-06,
9938
+ "loss": 1.2696,
9939
+ "step": 1414
9940
+ },
9941
+ {
9942
+ "epoch": 0.93161056703152,
9943
+ "grad_norm": 0.7577025890350342,
9944
+ "learning_rate": 2.419540773823992e-06,
9945
+ "loss": 1.2229,
9946
+ "step": 1415
9947
+ },
9948
+ {
9949
+ "epoch": 0.9322689490576908,
9950
+ "grad_norm": 1.0093814134597778,
9951
+ "learning_rate": 2.3729732640406233e-06,
9952
+ "loss": 1.2574,
9953
+ "step": 1416
9954
+ },
9955
+ {
9956
+ "epoch": 0.9329273310838614,
9957
+ "grad_norm": 1.0037925243377686,
9958
+ "learning_rate": 2.32685286749823e-06,
9959
+ "loss": 1.1359,
9960
+ "step": 1417
9961
+ },
9962
+ {
9963
+ "epoch": 0.9335857131100321,
9964
+ "grad_norm": 1.3896335363388062,
9965
+ "learning_rate": 2.2811797954194524e-06,
9966
+ "loss": 1.2697,
9967
+ "step": 1418
9968
+ },
9969
+ {
9970
+ "epoch": 0.9342440951362028,
9971
+ "grad_norm": 1.2368346452713013,
9972
+ "learning_rate": 2.235954256978301e-06,
9973
+ "loss": 1.1392,
9974
+ "step": 1419
9975
+ },
9976
+ {
9977
+ "epoch": 0.9349024771623735,
9978
+ "grad_norm": 1.3703478574752808,
9979
+ "learning_rate": 2.191176459299138e-06,
9980
+ "loss": 1.1208,
9981
+ "step": 1420
9982
+ },
9983
+ {
9984
+ "epoch": 0.9355608591885441,
9985
+ "grad_norm": 1.3063801527023315,
9986
+ "learning_rate": 2.146846607455788e-06,
9987
+ "loss": 0.9792,
9988
+ "step": 1421
9989
+ },
9990
+ {
9991
+ "epoch": 0.9362192412147149,
9992
+ "grad_norm": 1.5417190790176392,
9993
+ "learning_rate": 2.1029649044705503e-06,
9994
+ "loss": 1.1611,
9995
+ "step": 1422
9996
+ },
9997
+ {
9998
+ "epoch": 0.9368776232408855,
9999
+ "grad_norm": 1.48011314868927,
10000
+ "learning_rate": 2.059531551313287e-06,
10001
+ "loss": 0.8745,
10002
+ "step": 1423
10003
+ },
10004
+ {
10005
+ "epoch": 0.9375360052670562,
10006
+ "grad_norm": 1.7629079818725586,
10007
+ "learning_rate": 2.016546746900505e-06,
10008
+ "loss": 1.0266,
10009
+ "step": 1424
10010
+ },
10011
+ {
10012
+ "epoch": 0.9381943872932269,
10013
+ "grad_norm": 2.372678518295288,
10014
+ "learning_rate": 1.9740106880944297e-06,
10015
+ "loss": 1.2707,
10016
+ "step": 1425
10017
+ },
10018
+ {
10019
+ "epoch": 0.9388527693193975,
10020
+ "grad_norm": 0.26507827639579773,
10021
+ "learning_rate": 1.9319235697021763e-06,
10022
+ "loss": 1.2121,
10023
+ "step": 1426
10024
+ },
10025
+ {
10026
+ "epoch": 0.9395111513455683,
10027
+ "grad_norm": 0.29203614592552185,
10028
+ "learning_rate": 1.8902855844747047e-06,
10029
+ "loss": 1.1962,
10030
+ "step": 1427
10031
+ },
10032
+ {
10033
+ "epoch": 0.9401695333717389,
10034
+ "grad_norm": 0.3047432601451874,
10035
+ "learning_rate": 1.8490969231061084e-06,
10036
+ "loss": 1.2417,
10037
+ "step": 1428
10038
+ },
10039
+ {
10040
+ "epoch": 0.9408279153979097,
10041
+ "grad_norm": 0.314283162355423,
10042
+ "learning_rate": 1.8083577742326163e-06,
10043
+ "loss": 1.1419,
10044
+ "step": 1429
10045
+ },
10046
+ {
10047
+ "epoch": 0.9414862974240803,
10048
+ "grad_norm": 0.32703661918640137,
10049
+ "learning_rate": 1.7680683244318152e-06,
10050
+ "loss": 1.1603,
10051
+ "step": 1430
10052
+ },
10053
+ {
10054
+ "epoch": 0.942144679450251,
10055
+ "grad_norm": 0.3614916503429413,
10056
+ "learning_rate": 1.728228758221706e-06,
10057
+ "loss": 1.1844,
10058
+ "step": 1431
10059
+ },
10060
+ {
10061
+ "epoch": 0.9428030614764217,
10062
+ "grad_norm": 0.3773248493671417,
10063
+ "learning_rate": 1.688839258059971e-06,
10064
+ "loss": 1.328,
10065
+ "step": 1432
10066
+ },
10067
+ {
10068
+ "epoch": 0.9434614435025924,
10069
+ "grad_norm": 0.42976126074790955,
10070
+ "learning_rate": 1.6499000043429968e-06,
10071
+ "loss": 1.3348,
10072
+ "step": 1433
10073
+ },
10074
+ {
10075
+ "epoch": 0.9441198255287631,
10076
+ "grad_norm": 0.4219948947429657,
10077
+ "learning_rate": 1.6114111754051974e-06,
10078
+ "loss": 1.1941,
10079
+ "step": 1434
10080
+ },
10081
+ {
10082
+ "epoch": 0.9447782075549338,
10083
+ "grad_norm": 0.4261309802532196,
10084
+ "learning_rate": 1.5733729475181036e-06,
10085
+ "loss": 1.2301,
10086
+ "step": 1435
10087
+ },
10088
+ {
10089
+ "epoch": 0.9454365895811044,
10090
+ "grad_norm": 0.46671414375305176,
10091
+ "learning_rate": 1.5357854948895634e-06,
10092
+ "loss": 1.2488,
10093
+ "step": 1436
10094
+ },
10095
+ {
10096
+ "epoch": 0.9460949716072751,
10097
+ "grad_norm": 0.5037201642990112,
10098
+ "learning_rate": 1.4986489896629651e-06,
10099
+ "loss": 1.2346,
10100
+ "step": 1437
10101
+ },
10102
+ {
10103
+ "epoch": 0.9467533536334458,
10104
+ "grad_norm": 0.5437148809432983,
10105
+ "learning_rate": 1.4619636019164606e-06,
10106
+ "loss": 1.2866,
10107
+ "step": 1438
10108
+ },
10109
+ {
10110
+ "epoch": 0.9474117356596164,
10111
+ "grad_norm": 0.6370693445205688,
10112
+ "learning_rate": 1.425729499662154e-06,
10113
+ "loss": 1.2668,
10114
+ "step": 1439
10115
+ },
10116
+ {
10117
+ "epoch": 0.9480701176857872,
10118
+ "grad_norm": 0.6582576036453247,
10119
+ "learning_rate": 1.3899468488453583e-06,
10120
+ "loss": 1.215,
10121
+ "step": 1440
10122
+ },
10123
+ {
10124
+ "epoch": 0.9487284997119578,
10125
+ "grad_norm": 0.7763570547103882,
10126
+ "learning_rate": 1.354615813343818e-06,
10127
+ "loss": 1.1654,
10128
+ "step": 1441
10129
+ },
10130
+ {
10131
+ "epoch": 0.9493868817381286,
10132
+ "grad_norm": 1.096980094909668,
10133
+ "learning_rate": 1.319736554966955e-06,
10134
+ "loss": 1.2844,
10135
+ "step": 1442
10136
+ },
10137
+ {
10138
+ "epoch": 0.9500452637642992,
10139
+ "grad_norm": 0.9722412824630737,
10140
+ "learning_rate": 1.2853092334551452e-06,
10141
+ "loss": 1.1631,
10142
+ "step": 1443
10143
+ },
10144
+ {
10145
+ "epoch": 0.95070364579047,
10146
+ "grad_norm": 1.2841540575027466,
10147
+ "learning_rate": 1.2513340064790102e-06,
10148
+ "loss": 1.0249,
10149
+ "step": 1444
10150
+ },
10151
+ {
10152
+ "epoch": 0.9513620278166406,
10153
+ "grad_norm": 1.3519368171691895,
10154
+ "learning_rate": 1.2178110296386157e-06,
10155
+ "loss": 1.2195,
10156
+ "step": 1445
10157
+ },
10158
+ {
10159
+ "epoch": 0.9520204098428113,
10160
+ "grad_norm": 1.3257054090499878,
10161
+ "learning_rate": 1.1847404564628185e-06,
10162
+ "loss": 1.1797,
10163
+ "step": 1446
10164
+ },
10165
+ {
10166
+ "epoch": 0.952678791868982,
10167
+ "grad_norm": 1.405526876449585,
10168
+ "learning_rate": 1.1521224384085871e-06,
10169
+ "loss": 0.8704,
10170
+ "step": 1447
10171
+ },
10172
+ {
10173
+ "epoch": 0.9533371738951527,
10174
+ "grad_norm": 1.6719517707824707,
10175
+ "learning_rate": 1.1199571248602382e-06,
10176
+ "loss": 1.0272,
10177
+ "step": 1448
10178
+ },
10179
+ {
10180
+ "epoch": 0.9539955559213233,
10181
+ "grad_norm": 1.8807095289230347,
10182
+ "learning_rate": 1.0882446631287902e-06,
10183
+ "loss": 0.8809,
10184
+ "step": 1449
10185
+ },
10186
+ {
10187
+ "epoch": 0.954653937947494,
10188
+ "grad_norm": 2.01116943359375,
10189
+ "learning_rate": 1.0569851984513103e-06,
10190
+ "loss": 0.9926,
10191
+ "step": 1450
10192
+ },
10193
+ {
10194
+ "epoch": 0.9553123199736647,
10195
+ "grad_norm": 0.26615461707115173,
10196
+ "learning_rate": 1.0261788739902022e-06,
10197
+ "loss": 1.2286,
10198
+ "step": 1451
10199
+ },
10200
+ {
10201
+ "epoch": 0.9559707019998354,
10202
+ "grad_norm": 0.28414100408554077,
10203
+ "learning_rate": 9.958258308325973e-07,
10204
+ "loss": 1.2566,
10205
+ "step": 1452
10206
+ },
10207
+ {
10208
+ "epoch": 0.9566290840260061,
10209
+ "grad_norm": 0.28735122084617615,
10210
+ "learning_rate": 9.659262079896314e-07,
10211
+ "loss": 1.1613,
10212
+ "step": 1453
10213
+ },
10214
+ {
10215
+ "epoch": 0.9572874660521767,
10216
+ "grad_norm": 0.31062746047973633,
10217
+ "learning_rate": 9.364801423959235e-07,
10218
+ "loss": 1.2663,
10219
+ "step": 1454
10220
+ },
10221
+ {
10222
+ "epoch": 0.9579458480783475,
10223
+ "grad_norm": 0.331766813993454,
10224
+ "learning_rate": 9.074877689088768e-07,
10225
+ "loss": 1.2882,
10226
+ "step": 1455
10227
+ },
10228
+ {
10229
+ "epoch": 0.9586042301045181,
10230
+ "grad_norm": 0.34377574920654297,
10231
+ "learning_rate": 8.78949220308023e-07,
10232
+ "loss": 1.2723,
10233
+ "step": 1456
10234
+ },
10235
+ {
10236
+ "epoch": 0.9592626121306889,
10237
+ "grad_norm": 0.35146182775497437,
10238
+ "learning_rate": 8.50864627294512e-07,
10239
+ "loss": 1.1882,
10240
+ "step": 1457
10241
+ },
10242
+ {
10243
+ "epoch": 0.9599209941568595,
10244
+ "grad_norm": 0.37997257709503174,
10245
+ "learning_rate": 8.232341184904457e-07,
10246
+ "loss": 1.2171,
10247
+ "step": 1458
10248
+ },
10249
+ {
10250
+ "epoch": 0.9605793761830302,
10251
+ "grad_norm": 0.4185076057910919,
10252
+ "learning_rate": 7.960578204383007e-07,
10253
+ "loss": 1.2212,
10254
+ "step": 1459
10255
+ },
10256
+ {
10257
+ "epoch": 0.9612377582092009,
10258
+ "grad_norm": 0.4693465828895569,
10259
+ "learning_rate": 7.693358576003617e-07,
10260
+ "loss": 1.2836,
10261
+ "step": 1460
10262
+ },
10263
+ {
10264
+ "epoch": 0.9618961402353716,
10265
+ "grad_norm": 0.4621378779411316,
10266
+ "learning_rate": 7.430683523581561e-07,
10267
+ "loss": 1.2892,
10268
+ "step": 1461
10269
+ },
10270
+ {
10271
+ "epoch": 0.9625545222615423,
10272
+ "grad_norm": 0.49882352352142334,
10273
+ "learning_rate": 7.172554250118535e-07,
10274
+ "loss": 1.2688,
10275
+ "step": 1462
10276
+ },
10277
+ {
10278
+ "epoch": 0.9632129042877129,
10279
+ "grad_norm": 0.5431182384490967,
10280
+ "learning_rate": 6.91897193779767e-07,
10281
+ "loss": 1.3595,
10282
+ "step": 1463
10283
+ },
10284
+ {
10285
+ "epoch": 0.9638712863138836,
10286
+ "grad_norm": 0.6177190542221069,
10287
+ "learning_rate": 6.66993774797775e-07,
10288
+ "loss": 1.3173,
10289
+ "step": 1464
10290
+ },
10291
+ {
10292
+ "epoch": 0.9645296683400543,
10293
+ "grad_norm": 0.6704779863357544,
10294
+ "learning_rate": 6.425452821188116e-07,
10295
+ "loss": 1.2451,
10296
+ "step": 1465
10297
+ },
10298
+ {
10299
+ "epoch": 0.965188050366225,
10300
+ "grad_norm": 0.7778468132019043,
10301
+ "learning_rate": 6.185518277123214e-07,
10302
+ "loss": 1.1512,
10303
+ "step": 1466
10304
+ },
10305
+ {
10306
+ "epoch": 0.9658464323923956,
10307
+ "grad_norm": 0.7778995633125305,
10308
+ "learning_rate": 5.950135214637831e-07,
10309
+ "loss": 1.1375,
10310
+ "step": 1467
10311
+ },
10312
+ {
10313
+ "epoch": 0.9665048144185664,
10314
+ "grad_norm": 0.8882863521575928,
10315
+ "learning_rate": 5.719304711741535e-07,
10316
+ "loss": 1.2534,
10317
+ "step": 1468
10318
+ },
10319
+ {
10320
+ "epoch": 0.967163196444737,
10321
+ "grad_norm": 1.0903034210205078,
10322
+ "learning_rate": 5.493027825594244e-07,
10323
+ "loss": 1.0416,
10324
+ "step": 1469
10325
+ },
10326
+ {
10327
+ "epoch": 0.9678215784709078,
10328
+ "grad_norm": 1.4687763452529907,
10329
+ "learning_rate": 5.271305592501108e-07,
10330
+ "loss": 1.0645,
10331
+ "step": 1470
10332
+ },
10333
+ {
10334
+ "epoch": 0.9684799604970784,
10335
+ "grad_norm": 1.4143941402435303,
10336
+ "learning_rate": 5.054139027907967e-07,
10337
+ "loss": 1.0708,
10338
+ "step": 1471
10339
+ },
10340
+ {
10341
+ "epoch": 0.9691383425232492,
10342
+ "grad_norm": 1.5318214893341064,
10343
+ "learning_rate": 4.841529126396238e-07,
10344
+ "loss": 0.9667,
10345
+ "step": 1472
10346
+ },
10347
+ {
10348
+ "epoch": 0.9697967245494198,
10349
+ "grad_norm": 1.5767490863800049,
10350
+ "learning_rate": 4.633476861679142e-07,
10351
+ "loss": 0.7994,
10352
+ "step": 1473
10353
+ },
10354
+ {
10355
+ "epoch": 0.9704551065755905,
10356
+ "grad_norm": 1.8559094667434692,
10357
+ "learning_rate": 4.429983186596265e-07,
10358
+ "loss": 1.096,
10359
+ "step": 1474
10360
+ },
10361
+ {
10362
+ "epoch": 0.9711134886017612,
10363
+ "grad_norm": 2.398397922515869,
10364
+ "learning_rate": 4.2310490331102237e-07,
10365
+ "loss": 1.0258,
10366
+ "step": 1475
10367
+ },
10368
+ {
10369
+ "epoch": 0.9717718706279319,
10370
+ "grad_norm": 0.27290716767311096,
10371
+ "learning_rate": 4.036675312301452e-07,
10372
+ "loss": 1.1712,
10373
+ "step": 1476
10374
+ },
10375
+ {
10376
+ "epoch": 0.9724302526541025,
10377
+ "grad_norm": 0.27547338604927063,
10378
+ "learning_rate": 3.846862914364868e-07,
10379
+ "loss": 1.1352,
10380
+ "step": 1477
10381
+ },
10382
+ {
10383
+ "epoch": 0.9730886346802732,
10384
+ "grad_norm": 0.3008437752723694,
10385
+ "learning_rate": 3.6616127086051e-07,
10386
+ "loss": 1.2512,
10387
+ "step": 1478
10388
+ },
10389
+ {
10390
+ "epoch": 0.9737470167064439,
10391
+ "grad_norm": 0.3131862282752991,
10392
+ "learning_rate": 3.4809255434328227e-07,
10393
+ "loss": 1.217,
10394
+ "step": 1479
10395
+ },
10396
+ {
10397
+ "epoch": 0.9744053987326146,
10398
+ "grad_norm": 0.32987430691719055,
10399
+ "learning_rate": 3.3048022463612047e-07,
10400
+ "loss": 1.2212,
10401
+ "step": 1480
10402
+ },
10403
+ {
10404
+ "epoch": 0.9750637807587853,
10405
+ "grad_norm": 0.36609992384910583,
10406
+ "learning_rate": 3.1332436240011364e-07,
10407
+ "loss": 1.2002,
10408
+ "step": 1481
10409
+ },
10410
+ {
10411
+ "epoch": 0.9757221627849559,
10412
+ "grad_norm": 0.38834360241889954,
10413
+ "learning_rate": 2.9662504620588947e-07,
10414
+ "loss": 1.2311,
10415
+ "step": 1482
10416
+ },
10417
+ {
10418
+ "epoch": 0.9763805448111267,
10419
+ "grad_norm": 0.3734608292579651,
10420
+ "learning_rate": 2.8038235253311505e-07,
10421
+ "loss": 1.15,
10422
+ "step": 1483
10423
+ },
10424
+ {
10425
+ "epoch": 0.9770389268372973,
10426
+ "grad_norm": 0.39932605624198914,
10427
+ "learning_rate": 2.6459635577026353e-07,
10428
+ "loss": 1.1955,
10429
+ "step": 1484
10430
+ },
10431
+ {
10432
+ "epoch": 0.9776973088634681,
10433
+ "grad_norm": 0.4378267228603363,
10434
+ "learning_rate": 2.492671282141923e-07,
10435
+ "loss": 1.1007,
10436
+ "step": 1485
10437
+ },
10438
+ {
10439
+ "epoch": 0.9783556908896387,
10440
+ "grad_norm": 0.4685000479221344,
10441
+ "learning_rate": 2.343947400698432e-07,
10442
+ "loss": 1.2366,
10443
+ "step": 1486
10444
+ },
10445
+ {
10446
+ "epoch": 0.9790140729158094,
10447
+ "grad_norm": 0.5255098938941956,
10448
+ "learning_rate": 2.199792594499428e-07,
10449
+ "loss": 1.3388,
10450
+ "step": 1487
10451
+ },
10452
+ {
10453
+ "epoch": 0.9796724549419801,
10454
+ "grad_norm": 0.5867619514465332,
10455
+ "learning_rate": 2.0602075237465823e-07,
10456
+ "loss": 1.2941,
10457
+ "step": 1488
10458
+ },
10459
+ {
10460
+ "epoch": 0.9803308369681508,
10461
+ "grad_norm": 0.5758997201919556,
10462
+ "learning_rate": 1.9251928277128628e-07,
10463
+ "loss": 1.1415,
10464
+ "step": 1489
10465
+ },
10466
+ {
10467
+ "epoch": 0.9809892189943215,
10468
+ "grad_norm": 0.8498535752296448,
10469
+ "learning_rate": 1.7947491247399806e-07,
10470
+ "loss": 1.2043,
10471
+ "step": 1490
10472
+ },
10473
+ {
10474
+ "epoch": 0.9816476010204921,
10475
+ "grad_norm": 0.8512412309646606,
10476
+ "learning_rate": 1.6688770122353925e-07,
10477
+ "loss": 1.3614,
10478
+ "step": 1491
10479
+ },
10480
+ {
10481
+ "epoch": 0.9823059830466628,
10482
+ "grad_norm": 0.9369918704032898,
10483
+ "learning_rate": 1.5475770666694144e-07,
10484
+ "loss": 1.1451,
10485
+ "step": 1492
10486
+ },
10487
+ {
10488
+ "epoch": 0.9829643650728335,
10489
+ "grad_norm": 1.0150845050811768,
10490
+ "learning_rate": 1.430849843572779e-07,
10491
+ "loss": 1.2014,
10492
+ "step": 1493
10493
+ },
10494
+ {
10495
+ "epoch": 0.9836227470990042,
10496
+ "grad_norm": 1.2079380750656128,
10497
+ "learning_rate": 1.318695877533971e-07,
10498
+ "loss": 1.3343,
10499
+ "step": 1494
10500
+ },
10501
+ {
10502
+ "epoch": 0.9842811291251748,
10503
+ "grad_norm": 1.062026858329773,
10504
+ "learning_rate": 1.211115682196895e-07,
10505
+ "loss": 0.9174,
10506
+ "step": 1495
10507
+ },
10508
+ {
10509
+ "epoch": 0.9849395111513456,
10510
+ "grad_norm": 1.1822501420974731,
10511
+ "learning_rate": 1.1081097502584348e-07,
10512
+ "loss": 0.9607,
10513
+ "step": 1496
10514
+ },
10515
+ {
10516
+ "epoch": 0.9855978931775162,
10517
+ "grad_norm": 1.4208043813705444,
10518
+ "learning_rate": 1.0096785534660092e-07,
10519
+ "loss": 0.9065,
10520
+ "step": 1497
10521
+ },
10522
+ {
10523
+ "epoch": 0.986256275203687,
10524
+ "grad_norm": 1.4563997983932495,
10525
+ "learning_rate": 9.158225426160183e-08,
10526
+ "loss": 0.9299,
10527
+ "step": 1498
10528
+ },
10529
+ {
10530
+ "epoch": 0.9869146572298576,
10531
+ "grad_norm": 3.9852182865142822,
10532
+ "learning_rate": 8.265421475511792e-08,
10533
+ "loss": 1.2768,
10534
+ "step": 1499
10535
+ },
10536
+ {
10537
+ "epoch": 0.9875730392560284,
10538
+ "grad_norm": 2.2535030841827393,
10539
+ "learning_rate": 7.418377771585273e-08,
10540
+ "loss": 1.2758,
10541
+ "step": 1500
10542
+ },
10543
+ {
10544
+ "epoch": 0.988231421282199,
10545
+ "grad_norm": 0.26907411217689514,
10546
+ "learning_rate": 6.617098193681947e-08,
10547
+ "loss": 1.2956,
10548
+ "step": 1501
10549
+ },
10550
+ {
10551
+ "epoch": 0.9888898033083697,
10552
+ "grad_norm": 0.2853264808654785,
10553
+ "learning_rate": 5.86158641150969e-08,
10554
+ "loss": 1.1471,
10555
+ "step": 1502
10556
+ },
10557
+ {
10558
+ "epoch": 0.9895481853345404,
10559
+ "grad_norm": 0.3077790439128876,
10560
+ "learning_rate": 5.151845885167372e-08,
10561
+ "loss": 1.2542,
10562
+ "step": 1503
10563
+ },
10564
+ {
10565
+ "epoch": 0.990206567360711,
10566
+ "grad_norm": 0.33259809017181396,
10567
+ "learning_rate": 4.487879865133771e-08,
10568
+ "loss": 1.1694,
10569
+ "step": 1504
10570
+ },
10571
+ {
10572
+ "epoch": 0.9908649493868817,
10573
+ "grad_norm": 0.35665038228034973,
10574
+ "learning_rate": 3.8696913922475764e-08,
10575
+ "loss": 1.264,
10576
+ "step": 1505
10577
+ },
10578
+ {
10579
+ "epoch": 0.9915233314130524,
10580
+ "grad_norm": 0.38716834783554077,
10581
+ "learning_rate": 3.2972832976918554e-08,
10582
+ "loss": 1.3199,
10583
+ "step": 1506
10584
+ },
10585
+ {
10586
+ "epoch": 0.9921817134392231,
10587
+ "grad_norm": 0.43460676074028015,
10588
+ "learning_rate": 2.7706582029896068e-08,
10589
+ "loss": 1.2493,
10590
+ "step": 1507
10591
+ },
10592
+ {
10593
+ "epoch": 0.9928400954653938,
10594
+ "grad_norm": 0.4777851104736328,
10595
+ "learning_rate": 2.2898185199826673e-08,
10596
+ "loss": 1.3686,
10597
+ "step": 1508
10598
+ },
10599
+ {
10600
+ "epoch": 0.9934984774915645,
10601
+ "grad_norm": 0.5349164009094238,
10602
+ "learning_rate": 1.854766450826162e-08,
10603
+ "loss": 1.2081,
10604
+ "step": 1509
10605
+ },
10606
+ {
10607
+ "epoch": 0.9941568595177351,
10608
+ "grad_norm": 0.5055113434791565,
10609
+ "learning_rate": 1.4655039879740706e-08,
10610
+ "loss": 1.0484,
10611
+ "step": 1510
10612
+ },
10613
+ {
10614
+ "epoch": 0.9948152415439059,
10615
+ "grad_norm": 0.6259576678276062,
10616
+ "learning_rate": 1.122032914177007e-08,
10617
+ "loss": 1.2071,
10618
+ "step": 1511
10619
+ },
10620
+ {
10621
+ "epoch": 0.9954736235700765,
10622
+ "grad_norm": 0.7254166007041931,
10623
+ "learning_rate": 8.243548024655656e-09,
10624
+ "loss": 1.3634,
10625
+ "step": 1512
10626
+ },
10627
+ {
10628
+ "epoch": 0.9961320055962473,
10629
+ "grad_norm": 0.7936909794807434,
10630
+ "learning_rate": 5.72471016149212e-09,
10631
+ "loss": 1.2007,
10632
+ "step": 1513
10633
+ },
10634
+ {
10635
+ "epoch": 0.9967903876224179,
10636
+ "grad_norm": 0.9308106303215027,
10637
+ "learning_rate": 3.663827088085103e-09,
10638
+ "loss": 1.0131,
10639
+ "step": 1514
10640
+ },
10641
+ {
10642
+ "epoch": 0.9974487696485886,
10643
+ "grad_norm": 1.1433625221252441,
10644
+ "learning_rate": 2.060908242873527e-09,
10645
+ "loss": 1.1215,
10646
+ "step": 1515
10647
+ },
10648
+ {
10649
+ "epoch": 0.9981071516747593,
10650
+ "grad_norm": 1.2838548421859741,
10651
+ "learning_rate": 9.159609669406877e-10,
10652
+ "loss": 1.1398,
10653
+ "step": 1516
10654
+ },
10655
+ {
10656
+ "epoch": 0.99876553370093,
10657
+ "grad_norm": 1.4757442474365234,
10658
+ "learning_rate": 2.2899050391433918e-10,
10659
+ "loss": 1.1327,
10660
+ "step": 1517
10661
+ },
10662
+ {
10663
+ "epoch": 0.9994239157271007,
10664
+ "grad_norm": 1.396567463874817,
10665
+ "learning_rate": 0.0,
10666
+ "loss": 0.6568,
10667
+ "step": 1518
10668
  }
10669
  ],
10670
  "logging_steps": 1,
 
10679
  "should_evaluate": false,
10680
  "should_log": false,
10681
  "should_save": true,
10682
+ "should_training_stop": true
10683
  },
10684
  "attributes": {}
10685
  }
10686
  },
10687
+ "total_flos": 1.175202288478716e+18,
10688
  "train_batch_size": 2,
10689
  "trial_name": null,
10690
  "trial_params": null