romainnn commited on
Commit
59d1154
·
verified ·
1 Parent(s): 815a4f6

Training in progress, step 1393, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:271ede3554fdeeb0427b3379e80ce62b05fddbc488067ff1556a973086e26569
3
  size 35237104
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7141fb35b38e73dc0cd6dcb1d2ca0f764a1c83165e27bb41b5614bd1649d857c
3
  size 35237104
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0d7a57e5db09565e8491d2bd60346cea9593e50f8372fa742dd88e3966dba145
3
  size 18810356
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2c2882e51a35fea7cbdfdd7ee97855f918d60480d735b75e4494346a62b87e66
3
  size 18810356
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c9c9f473dbdb6a021be50abed212a77135f1ff162e195a740bfb8cc48941ca15
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e0448c0fce72c98b55ce7a959bda7fd70d820e3a465eadeb8aa4e968c89c0b07
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e4c0a5f6ceedc2446e5db7adac6e2aca149b32075f6be3467119c4457a7f4d81
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:480cd5995da9a488171cc4b50e2fc2b05048d0e285481447079dda7adec75f16
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 7.1813285457809695,
5
  "eval_steps": 2000,
6
- "global_step": 1000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7015,6 +7015,2757 @@
7015
  "learning_rate": 1.8635595197024886e-05,
7016
  "loss": 0.0,
7017
  "step": 1000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7018
  }
7019
  ],
7020
  "logging_steps": 1,
@@ -7029,12 +9780,12 @@
7029
  "should_evaluate": false,
7030
  "should_log": false,
7031
  "should_save": true,
7032
- "should_training_stop": false
7033
  },
7034
  "attributes": {}
7035
  }
7036
  },
7037
- "total_flos": 3.604771504128e+16,
7038
  "train_batch_size": 4,
7039
  "trial_name": null,
7040
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 10.00359066427289,
5
  "eval_steps": 2000,
6
+ "global_step": 1393,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7015
  "learning_rate": 1.8635595197024886e-05,
7016
  "loss": 0.0,
7017
  "step": 1000
7018
+ },
7019
+ {
7020
+ "epoch": 7.18850987432675,
7021
+ "grad_norm": 0.008335919119417667,
7022
+ "learning_rate": 1.8547222382572837e-05,
7023
+ "loss": 0.0001,
7024
+ "step": 1001
7025
+ },
7026
+ {
7027
+ "epoch": 7.195691202872531,
7028
+ "grad_norm": 0.004448807332664728,
7029
+ "learning_rate": 1.8459011866507452e-05,
7030
+ "loss": 0.0001,
7031
+ "step": 1002
7032
+ },
7033
+ {
7034
+ "epoch": 7.202872531418312,
7035
+ "grad_norm": 0.002166690304875374,
7036
+ "learning_rate": 1.837096410400078e-05,
7037
+ "loss": 0.0,
7038
+ "step": 1003
7039
+ },
7040
+ {
7041
+ "epoch": 7.210053859964093,
7042
+ "grad_norm": 0.007959997281432152,
7043
+ "learning_rate": 1.8283079549385e-05,
7044
+ "loss": 0.0001,
7045
+ "step": 1004
7046
+ },
7047
+ {
7048
+ "epoch": 7.217235188509874,
7049
+ "grad_norm": 0.011398511938750744,
7050
+ "learning_rate": 1.819535865615018e-05,
7051
+ "loss": 0.0001,
7052
+ "step": 1005
7053
+ },
7054
+ {
7055
+ "epoch": 7.224416517055655,
7056
+ "grad_norm": 0.0013214838691055775,
7057
+ "learning_rate": 1.810780187694185e-05,
7058
+ "loss": 0.0,
7059
+ "step": 1006
7060
+ },
7061
+ {
7062
+ "epoch": 7.231597845601437,
7063
+ "grad_norm": 0.0021551784593611956,
7064
+ "learning_rate": 1.8020409663558685e-05,
7065
+ "loss": 0.0,
7066
+ "step": 1007
7067
+ },
7068
+ {
7069
+ "epoch": 7.238779174147218,
7070
+ "grad_norm": 0.00151022057980299,
7071
+ "learning_rate": 1.7933182466950233e-05,
7072
+ "loss": 0.0,
7073
+ "step": 1008
7074
+ },
7075
+ {
7076
+ "epoch": 7.2459605026929985,
7077
+ "grad_norm": 0.004553725477308035,
7078
+ "learning_rate": 1.784612073721454e-05,
7079
+ "loss": 0.0001,
7080
+ "step": 1009
7081
+ },
7082
+ {
7083
+ "epoch": 7.253141831238779,
7084
+ "grad_norm": 0.0017206427874043584,
7085
+ "learning_rate": 1.77592249235958e-05,
7086
+ "loss": 0.0,
7087
+ "step": 1010
7088
+ },
7089
+ {
7090
+ "epoch": 7.26032315978456,
7091
+ "grad_norm": 0.009418018162250519,
7092
+ "learning_rate": 1.767249547448208e-05,
7093
+ "loss": 0.0001,
7094
+ "step": 1011
7095
+ },
7096
+ {
7097
+ "epoch": 7.267504488330341,
7098
+ "grad_norm": 0.006585447583347559,
7099
+ "learning_rate": 1.7585932837403024e-05,
7100
+ "loss": 0.0001,
7101
+ "step": 1012
7102
+ },
7103
+ {
7104
+ "epoch": 7.274685816876122,
7105
+ "grad_norm": 0.002000662963837385,
7106
+ "learning_rate": 1.749953745902746e-05,
7107
+ "loss": 0.0,
7108
+ "step": 1013
7109
+ },
7110
+ {
7111
+ "epoch": 7.281867145421903,
7112
+ "grad_norm": 0.007135197054594755,
7113
+ "learning_rate": 1.741330978516122e-05,
7114
+ "loss": 0.0001,
7115
+ "step": 1014
7116
+ },
7117
+ {
7118
+ "epoch": 7.289048473967684,
7119
+ "grad_norm": 0.005208285059779882,
7120
+ "learning_rate": 1.73272502607447e-05,
7121
+ "loss": 0.0001,
7122
+ "step": 1015
7123
+ },
7124
+ {
7125
+ "epoch": 7.296229802513465,
7126
+ "grad_norm": 0.0017541215056553483,
7127
+ "learning_rate": 1.7241359329850698e-05,
7128
+ "loss": 0.0,
7129
+ "step": 1016
7130
+ },
7131
+ {
7132
+ "epoch": 7.303411131059246,
7133
+ "grad_norm": 0.0037172988522797823,
7134
+ "learning_rate": 1.715563743568199e-05,
7135
+ "loss": 0.0001,
7136
+ "step": 1017
7137
+ },
7138
+ {
7139
+ "epoch": 7.310592459605027,
7140
+ "grad_norm": 0.0013541750377044082,
7141
+ "learning_rate": 1.7070085020569192e-05,
7142
+ "loss": 0.0,
7143
+ "step": 1018
7144
+ },
7145
+ {
7146
+ "epoch": 7.317773788150808,
7147
+ "grad_norm": 0.0008809631108306348,
7148
+ "learning_rate": 1.6984702525968326e-05,
7149
+ "loss": 0.0,
7150
+ "step": 1019
7151
+ },
7152
+ {
7153
+ "epoch": 7.3249551166965885,
7154
+ "grad_norm": 0.0033160988241434097,
7155
+ "learning_rate": 1.6899490392458627e-05,
7156
+ "loss": 0.0,
7157
+ "step": 1020
7158
+ },
7159
+ {
7160
+ "epoch": 7.332136445242369,
7161
+ "grad_norm": 0.006269481498748064,
7162
+ "learning_rate": 1.6814449059740306e-05,
7163
+ "loss": 0.0001,
7164
+ "step": 1021
7165
+ },
7166
+ {
7167
+ "epoch": 7.339317773788151,
7168
+ "grad_norm": 0.003873833455145359,
7169
+ "learning_rate": 1.6729578966632153e-05,
7170
+ "loss": 0.0,
7171
+ "step": 1022
7172
+ },
7173
+ {
7174
+ "epoch": 7.346499102333932,
7175
+ "grad_norm": 0.013830773532390594,
7176
+ "learning_rate": 1.664488055106942e-05,
7177
+ "loss": 0.0001,
7178
+ "step": 1023
7179
+ },
7180
+ {
7181
+ "epoch": 7.353680430879713,
7182
+ "grad_norm": 0.006302582565695047,
7183
+ "learning_rate": 1.6560354250101462e-05,
7184
+ "loss": 0.0001,
7185
+ "step": 1024
7186
+ },
7187
+ {
7188
+ "epoch": 7.360861759425494,
7189
+ "grad_norm": 0.008939807303249836,
7190
+ "learning_rate": 1.6476000499889517e-05,
7191
+ "loss": 0.0001,
7192
+ "step": 1025
7193
+ },
7194
+ {
7195
+ "epoch": 7.368043087971275,
7196
+ "grad_norm": 0.004149202723056078,
7197
+ "learning_rate": 1.639181973570441e-05,
7198
+ "loss": 0.0001,
7199
+ "step": 1026
7200
+ },
7201
+ {
7202
+ "epoch": 7.375224416517056,
7203
+ "grad_norm": 0.005756485741585493,
7204
+ "learning_rate": 1.6307812391924428e-05,
7205
+ "loss": 0.0001,
7206
+ "step": 1027
7207
+ },
7208
+ {
7209
+ "epoch": 7.382405745062837,
7210
+ "grad_norm": 0.003365996992215514,
7211
+ "learning_rate": 1.622397890203292e-05,
7212
+ "loss": 0.0,
7213
+ "step": 1028
7214
+ },
7215
+ {
7216
+ "epoch": 7.3895870736086176,
7217
+ "grad_norm": 0.0007422404014505446,
7218
+ "learning_rate": 1.6140319698616174e-05,
7219
+ "loss": 0.0,
7220
+ "step": 1029
7221
+ },
7222
+ {
7223
+ "epoch": 7.3967684021543985,
7224
+ "grad_norm": 0.0014552025822922587,
7225
+ "learning_rate": 1.605683521336116e-05,
7226
+ "loss": 0.0,
7227
+ "step": 1030
7228
+ },
7229
+ {
7230
+ "epoch": 7.403949730700179,
7231
+ "grad_norm": 0.0042173066176474094,
7232
+ "learning_rate": 1.5973525877053242e-05,
7233
+ "loss": 0.0,
7234
+ "step": 1031
7235
+ },
7236
+ {
7237
+ "epoch": 7.41113105924596,
7238
+ "grad_norm": 0.005891093984246254,
7239
+ "learning_rate": 1.589039211957406e-05,
7240
+ "loss": 0.0001,
7241
+ "step": 1032
7242
+ },
7243
+ {
7244
+ "epoch": 7.418312387791741,
7245
+ "grad_norm": 0.004144870676100254,
7246
+ "learning_rate": 1.5807434369899248e-05,
7247
+ "loss": 0.0001,
7248
+ "step": 1033
7249
+ },
7250
+ {
7251
+ "epoch": 7.425493716337522,
7252
+ "grad_norm": 0.011198299936950207,
7253
+ "learning_rate": 1.572465305609619e-05,
7254
+ "loss": 0.0001,
7255
+ "step": 1034
7256
+ },
7257
+ {
7258
+ "epoch": 7.432675044883303,
7259
+ "grad_norm": 0.002214165637269616,
7260
+ "learning_rate": 1.564204860532186e-05,
7261
+ "loss": 0.0,
7262
+ "step": 1035
7263
+ },
7264
+ {
7265
+ "epoch": 7.439856373429085,
7266
+ "grad_norm": 0.0012972512049600482,
7267
+ "learning_rate": 1.5559621443820643e-05,
7268
+ "loss": 0.0,
7269
+ "step": 1036
7270
+ },
7271
+ {
7272
+ "epoch": 7.447037701974866,
7273
+ "grad_norm": 0.0006055528065189719,
7274
+ "learning_rate": 1.5477371996922067e-05,
7275
+ "loss": 0.0,
7276
+ "step": 1037
7277
+ },
7278
+ {
7279
+ "epoch": 7.454219030520647,
7280
+ "grad_norm": 0.0029738997109234333,
7281
+ "learning_rate": 1.5395300689038637e-05,
7282
+ "loss": 0.0,
7283
+ "step": 1038
7284
+ },
7285
+ {
7286
+ "epoch": 7.4614003590664275,
7287
+ "grad_norm": 0.0036454282235354185,
7288
+ "learning_rate": 1.531340794366369e-05,
7289
+ "loss": 0.0,
7290
+ "step": 1039
7291
+ },
7292
+ {
7293
+ "epoch": 7.468581687612208,
7294
+ "grad_norm": 0.00483043072745204,
7295
+ "learning_rate": 1.5231694183369105e-05,
7296
+ "loss": 0.0001,
7297
+ "step": 1040
7298
+ },
7299
+ {
7300
+ "epoch": 7.475763016157989,
7301
+ "grad_norm": 0.0017489743186160922,
7302
+ "learning_rate": 1.5150159829803246e-05,
7303
+ "loss": 0.0,
7304
+ "step": 1041
7305
+ },
7306
+ {
7307
+ "epoch": 7.48294434470377,
7308
+ "grad_norm": 0.0027065305039286613,
7309
+ "learning_rate": 1.5068805303688704e-05,
7310
+ "loss": 0.0001,
7311
+ "step": 1042
7312
+ },
7313
+ {
7314
+ "epoch": 7.490125673249551,
7315
+ "grad_norm": 0.007340044714510441,
7316
+ "learning_rate": 1.4987631024820147e-05,
7317
+ "loss": 0.0001,
7318
+ "step": 1043
7319
+ },
7320
+ {
7321
+ "epoch": 7.497307001795332,
7322
+ "grad_norm": 0.0028522072825580835,
7323
+ "learning_rate": 1.490663741206213e-05,
7324
+ "loss": 0.0,
7325
+ "step": 1044
7326
+ },
7327
+ {
7328
+ "epoch": 7.504488330341113,
7329
+ "grad_norm": 0.0007877356256358325,
7330
+ "learning_rate": 1.4825824883347017e-05,
7331
+ "loss": 0.0,
7332
+ "step": 1045
7333
+ },
7334
+ {
7335
+ "epoch": 7.511669658886894,
7336
+ "grad_norm": 0.0024650641717016697,
7337
+ "learning_rate": 1.4745193855672707e-05,
7338
+ "loss": 0.0,
7339
+ "step": 1046
7340
+ },
7341
+ {
7342
+ "epoch": 7.518850987432675,
7343
+ "grad_norm": 0.0008501393022015691,
7344
+ "learning_rate": 1.46647447451006e-05,
7345
+ "loss": 0.0,
7346
+ "step": 1047
7347
+ },
7348
+ {
7349
+ "epoch": 7.526032315978456,
7350
+ "grad_norm": 0.002214528387412429,
7351
+ "learning_rate": 1.4584477966753324e-05,
7352
+ "loss": 0.0,
7353
+ "step": 1048
7354
+ },
7355
+ {
7356
+ "epoch": 7.533213644524237,
7357
+ "grad_norm": 0.0006226448458619416,
7358
+ "learning_rate": 1.4504393934812732e-05,
7359
+ "loss": 0.0,
7360
+ "step": 1049
7361
+ },
7362
+ {
7363
+ "epoch": 7.540394973070018,
7364
+ "grad_norm": 0.0036075678654015064,
7365
+ "learning_rate": 1.4424493062517625e-05,
7366
+ "loss": 0.0,
7367
+ "step": 1050
7368
+ },
7369
+ {
7370
+ "epoch": 7.547576301615799,
7371
+ "grad_norm": 0.00435080798342824,
7372
+ "learning_rate": 1.434477576216176e-05,
7373
+ "loss": 0.0,
7374
+ "step": 1051
7375
+ },
7376
+ {
7377
+ "epoch": 7.55475763016158,
7378
+ "grad_norm": 0.0033029005862772465,
7379
+ "learning_rate": 1.4265242445091587e-05,
7380
+ "loss": 0.0001,
7381
+ "step": 1052
7382
+ },
7383
+ {
7384
+ "epoch": 7.561938958707361,
7385
+ "grad_norm": 0.007004761602729559,
7386
+ "learning_rate": 1.4185893521704213e-05,
7387
+ "loss": 0.0001,
7388
+ "step": 1053
7389
+ },
7390
+ {
7391
+ "epoch": 7.569120287253142,
7392
+ "grad_norm": 0.008575864136219025,
7393
+ "learning_rate": 1.410672940144529e-05,
7394
+ "loss": 0.0001,
7395
+ "step": 1054
7396
+ },
7397
+ {
7398
+ "epoch": 7.576301615798923,
7399
+ "grad_norm": 0.0034808525815606117,
7400
+ "learning_rate": 1.4027750492806818e-05,
7401
+ "loss": 0.0001,
7402
+ "step": 1055
7403
+ },
7404
+ {
7405
+ "epoch": 7.583482944344704,
7406
+ "grad_norm": 0.0015421882271766663,
7407
+ "learning_rate": 1.3948957203325152e-05,
7408
+ "loss": 0.0,
7409
+ "step": 1056
7410
+ },
7411
+ {
7412
+ "epoch": 7.590664272890485,
7413
+ "grad_norm": 0.0038173808716237545,
7414
+ "learning_rate": 1.3870349939578787e-05,
7415
+ "loss": 0.0001,
7416
+ "step": 1057
7417
+ },
7418
+ {
7419
+ "epoch": 7.597845601436266,
7420
+ "grad_norm": 0.003961088601499796,
7421
+ "learning_rate": 1.3791929107186363e-05,
7422
+ "loss": 0.0001,
7423
+ "step": 1058
7424
+ },
7425
+ {
7426
+ "epoch": 7.6050269299820465,
7427
+ "grad_norm": 0.004210003186017275,
7428
+ "learning_rate": 1.3713695110804464e-05,
7429
+ "loss": 0.0001,
7430
+ "step": 1059
7431
+ },
7432
+ {
7433
+ "epoch": 7.6122082585278275,
7434
+ "grad_norm": 0.000915760057978332,
7435
+ "learning_rate": 1.3635648354125663e-05,
7436
+ "loss": 0.0,
7437
+ "step": 1060
7438
+ },
7439
+ {
7440
+ "epoch": 7.619389587073608,
7441
+ "grad_norm": 0.005486072972416878,
7442
+ "learning_rate": 1.3557789239876296e-05,
7443
+ "loss": 0.0,
7444
+ "step": 1061
7445
+ },
7446
+ {
7447
+ "epoch": 7.626570915619389,
7448
+ "grad_norm": 0.007258336525410414,
7449
+ "learning_rate": 1.3480118169814465e-05,
7450
+ "loss": 0.0001,
7451
+ "step": 1062
7452
+ },
7453
+ {
7454
+ "epoch": 7.63375224416517,
7455
+ "grad_norm": 0.002517531393095851,
7456
+ "learning_rate": 1.3402635544727993e-05,
7457
+ "loss": 0.0,
7458
+ "step": 1063
7459
+ },
7460
+ {
7461
+ "epoch": 7.640933572710951,
7462
+ "grad_norm": 0.0016349544748663902,
7463
+ "learning_rate": 1.3325341764432259e-05,
7464
+ "loss": 0.0,
7465
+ "step": 1064
7466
+ },
7467
+ {
7468
+ "epoch": 7.648114901256733,
7469
+ "grad_norm": 0.0012608628021553159,
7470
+ "learning_rate": 1.3248237227768245e-05,
7471
+ "loss": 0.0,
7472
+ "step": 1065
7473
+ },
7474
+ {
7475
+ "epoch": 7.655296229802514,
7476
+ "grad_norm": 0.002880517393350601,
7477
+ "learning_rate": 1.3171322332600367e-05,
7478
+ "loss": 0.0,
7479
+ "step": 1066
7480
+ },
7481
+ {
7482
+ "epoch": 7.662477558348295,
7483
+ "grad_norm": 0.0019977663177996874,
7484
+ "learning_rate": 1.3094597475814536e-05,
7485
+ "loss": 0.0,
7486
+ "step": 1067
7487
+ },
7488
+ {
7489
+ "epoch": 7.669658886894076,
7490
+ "grad_norm": 0.0027919632848352194,
7491
+ "learning_rate": 1.3018063053315993e-05,
7492
+ "loss": 0.0,
7493
+ "step": 1068
7494
+ },
7495
+ {
7496
+ "epoch": 7.6768402154398565,
7497
+ "grad_norm": 0.006321036256849766,
7498
+ "learning_rate": 1.294171946002739e-05,
7499
+ "loss": 0.0001,
7500
+ "step": 1069
7501
+ },
7502
+ {
7503
+ "epoch": 7.684021543985637,
7504
+ "grad_norm": 0.011540860868990421,
7505
+ "learning_rate": 1.2865567089886642e-05,
7506
+ "loss": 0.0001,
7507
+ "step": 1070
7508
+ },
7509
+ {
7510
+ "epoch": 7.691202872531418,
7511
+ "grad_norm": 0.0030074333772063255,
7512
+ "learning_rate": 1.2789606335844928e-05,
7513
+ "loss": 0.0,
7514
+ "step": 1071
7515
+ },
7516
+ {
7517
+ "epoch": 7.698384201077199,
7518
+ "grad_norm": 0.0005612525856122375,
7519
+ "learning_rate": 1.2713837589864725e-05,
7520
+ "loss": 0.0,
7521
+ "step": 1072
7522
+ },
7523
+ {
7524
+ "epoch": 7.70556552962298,
7525
+ "grad_norm": 0.0016029819380491972,
7526
+ "learning_rate": 1.2638261242917715e-05,
7527
+ "loss": 0.0,
7528
+ "step": 1073
7529
+ },
7530
+ {
7531
+ "epoch": 7.712746858168761,
7532
+ "grad_norm": 0.0021067261695861816,
7533
+ "learning_rate": 1.2562877684982776e-05,
7534
+ "loss": 0.0,
7535
+ "step": 1074
7536
+ },
7537
+ {
7538
+ "epoch": 7.719928186714542,
7539
+ "grad_norm": 0.001783563639037311,
7540
+ "learning_rate": 1.2487687305043976e-05,
7541
+ "loss": 0.0,
7542
+ "step": 1075
7543
+ },
7544
+ {
7545
+ "epoch": 7.727109515260323,
7546
+ "grad_norm": 0.0015695631736889482,
7547
+ "learning_rate": 1.2412690491088613e-05,
7548
+ "loss": 0.0,
7549
+ "step": 1076
7550
+ },
7551
+ {
7552
+ "epoch": 7.734290843806104,
7553
+ "grad_norm": 0.005196002312004566,
7554
+ "learning_rate": 1.2337887630105116e-05,
7555
+ "loss": 0.0001,
7556
+ "step": 1077
7557
+ },
7558
+ {
7559
+ "epoch": 7.741472172351886,
7560
+ "grad_norm": 0.002812385791912675,
7561
+ "learning_rate": 1.2263279108081161e-05,
7562
+ "loss": 0.0,
7563
+ "step": 1078
7564
+ },
7565
+ {
7566
+ "epoch": 7.748653500897666,
7567
+ "grad_norm": 0.000525031064171344,
7568
+ "learning_rate": 1.2188865310001584e-05,
7569
+ "loss": 0.0,
7570
+ "step": 1079
7571
+ },
7572
+ {
7573
+ "epoch": 7.755834829443447,
7574
+ "grad_norm": 0.0007386524812318385,
7575
+ "learning_rate": 1.2114646619846425e-05,
7576
+ "loss": 0.0,
7577
+ "step": 1080
7578
+ },
7579
+ {
7580
+ "epoch": 7.763016157989228,
7581
+ "grad_norm": 0.0042157904244959354,
7582
+ "learning_rate": 1.2040623420588986e-05,
7583
+ "loss": 0.0001,
7584
+ "step": 1081
7585
+ },
7586
+ {
7587
+ "epoch": 7.770197486535009,
7588
+ "grad_norm": 0.0025070691481232643,
7589
+ "learning_rate": 1.1966796094193827e-05,
7590
+ "loss": 0.0,
7591
+ "step": 1082
7592
+ },
7593
+ {
7594
+ "epoch": 7.77737881508079,
7595
+ "grad_norm": 0.0028257272206246853,
7596
+ "learning_rate": 1.189316502161476e-05,
7597
+ "loss": 0.0001,
7598
+ "step": 1083
7599
+ },
7600
+ {
7601
+ "epoch": 7.784560143626571,
7602
+ "grad_norm": 0.0007815873832441866,
7603
+ "learning_rate": 1.1819730582792915e-05,
7604
+ "loss": 0.0,
7605
+ "step": 1084
7606
+ },
7607
+ {
7608
+ "epoch": 7.791741472172352,
7609
+ "grad_norm": 0.0014989282935857773,
7610
+ "learning_rate": 1.1746493156654814e-05,
7611
+ "loss": 0.0,
7612
+ "step": 1085
7613
+ },
7614
+ {
7615
+ "epoch": 7.798922800718133,
7616
+ "grad_norm": 0.0028032218106091022,
7617
+ "learning_rate": 1.1673453121110333e-05,
7618
+ "loss": 0.0001,
7619
+ "step": 1086
7620
+ },
7621
+ {
7622
+ "epoch": 7.806104129263914,
7623
+ "grad_norm": 0.0017906483262777328,
7624
+ "learning_rate": 1.1600610853050858e-05,
7625
+ "loss": 0.0,
7626
+ "step": 1087
7627
+ },
7628
+ {
7629
+ "epoch": 7.813285457809695,
7630
+ "grad_norm": 0.0009083447512239218,
7631
+ "learning_rate": 1.1527966728347234e-05,
7632
+ "loss": 0.0,
7633
+ "step": 1088
7634
+ },
7635
+ {
7636
+ "epoch": 7.8204667863554755,
7637
+ "grad_norm": 0.006937344092875719,
7638
+ "learning_rate": 1.1455521121847873e-05,
7639
+ "loss": 0.0001,
7640
+ "step": 1089
7641
+ },
7642
+ {
7643
+ "epoch": 7.8276481149012564,
7644
+ "grad_norm": 0.006985332351177931,
7645
+ "learning_rate": 1.1383274407376847e-05,
7646
+ "loss": 0.0001,
7647
+ "step": 1090
7648
+ },
7649
+ {
7650
+ "epoch": 7.834829443447037,
7651
+ "grad_norm": 0.0022957210894674063,
7652
+ "learning_rate": 1.1311226957731946e-05,
7653
+ "loss": 0.0001,
7654
+ "step": 1091
7655
+ },
7656
+ {
7657
+ "epoch": 7.842010771992818,
7658
+ "grad_norm": 0.0055581931956112385,
7659
+ "learning_rate": 1.1239379144682677e-05,
7660
+ "loss": 0.0001,
7661
+ "step": 1092
7662
+ },
7663
+ {
7664
+ "epoch": 7.8491921005386,
7665
+ "grad_norm": 0.006552727427333593,
7666
+ "learning_rate": 1.1167731338968479e-05,
7667
+ "loss": 0.0001,
7668
+ "step": 1093
7669
+ },
7670
+ {
7671
+ "epoch": 7.856373429084381,
7672
+ "grad_norm": 0.004818024579435587,
7673
+ "learning_rate": 1.1096283910296696e-05,
7674
+ "loss": 0.0001,
7675
+ "step": 1094
7676
+ },
7677
+ {
7678
+ "epoch": 7.863554757630162,
7679
+ "grad_norm": 0.003887078259140253,
7680
+ "learning_rate": 1.1025037227340712e-05,
7681
+ "loss": 0.0,
7682
+ "step": 1095
7683
+ },
7684
+ {
7685
+ "epoch": 7.870736086175943,
7686
+ "grad_norm": 0.002333530457690358,
7687
+ "learning_rate": 1.0953991657738088e-05,
7688
+ "loss": 0.0,
7689
+ "step": 1096
7690
+ },
7691
+ {
7692
+ "epoch": 7.877917414721724,
7693
+ "grad_norm": 0.0037893233820796013,
7694
+ "learning_rate": 1.0883147568088592e-05,
7695
+ "loss": 0.0,
7696
+ "step": 1097
7697
+ },
7698
+ {
7699
+ "epoch": 7.885098743267505,
7700
+ "grad_norm": 0.0038676662370562553,
7701
+ "learning_rate": 1.0812505323952344e-05,
7702
+ "loss": 0.0,
7703
+ "step": 1098
7704
+ },
7705
+ {
7706
+ "epoch": 7.8922800718132855,
7707
+ "grad_norm": 0.010742923244833946,
7708
+ "learning_rate": 1.0742065289847942e-05,
7709
+ "loss": 0.0001,
7710
+ "step": 1099
7711
+ },
7712
+ {
7713
+ "epoch": 7.899461400359066,
7714
+ "grad_norm": 0.0047193365171551704,
7715
+ "learning_rate": 1.0671827829250585e-05,
7716
+ "loss": 0.0,
7717
+ "step": 1100
7718
+ },
7719
+ {
7720
+ "epoch": 7.906642728904847,
7721
+ "grad_norm": 0.0015092804096639156,
7722
+ "learning_rate": 1.0601793304590124e-05,
7723
+ "loss": 0.0,
7724
+ "step": 1101
7725
+ },
7726
+ {
7727
+ "epoch": 7.913824057450628,
7728
+ "grad_norm": 0.0028412560932338238,
7729
+ "learning_rate": 1.0531962077249313e-05,
7730
+ "loss": 0.0,
7731
+ "step": 1102
7732
+ },
7733
+ {
7734
+ "epoch": 7.921005385996409,
7735
+ "grad_norm": 0.0088339289650321,
7736
+ "learning_rate": 1.0462334507561821e-05,
7737
+ "loss": 0.0001,
7738
+ "step": 1103
7739
+ },
7740
+ {
7741
+ "epoch": 7.92818671454219,
7742
+ "grad_norm": 0.0008142027072608471,
7743
+ "learning_rate": 1.0392910954810454e-05,
7744
+ "loss": 0.0,
7745
+ "step": 1104
7746
+ },
7747
+ {
7748
+ "epoch": 7.935368043087971,
7749
+ "grad_norm": 0.005558829288929701,
7750
+ "learning_rate": 1.0323691777225285e-05,
7751
+ "loss": 0.0001,
7752
+ "step": 1105
7753
+ },
7754
+ {
7755
+ "epoch": 7.942549371633753,
7756
+ "grad_norm": 0.013948008418083191,
7757
+ "learning_rate": 1.0254677331981822e-05,
7758
+ "loss": 0.0001,
7759
+ "step": 1106
7760
+ },
7761
+ {
7762
+ "epoch": 7.949730700179533,
7763
+ "grad_norm": 0.00884335208684206,
7764
+ "learning_rate": 1.0185867975199047e-05,
7765
+ "loss": 0.0001,
7766
+ "step": 1107
7767
+ },
7768
+ {
7769
+ "epoch": 7.956912028725315,
7770
+ "grad_norm": 0.001679787179455161,
7771
+ "learning_rate": 1.0117264061937775e-05,
7772
+ "loss": 0.0,
7773
+ "step": 1108
7774
+ },
7775
+ {
7776
+ "epoch": 7.9640933572710955,
7777
+ "grad_norm": 0.00992383249104023,
7778
+ "learning_rate": 1.0048865946198683e-05,
7779
+ "loss": 0.0001,
7780
+ "step": 1109
7781
+ },
7782
+ {
7783
+ "epoch": 7.971274685816876,
7784
+ "grad_norm": 0.0046890489757061005,
7785
+ "learning_rate": 9.980673980920491e-06,
7786
+ "loss": 0.0,
7787
+ "step": 1110
7788
+ },
7789
+ {
7790
+ "epoch": 7.978456014362657,
7791
+ "grad_norm": 0.006373502779752016,
7792
+ "learning_rate": 9.91268851797822e-06,
7793
+ "loss": 0.0001,
7794
+ "step": 1111
7795
+ },
7796
+ {
7797
+ "epoch": 7.985637342908438,
7798
+ "grad_norm": 0.005302777048200369,
7799
+ "learning_rate": 9.844909908181283e-06,
7800
+ "loss": 0.0001,
7801
+ "step": 1112
7802
+ },
7803
+ {
7804
+ "epoch": 7.992818671454219,
7805
+ "grad_norm": 0.03128412365913391,
7806
+ "learning_rate": 9.777338501271728e-06,
7807
+ "loss": 0.0003,
7808
+ "step": 1113
7809
+ },
7810
+ {
7811
+ "epoch": 8.0,
7812
+ "grad_norm": 0.0027070040814578533,
7813
+ "learning_rate": 9.709974645922432e-06,
7814
+ "loss": 0.0001,
7815
+ "step": 1114
7816
+ },
7817
+ {
7818
+ "epoch": 8.007181328545782,
7819
+ "grad_norm": 0.002355156932026148,
7820
+ "learning_rate": 9.642818689735307e-06,
7821
+ "loss": 0.0,
7822
+ "step": 1115
7823
+ },
7824
+ {
7825
+ "epoch": 8.014362657091562,
7826
+ "grad_norm": 0.0027824167627841234,
7827
+ "learning_rate": 9.575870979239454e-06,
7828
+ "loss": 0.0001,
7829
+ "step": 1116
7830
+ },
7831
+ {
7832
+ "epoch": 8.021543985637344,
7833
+ "grad_norm": 0.0012428781483322382,
7834
+ "learning_rate": 9.509131859889425e-06,
7835
+ "loss": 0.0,
7836
+ "step": 1117
7837
+ },
7838
+ {
7839
+ "epoch": 8.028725314183124,
7840
+ "grad_norm": 0.005846510641276836,
7841
+ "learning_rate": 9.442601676063456e-06,
7842
+ "loss": 0.0001,
7843
+ "step": 1118
7844
+ },
7845
+ {
7846
+ "epoch": 8.035906642728905,
7847
+ "grad_norm": 0.004024711903184652,
7848
+ "learning_rate": 9.376280771061612e-06,
7849
+ "loss": 0.0,
7850
+ "step": 1119
7851
+ },
7852
+ {
7853
+ "epoch": 8.043087971274685,
7854
+ "grad_norm": 0.004356505814939737,
7855
+ "learning_rate": 9.310169487104131e-06,
7856
+ "loss": 0.0,
7857
+ "step": 1120
7858
+ },
7859
+ {
7860
+ "epoch": 8.050269299820467,
7861
+ "grad_norm": 0.003750949166715145,
7862
+ "learning_rate": 9.244268165329533e-06,
7863
+ "loss": 0.0001,
7864
+ "step": 1121
7865
+ },
7866
+ {
7867
+ "epoch": 8.057450628366247,
7868
+ "grad_norm": 0.002422786783427,
7869
+ "learning_rate": 9.178577145792938e-06,
7870
+ "loss": 0.0,
7871
+ "step": 1122
7872
+ },
7873
+ {
7874
+ "epoch": 8.064631956912029,
7875
+ "grad_norm": 0.004002750385552645,
7876
+ "learning_rate": 9.113096767464302e-06,
7877
+ "loss": 0.0001,
7878
+ "step": 1123
7879
+ },
7880
+ {
7881
+ "epoch": 8.071813285457809,
7882
+ "grad_norm": 0.005756510887295008,
7883
+ "learning_rate": 9.047827368226663e-06,
7884
+ "loss": 0.0001,
7885
+ "step": 1124
7886
+ },
7887
+ {
7888
+ "epoch": 8.07899461400359,
7889
+ "grad_norm": 0.0009316102950833738,
7890
+ "learning_rate": 8.982769284874387e-06,
7891
+ "loss": 0.0,
7892
+ "step": 1125
7893
+ },
7894
+ {
7895
+ "epoch": 8.08617594254937,
7896
+ "grad_norm": 0.0043763830326497555,
7897
+ "learning_rate": 8.917922853111405e-06,
7898
+ "loss": 0.0,
7899
+ "step": 1126
7900
+ },
7901
+ {
7902
+ "epoch": 8.093357271095153,
7903
+ "grad_norm": 0.0021101904567331076,
7904
+ "learning_rate": 8.85328840754957e-06,
7905
+ "loss": 0.0,
7906
+ "step": 1127
7907
+ },
7908
+ {
7909
+ "epoch": 8.100538599640933,
7910
+ "grad_norm": 0.0004592133336700499,
7911
+ "learning_rate": 8.78886628170682e-06,
7912
+ "loss": 0.0,
7913
+ "step": 1128
7914
+ },
7915
+ {
7916
+ "epoch": 8.107719928186714,
7917
+ "grad_norm": 0.00474977632984519,
7918
+ "learning_rate": 8.724656808005555e-06,
7919
+ "loss": 0.0001,
7920
+ "step": 1129
7921
+ },
7922
+ {
7923
+ "epoch": 8.114901256732496,
7924
+ "grad_norm": 0.0035962453112006187,
7925
+ "learning_rate": 8.660660317770841e-06,
7926
+ "loss": 0.0001,
7927
+ "step": 1130
7928
+ },
7929
+ {
7930
+ "epoch": 8.122082585278276,
7931
+ "grad_norm": 0.0009593448485247791,
7932
+ "learning_rate": 8.596877141228732e-06,
7933
+ "loss": 0.0,
7934
+ "step": 1131
7935
+ },
7936
+ {
7937
+ "epoch": 8.129263913824058,
7938
+ "grad_norm": 0.011563223786652088,
7939
+ "learning_rate": 8.533307607504597e-06,
7940
+ "loss": 0.0001,
7941
+ "step": 1132
7942
+ },
7943
+ {
7944
+ "epoch": 8.136445242369838,
7945
+ "grad_norm": 0.00835861824452877,
7946
+ "learning_rate": 8.469952044621398e-06,
7947
+ "loss": 0.0001,
7948
+ "step": 1133
7949
+ },
7950
+ {
7951
+ "epoch": 8.14362657091562,
7952
+ "grad_norm": 0.0016383846523240209,
7953
+ "learning_rate": 8.406810779497965e-06,
7954
+ "loss": 0.0,
7955
+ "step": 1134
7956
+ },
7957
+ {
7958
+ "epoch": 8.1508078994614,
7959
+ "grad_norm": 0.0017268586670979857,
7960
+ "learning_rate": 8.343884137947333e-06,
7961
+ "loss": 0.0,
7962
+ "step": 1135
7963
+ },
7964
+ {
7965
+ "epoch": 8.157989228007182,
7966
+ "grad_norm": 0.000591074931435287,
7967
+ "learning_rate": 8.281172444675112e-06,
7968
+ "loss": 0.0,
7969
+ "step": 1136
7970
+ },
7971
+ {
7972
+ "epoch": 8.165170556552962,
7973
+ "grad_norm": 0.002751863794401288,
7974
+ "learning_rate": 8.218676023277705e-06,
7975
+ "loss": 0.0,
7976
+ "step": 1137
7977
+ },
7978
+ {
7979
+ "epoch": 8.172351885098744,
7980
+ "grad_norm": 0.0022041266784071922,
7981
+ "learning_rate": 8.15639519624075e-06,
7982
+ "loss": 0.0,
7983
+ "step": 1138
7984
+ },
7985
+ {
7986
+ "epoch": 8.179533213644524,
7987
+ "grad_norm": 0.0013457705499604344,
7988
+ "learning_rate": 8.094330284937384e-06,
7989
+ "loss": 0.0,
7990
+ "step": 1139
7991
+ },
7992
+ {
7993
+ "epoch": 8.186714542190305,
7994
+ "grad_norm": 0.013541612774133682,
7995
+ "learning_rate": 8.032481609626574e-06,
7996
+ "loss": 0.0001,
7997
+ "step": 1140
7998
+ },
7999
+ {
8000
+ "epoch": 8.193895870736085,
8001
+ "grad_norm": 0.01249165553599596,
8002
+ "learning_rate": 7.970849489451548e-06,
8003
+ "loss": 0.0001,
8004
+ "step": 1141
8005
+ },
8006
+ {
8007
+ "epoch": 8.201077199281867,
8008
+ "grad_norm": 0.0025624497793614864,
8009
+ "learning_rate": 7.909434242438079e-06,
8010
+ "loss": 0.0,
8011
+ "step": 1142
8012
+ },
8013
+ {
8014
+ "epoch": 8.208258527827649,
8015
+ "grad_norm": 0.019143685698509216,
8016
+ "learning_rate": 7.848236185492835e-06,
8017
+ "loss": 0.0002,
8018
+ "step": 1143
8019
+ },
8020
+ {
8021
+ "epoch": 8.215439856373429,
8022
+ "grad_norm": 0.004778710193932056,
8023
+ "learning_rate": 7.787255634401785e-06,
8024
+ "loss": 0.0001,
8025
+ "step": 1144
8026
+ },
8027
+ {
8028
+ "epoch": 8.22262118491921,
8029
+ "grad_norm": 0.006595983169972897,
8030
+ "learning_rate": 7.726492903828574e-06,
8031
+ "loss": 0.0001,
8032
+ "step": 1145
8033
+ },
8034
+ {
8035
+ "epoch": 8.22980251346499,
8036
+ "grad_norm": 0.0033770056907087564,
8037
+ "learning_rate": 7.665948307312837e-06,
8038
+ "loss": 0.0,
8039
+ "step": 1146
8040
+ },
8041
+ {
8042
+ "epoch": 8.236983842010773,
8043
+ "grad_norm": 0.0023582743015140295,
8044
+ "learning_rate": 7.605622157268655e-06,
8045
+ "loss": 0.0,
8046
+ "step": 1147
8047
+ },
8048
+ {
8049
+ "epoch": 8.244165170556553,
8050
+ "grad_norm": 0.0007562777609564364,
8051
+ "learning_rate": 7.545514764982931e-06,
8052
+ "loss": 0.0,
8053
+ "step": 1148
8054
+ },
8055
+ {
8056
+ "epoch": 8.251346499102334,
8057
+ "grad_norm": 0.005157983396202326,
8058
+ "learning_rate": 7.485626440613686e-06,
8059
+ "loss": 0.0001,
8060
+ "step": 1149
8061
+ },
8062
+ {
8063
+ "epoch": 8.258527827648114,
8064
+ "grad_norm": 0.004036571364849806,
8065
+ "learning_rate": 7.425957493188601e-06,
8066
+ "loss": 0.0001,
8067
+ "step": 1150
8068
+ },
8069
+ {
8070
+ "epoch": 8.265709156193896,
8071
+ "grad_norm": 0.005852349102497101,
8072
+ "learning_rate": 7.366508230603364e-06,
8073
+ "loss": 0.0001,
8074
+ "step": 1151
8075
+ },
8076
+ {
8077
+ "epoch": 8.272890484739676,
8078
+ "grad_norm": 0.0009574262658134103,
8079
+ "learning_rate": 7.30727895962004e-06,
8080
+ "loss": 0.0,
8081
+ "step": 1152
8082
+ },
8083
+ {
8084
+ "epoch": 8.280071813285458,
8085
+ "grad_norm": 0.008616548962891102,
8086
+ "learning_rate": 7.248269985865513e-06,
8087
+ "loss": 0.0001,
8088
+ "step": 1153
8089
+ },
8090
+ {
8091
+ "epoch": 8.287253141831238,
8092
+ "grad_norm": 0.0030366776045411825,
8093
+ "learning_rate": 7.189481613829979e-06,
8094
+ "loss": 0.0,
8095
+ "step": 1154
8096
+ },
8097
+ {
8098
+ "epoch": 8.29443447037702,
8099
+ "grad_norm": 0.003713611513376236,
8100
+ "learning_rate": 7.130914146865248e-06,
8101
+ "loss": 0.0,
8102
+ "step": 1155
8103
+ },
8104
+ {
8105
+ "epoch": 8.3016157989228,
8106
+ "grad_norm": 0.004273141734302044,
8107
+ "learning_rate": 7.072567887183279e-06,
8108
+ "loss": 0.0001,
8109
+ "step": 1156
8110
+ },
8111
+ {
8112
+ "epoch": 8.308797127468582,
8113
+ "grad_norm": 0.002239127177745104,
8114
+ "learning_rate": 7.014443135854615e-06,
8115
+ "loss": 0.0,
8116
+ "step": 1157
8117
+ },
8118
+ {
8119
+ "epoch": 8.315978456014363,
8120
+ "grad_norm": 0.00268027326092124,
8121
+ "learning_rate": 6.956540192806721e-06,
8122
+ "loss": 0.0,
8123
+ "step": 1158
8124
+ },
8125
+ {
8126
+ "epoch": 8.323159784560143,
8127
+ "grad_norm": 0.0018624209333211184,
8128
+ "learning_rate": 6.898859356822585e-06,
8129
+ "loss": 0.0,
8130
+ "step": 1159
8131
+ },
8132
+ {
8133
+ "epoch": 8.330341113105925,
8134
+ "grad_norm": 0.0014236210845410824,
8135
+ "learning_rate": 6.841400925539104e-06,
8136
+ "loss": 0.0,
8137
+ "step": 1160
8138
+ },
8139
+ {
8140
+ "epoch": 8.337522441651705,
8141
+ "grad_norm": 0.0037910134997218847,
8142
+ "learning_rate": 6.784165195445518e-06,
8143
+ "loss": 0.0001,
8144
+ "step": 1161
8145
+ },
8146
+ {
8147
+ "epoch": 8.344703770197487,
8148
+ "grad_norm": 0.0016732742078602314,
8149
+ "learning_rate": 6.727152461881925e-06,
8150
+ "loss": 0.0,
8151
+ "step": 1162
8152
+ },
8153
+ {
8154
+ "epoch": 8.351885098743267,
8155
+ "grad_norm": 0.0035439447965472937,
8156
+ "learning_rate": 6.670363019037779e-06,
8157
+ "loss": 0.0,
8158
+ "step": 1163
8159
+ },
8160
+ {
8161
+ "epoch": 8.359066427289049,
8162
+ "grad_norm": 0.0007749520009383559,
8163
+ "learning_rate": 6.613797159950286e-06,
8164
+ "loss": 0.0,
8165
+ "step": 1164
8166
+ },
8167
+ {
8168
+ "epoch": 8.366247755834829,
8169
+ "grad_norm": 0.0013621584512293339,
8170
+ "learning_rate": 6.5574551765029855e-06,
8171
+ "loss": 0.0,
8172
+ "step": 1165
8173
+ },
8174
+ {
8175
+ "epoch": 8.37342908438061,
8176
+ "grad_norm": 0.007024025544524193,
8177
+ "learning_rate": 6.501337359424214e-06,
8178
+ "loss": 0.0001,
8179
+ "step": 1166
8180
+ },
8181
+ {
8182
+ "epoch": 8.38061041292639,
8183
+ "grad_norm": 0.0021991136018186808,
8184
+ "learning_rate": 6.445443998285533e-06,
8185
+ "loss": 0.0,
8186
+ "step": 1167
8187
+ },
8188
+ {
8189
+ "epoch": 8.387791741472173,
8190
+ "grad_norm": 0.0009170992416329682,
8191
+ "learning_rate": 6.389775381500351e-06,
8192
+ "loss": 0.0,
8193
+ "step": 1168
8194
+ },
8195
+ {
8196
+ "epoch": 8.394973070017953,
8197
+ "grad_norm": 0.0004729504871647805,
8198
+ "learning_rate": 6.334331796322384e-06,
8199
+ "loss": 0.0,
8200
+ "step": 1169
8201
+ },
8202
+ {
8203
+ "epoch": 8.402154398563734,
8204
+ "grad_norm": 0.0016273808432742953,
8205
+ "learning_rate": 6.279113528844127e-06,
8206
+ "loss": 0.0,
8207
+ "step": 1170
8208
+ },
8209
+ {
8210
+ "epoch": 8.409335727109514,
8211
+ "grad_norm": 0.0019783461466431618,
8212
+ "learning_rate": 6.22412086399547e-06,
8213
+ "loss": 0.0,
8214
+ "step": 1171
8215
+ },
8216
+ {
8217
+ "epoch": 8.416517055655296,
8218
+ "grad_norm": 0.00046266100252978504,
8219
+ "learning_rate": 6.169354085542145e-06,
8220
+ "loss": 0.0,
8221
+ "step": 1172
8222
+ },
8223
+ {
8224
+ "epoch": 8.423698384201078,
8225
+ "grad_norm": 0.004233096726238728,
8226
+ "learning_rate": 6.114813476084291e-06,
8227
+ "loss": 0.0,
8228
+ "step": 1173
8229
+ },
8230
+ {
8231
+ "epoch": 8.430879712746858,
8232
+ "grad_norm": 0.007232322357594967,
8233
+ "learning_rate": 6.060499317055024e-06,
8234
+ "loss": 0.0001,
8235
+ "step": 1174
8236
+ },
8237
+ {
8238
+ "epoch": 8.43806104129264,
8239
+ "grad_norm": 0.0054048034362494946,
8240
+ "learning_rate": 6.0064118887189825e-06,
8241
+ "loss": 0.0001,
8242
+ "step": 1175
8243
+ },
8244
+ {
8245
+ "epoch": 8.44524236983842,
8246
+ "grad_norm": 0.012967641465365887,
8247
+ "learning_rate": 5.95255147017078e-06,
8248
+ "loss": 0.0001,
8249
+ "step": 1176
8250
+ },
8251
+ {
8252
+ "epoch": 8.452423698384202,
8253
+ "grad_norm": 0.003502080449834466,
8254
+ "learning_rate": 5.898918339333714e-06,
8255
+ "loss": 0.0001,
8256
+ "step": 1177
8257
+ },
8258
+ {
8259
+ "epoch": 8.459605026929982,
8260
+ "grad_norm": 0.0027490684296935797,
8261
+ "learning_rate": 5.845512772958256e-06,
8262
+ "loss": 0.0,
8263
+ "step": 1178
8264
+ },
8265
+ {
8266
+ "epoch": 8.466786355475763,
8267
+ "grad_norm": 0.002882092259824276,
8268
+ "learning_rate": 5.792335046620601e-06,
8269
+ "loss": 0.0,
8270
+ "step": 1179
8271
+ },
8272
+ {
8273
+ "epoch": 8.473967684021543,
8274
+ "grad_norm": 0.0011095460504293442,
8275
+ "learning_rate": 5.739385434721295e-06,
8276
+ "loss": 0.0,
8277
+ "step": 1180
8278
+ },
8279
+ {
8280
+ "epoch": 8.481149012567325,
8281
+ "grad_norm": 0.01054337527602911,
8282
+ "learning_rate": 5.686664210483794e-06,
8283
+ "loss": 0.0001,
8284
+ "step": 1181
8285
+ },
8286
+ {
8287
+ "epoch": 8.488330341113105,
8288
+ "grad_norm": 0.0006395714590325952,
8289
+ "learning_rate": 5.6341716459530516e-06,
8290
+ "loss": 0.0,
8291
+ "step": 1182
8292
+ },
8293
+ {
8294
+ "epoch": 8.495511669658887,
8295
+ "grad_norm": 0.0024796442594379187,
8296
+ "learning_rate": 5.581908011994131e-06,
8297
+ "loss": 0.0,
8298
+ "step": 1183
8299
+ },
8300
+ {
8301
+ "epoch": 8.502692998204667,
8302
+ "grad_norm": 0.009811460971832275,
8303
+ "learning_rate": 5.529873578290818e-06,
8304
+ "loss": 0.0001,
8305
+ "step": 1184
8306
+ },
8307
+ {
8308
+ "epoch": 8.509874326750449,
8309
+ "grad_norm": 0.0020709994714707136,
8310
+ "learning_rate": 5.478068613344151e-06,
8311
+ "loss": 0.0,
8312
+ "step": 1185
8313
+ },
8314
+ {
8315
+ "epoch": 8.517055655296229,
8316
+ "grad_norm": 0.003330863080918789,
8317
+ "learning_rate": 5.426493384471154e-06,
8318
+ "loss": 0.0001,
8319
+ "step": 1186
8320
+ },
8321
+ {
8322
+ "epoch": 8.52423698384201,
8323
+ "grad_norm": 0.005057830363512039,
8324
+ "learning_rate": 5.375148157803383e-06,
8325
+ "loss": 0.0001,
8326
+ "step": 1187
8327
+ },
8328
+ {
8329
+ "epoch": 8.531418312387792,
8330
+ "grad_norm": 0.002186673227697611,
8331
+ "learning_rate": 5.324033198285544e-06,
8332
+ "loss": 0.0,
8333
+ "step": 1188
8334
+ },
8335
+ {
8336
+ "epoch": 8.538599640933572,
8337
+ "grad_norm": 0.014916039071977139,
8338
+ "learning_rate": 5.2731487696741854e-06,
8339
+ "loss": 0.0001,
8340
+ "step": 1189
8341
+ },
8342
+ {
8343
+ "epoch": 8.545780969479354,
8344
+ "grad_norm": 0.0025849922094494104,
8345
+ "learning_rate": 5.222495134536271e-06,
8346
+ "loss": 0.0,
8347
+ "step": 1190
8348
+ },
8349
+ {
8350
+ "epoch": 8.552962298025134,
8351
+ "grad_norm": 0.003023435128852725,
8352
+ "learning_rate": 5.172072554247859e-06,
8353
+ "loss": 0.0,
8354
+ "step": 1191
8355
+ },
8356
+ {
8357
+ "epoch": 8.560143626570916,
8358
+ "grad_norm": 0.001386603806167841,
8359
+ "learning_rate": 5.121881288992758e-06,
8360
+ "loss": 0.0,
8361
+ "step": 1192
8362
+ },
8363
+ {
8364
+ "epoch": 8.567324955116696,
8365
+ "grad_norm": 0.0004793599364347756,
8366
+ "learning_rate": 5.071921597761198e-06,
8367
+ "loss": 0.0,
8368
+ "step": 1193
8369
+ },
8370
+ {
8371
+ "epoch": 8.574506283662478,
8372
+ "grad_norm": 0.0028707697056233883,
8373
+ "learning_rate": 5.0221937383484294e-06,
8374
+ "loss": 0.0,
8375
+ "step": 1194
8376
+ },
8377
+ {
8378
+ "epoch": 8.581687612208258,
8379
+ "grad_norm": 0.0010357374558225274,
8380
+ "learning_rate": 4.9726979673534454e-06,
8381
+ "loss": 0.0,
8382
+ "step": 1195
8383
+ },
8384
+ {
8385
+ "epoch": 8.58886894075404,
8386
+ "grad_norm": 0.0010934651363641024,
8387
+ "learning_rate": 4.923434540177679e-06,
8388
+ "loss": 0.0,
8389
+ "step": 1196
8390
+ },
8391
+ {
8392
+ "epoch": 8.59605026929982,
8393
+ "grad_norm": 0.0008548993500880897,
8394
+ "learning_rate": 4.874403711023612e-06,
8395
+ "loss": 0.0,
8396
+ "step": 1197
8397
+ },
8398
+ {
8399
+ "epoch": 8.603231597845602,
8400
+ "grad_norm": 0.008287246339023113,
8401
+ "learning_rate": 4.825605732893545e-06,
8402
+ "loss": 0.0001,
8403
+ "step": 1198
8404
+ },
8405
+ {
8406
+ "epoch": 8.610412926391383,
8407
+ "grad_norm": 0.0029302104376256466,
8408
+ "learning_rate": 4.777040857588222e-06,
8409
+ "loss": 0.0,
8410
+ "step": 1199
8411
+ },
8412
+ {
8413
+ "epoch": 8.617594254937163,
8414
+ "grad_norm": 0.0007794447592459619,
8415
+ "learning_rate": 4.728709335705561e-06,
8416
+ "loss": 0.0,
8417
+ "step": 1200
8418
+ },
8419
+ {
8420
+ "epoch": 8.624775583482945,
8421
+ "grad_norm": 0.001528155873529613,
8422
+ "learning_rate": 4.68061141663938e-06,
8423
+ "loss": 0.0,
8424
+ "step": 1201
8425
+ },
8426
+ {
8427
+ "epoch": 8.631956912028725,
8428
+ "grad_norm": 0.003254116512835026,
8429
+ "learning_rate": 4.632747348578092e-06,
8430
+ "loss": 0.0001,
8431
+ "step": 1202
8432
+ },
8433
+ {
8434
+ "epoch": 8.639138240574507,
8435
+ "grad_norm": 0.0019204439595341682,
8436
+ "learning_rate": 4.585117378503412e-06,
8437
+ "loss": 0.0,
8438
+ "step": 1203
8439
+ },
8440
+ {
8441
+ "epoch": 8.646319569120287,
8442
+ "grad_norm": 0.0011220823507755995,
8443
+ "learning_rate": 4.537721752189078e-06,
8444
+ "loss": 0.0,
8445
+ "step": 1204
8446
+ },
8447
+ {
8448
+ "epoch": 8.653500897666069,
8449
+ "grad_norm": 0.009151519276201725,
8450
+ "learning_rate": 4.4905607141996375e-06,
8451
+ "loss": 0.0001,
8452
+ "step": 1205
8453
+ },
8454
+ {
8455
+ "epoch": 8.660682226211849,
8456
+ "grad_norm": 0.0016937977634370327,
8457
+ "learning_rate": 4.443634507889105e-06,
8458
+ "loss": 0.0,
8459
+ "step": 1206
8460
+ },
8461
+ {
8462
+ "epoch": 8.66786355475763,
8463
+ "grad_norm": 0.002167623955756426,
8464
+ "learning_rate": 4.3969433753997975e-06,
8465
+ "loss": 0.0,
8466
+ "step": 1207
8467
+ },
8468
+ {
8469
+ "epoch": 8.67504488330341,
8470
+ "grad_norm": 0.0070151593536138535,
8471
+ "learning_rate": 4.350487557660993e-06,
8472
+ "loss": 0.0001,
8473
+ "step": 1208
8474
+ },
8475
+ {
8476
+ "epoch": 8.682226211849192,
8477
+ "grad_norm": 0.004574051592499018,
8478
+ "learning_rate": 4.304267294387737e-06,
8479
+ "loss": 0.0001,
8480
+ "step": 1209
8481
+ },
8482
+ {
8483
+ "epoch": 8.689407540394972,
8484
+ "grad_norm": 0.0009771317709237337,
8485
+ "learning_rate": 4.258282824079618e-06,
8486
+ "loss": 0.0,
8487
+ "step": 1210
8488
+ },
8489
+ {
8490
+ "epoch": 8.696588868940754,
8491
+ "grad_norm": 0.0029267631471157074,
8492
+ "learning_rate": 4.212534384019512e-06,
8493
+ "loss": 0.0001,
8494
+ "step": 1211
8495
+ },
8496
+ {
8497
+ "epoch": 8.703770197486534,
8498
+ "grad_norm": 0.0017605145694687963,
8499
+ "learning_rate": 4.167022210272347e-06,
8500
+ "loss": 0.0,
8501
+ "step": 1212
8502
+ },
8503
+ {
8504
+ "epoch": 8.710951526032316,
8505
+ "grad_norm": 0.008878316730260849,
8506
+ "learning_rate": 4.121746537683907e-06,
8507
+ "loss": 0.0001,
8508
+ "step": 1213
8509
+ },
8510
+ {
8511
+ "epoch": 8.718132854578098,
8512
+ "grad_norm": 0.010409415699541569,
8513
+ "learning_rate": 4.0767075998796314e-06,
8514
+ "loss": 0.0001,
8515
+ "step": 1214
8516
+ },
8517
+ {
8518
+ "epoch": 8.725314183123878,
8519
+ "grad_norm": 0.0004229078476782888,
8520
+ "learning_rate": 4.031905629263372e-06,
8521
+ "loss": 0.0,
8522
+ "step": 1215
8523
+ },
8524
+ {
8525
+ "epoch": 8.73249551166966,
8526
+ "grad_norm": 0.0005739431362599134,
8527
+ "learning_rate": 3.987340857016225e-06,
8528
+ "loss": 0.0,
8529
+ "step": 1216
8530
+ },
8531
+ {
8532
+ "epoch": 8.73967684021544,
8533
+ "grad_norm": 0.005821234546601772,
8534
+ "learning_rate": 3.943013513095345e-06,
8535
+ "loss": 0.0001,
8536
+ "step": 1217
8537
+ },
8538
+ {
8539
+ "epoch": 8.746858168761221,
8540
+ "grad_norm": 0.002494215965270996,
8541
+ "learning_rate": 3.898923826232687e-06,
8542
+ "loss": 0.0,
8543
+ "step": 1218
8544
+ },
8545
+ {
8546
+ "epoch": 8.754039497307001,
8547
+ "grad_norm": 0.005722567439079285,
8548
+ "learning_rate": 3.855072023933931e-06,
8549
+ "loss": 0.0001,
8550
+ "step": 1219
8551
+ },
8552
+ {
8553
+ "epoch": 8.761220825852783,
8554
+ "grad_norm": 0.0009568593231961131,
8555
+ "learning_rate": 3.8114583324772526e-06,
8556
+ "loss": 0.0,
8557
+ "step": 1220
8558
+ },
8559
+ {
8560
+ "epoch": 8.768402154398563,
8561
+ "grad_norm": 0.0028091880958527327,
8562
+ "learning_rate": 3.7680829769121406e-06,
8563
+ "loss": 0.0,
8564
+ "step": 1221
8565
+ },
8566
+ {
8567
+ "epoch": 8.775583482944345,
8568
+ "grad_norm": 0.004496587440371513,
8569
+ "learning_rate": 3.724946181058242e-06,
8570
+ "loss": 0.0001,
8571
+ "step": 1222
8572
+ },
8573
+ {
8574
+ "epoch": 8.782764811490125,
8575
+ "grad_norm": 0.001554902526549995,
8576
+ "learning_rate": 3.682048167504276e-06,
8577
+ "loss": 0.0,
8578
+ "step": 1223
8579
+ },
8580
+ {
8581
+ "epoch": 8.789946140035907,
8582
+ "grad_norm": 0.001350821927189827,
8583
+ "learning_rate": 3.6393891576067596e-06,
8584
+ "loss": 0.0,
8585
+ "step": 1224
8586
+ },
8587
+ {
8588
+ "epoch": 8.797127468581687,
8589
+ "grad_norm": 0.005168233532458544,
8590
+ "learning_rate": 3.596969371488995e-06,
8591
+ "loss": 0.0001,
8592
+ "step": 1225
8593
+ },
8594
+ {
8595
+ "epoch": 8.804308797127469,
8596
+ "grad_norm": 0.0025330630596727133,
8597
+ "learning_rate": 3.554789028039851e-06,
8598
+ "loss": 0.0,
8599
+ "step": 1226
8600
+ },
8601
+ {
8602
+ "epoch": 8.811490125673249,
8603
+ "grad_norm": 0.004454289097338915,
8604
+ "learning_rate": 3.512848344912628e-06,
8605
+ "loss": 0.0001,
8606
+ "step": 1227
8607
+ },
8608
+ {
8609
+ "epoch": 8.81867145421903,
8610
+ "grad_norm": 0.002888551214709878,
8611
+ "learning_rate": 3.4711475385240055e-06,
8612
+ "loss": 0.0,
8613
+ "step": 1228
8614
+ },
8615
+ {
8616
+ "epoch": 8.825852782764812,
8617
+ "grad_norm": 0.003765455214306712,
8618
+ "learning_rate": 3.4296868240528803e-06,
8619
+ "loss": 0.0001,
8620
+ "step": 1229
8621
+ },
8622
+ {
8623
+ "epoch": 8.833034111310592,
8624
+ "grad_norm": 0.010624225251376629,
8625
+ "learning_rate": 3.388466415439234e-06,
8626
+ "loss": 0.0001,
8627
+ "step": 1230
8628
+ },
8629
+ {
8630
+ "epoch": 8.840215439856374,
8631
+ "grad_norm": 0.002121233381330967,
8632
+ "learning_rate": 3.347486525383059e-06,
8633
+ "loss": 0.0,
8634
+ "step": 1231
8635
+ },
8636
+ {
8637
+ "epoch": 8.847396768402154,
8638
+ "grad_norm": 0.01041069533675909,
8639
+ "learning_rate": 3.3067473653432823e-06,
8640
+ "loss": 0.0001,
8641
+ "step": 1232
8642
+ },
8643
+ {
8644
+ "epoch": 8.854578096947936,
8645
+ "grad_norm": 0.001205962966196239,
8646
+ "learning_rate": 3.266249145536615e-06,
8647
+ "loss": 0.0,
8648
+ "step": 1233
8649
+ },
8650
+ {
8651
+ "epoch": 8.861759425493716,
8652
+ "grad_norm": 0.0004980087978765368,
8653
+ "learning_rate": 3.2259920749365236e-06,
8654
+ "loss": 0.0,
8655
+ "step": 1234
8656
+ },
8657
+ {
8658
+ "epoch": 8.868940754039498,
8659
+ "grad_norm": 0.001728088827803731,
8660
+ "learning_rate": 3.1859763612721248e-06,
8661
+ "loss": 0.0,
8662
+ "step": 1235
8663
+ },
8664
+ {
8665
+ "epoch": 8.876122082585278,
8666
+ "grad_norm": 0.002661314560100436,
8667
+ "learning_rate": 3.146202211027116e-06,
8668
+ "loss": 0.0,
8669
+ "step": 1236
8670
+ },
8671
+ {
8672
+ "epoch": 8.88330341113106,
8673
+ "grad_norm": 0.003290001070126891,
8674
+ "learning_rate": 3.1066698294386965e-06,
8675
+ "loss": 0.0001,
8676
+ "step": 1237
8677
+ },
8678
+ {
8679
+ "epoch": 8.89048473967684,
8680
+ "grad_norm": 0.0020858109928667545,
8681
+ "learning_rate": 3.0673794204965467e-06,
8682
+ "loss": 0.0,
8683
+ "step": 1238
8684
+ },
8685
+ {
8686
+ "epoch": 8.897666068222621,
8687
+ "grad_norm": 0.007211592979729176,
8688
+ "learning_rate": 3.0283311869417407e-06,
8689
+ "loss": 0.0001,
8690
+ "step": 1239
8691
+ },
8692
+ {
8693
+ "epoch": 8.904847396768401,
8694
+ "grad_norm": 0.006036645267158747,
8695
+ "learning_rate": 2.989525330265719e-06,
8696
+ "loss": 0.0001,
8697
+ "step": 1240
8698
+ },
8699
+ {
8700
+ "epoch": 8.912028725314183,
8701
+ "grad_norm": 0.0010690572671592236,
8702
+ "learning_rate": 2.950962050709233e-06,
8703
+ "loss": 0.0,
8704
+ "step": 1241
8705
+ },
8706
+ {
8707
+ "epoch": 8.919210053859963,
8708
+ "grad_norm": 0.00833749957382679,
8709
+ "learning_rate": 2.9126415472613134e-06,
8710
+ "loss": 0.0001,
8711
+ "step": 1242
8712
+ },
8713
+ {
8714
+ "epoch": 8.926391382405745,
8715
+ "grad_norm": 0.0006990973488427699,
8716
+ "learning_rate": 2.8745640176582765e-06,
8717
+ "loss": 0.0,
8718
+ "step": 1243
8719
+ },
8720
+ {
8721
+ "epoch": 8.933572710951527,
8722
+ "grad_norm": 0.0011197554413229227,
8723
+ "learning_rate": 2.8367296583826587e-06,
8724
+ "loss": 0.0,
8725
+ "step": 1244
8726
+ },
8727
+ {
8728
+ "epoch": 8.940754039497307,
8729
+ "grad_norm": 0.0009179064654745162,
8730
+ "learning_rate": 2.799138664662221e-06,
8731
+ "loss": 0.0,
8732
+ "step": 1245
8733
+ },
8734
+ {
8735
+ "epoch": 8.947935368043089,
8736
+ "grad_norm": 0.002500398550182581,
8737
+ "learning_rate": 2.7617912304689354e-06,
8738
+ "loss": 0.0,
8739
+ "step": 1246
8740
+ },
8741
+ {
8742
+ "epoch": 8.955116696588869,
8743
+ "grad_norm": 0.002693925518542528,
8744
+ "learning_rate": 2.724687548518029e-06,
8745
+ "loss": 0.0,
8746
+ "step": 1247
8747
+ },
8748
+ {
8749
+ "epoch": 8.96229802513465,
8750
+ "grad_norm": 0.005518902093172073,
8751
+ "learning_rate": 2.6878278102668965e-06,
8752
+ "loss": 0.0001,
8753
+ "step": 1248
8754
+ },
8755
+ {
8756
+ "epoch": 8.96947935368043,
8757
+ "grad_norm": 0.0013562332605943084,
8758
+ "learning_rate": 2.651212205914211e-06,
8759
+ "loss": 0.0,
8760
+ "step": 1249
8761
+ },
8762
+ {
8763
+ "epoch": 8.976660682226212,
8764
+ "grad_norm": 0.0032140628900378942,
8765
+ "learning_rate": 2.614840924398876e-06,
8766
+ "loss": 0.0,
8767
+ "step": 1250
8768
+ },
8769
+ {
8770
+ "epoch": 8.983842010771992,
8771
+ "grad_norm": 0.000525614945217967,
8772
+ "learning_rate": 2.5787141533990812e-06,
8773
+ "loss": 0.0,
8774
+ "step": 1251
8775
+ },
8776
+ {
8777
+ "epoch": 8.991023339317774,
8778
+ "grad_norm": 0.0005168743664398789,
8779
+ "learning_rate": 2.5428320793313144e-06,
8780
+ "loss": 0.0,
8781
+ "step": 1252
8782
+ },
8783
+ {
8784
+ "epoch": 8.998204667863554,
8785
+ "grad_norm": 0.0008490683394484222,
8786
+ "learning_rate": 2.5071948873494457e-06,
8787
+ "loss": 0.0,
8788
+ "step": 1253
8789
+ },
8790
+ {
8791
+ "epoch": 9.005385996409336,
8792
+ "grad_norm": 0.0053194426000118256,
8793
+ "learning_rate": 2.4718027613436946e-06,
8794
+ "loss": 0.0001,
8795
+ "step": 1254
8796
+ },
8797
+ {
8798
+ "epoch": 9.012567324955116,
8799
+ "grad_norm": 0.004942440427839756,
8800
+ "learning_rate": 2.436655883939737e-06,
8801
+ "loss": 0.0001,
8802
+ "step": 1255
8803
+ },
8804
+ {
8805
+ "epoch": 9.019748653500898,
8806
+ "grad_norm": 0.0027895679231733084,
8807
+ "learning_rate": 2.4017544364977775e-06,
8808
+ "loss": 0.0,
8809
+ "step": 1256
8810
+ },
8811
+ {
8812
+ "epoch": 9.02692998204668,
8813
+ "grad_norm": 0.0030093174427747726,
8814
+ "learning_rate": 2.3670985991115393e-06,
8815
+ "loss": 0.0001,
8816
+ "step": 1257
8817
+ },
8818
+ {
8819
+ "epoch": 9.03411131059246,
8820
+ "grad_norm": 0.0042898040264844894,
8821
+ "learning_rate": 2.3326885506074314e-06,
8822
+ "loss": 0.0001,
8823
+ "step": 1258
8824
+ },
8825
+ {
8826
+ "epoch": 9.041292639138241,
8827
+ "grad_norm": 0.004731064196676016,
8828
+ "learning_rate": 2.2985244685435283e-06,
8829
+ "loss": 0.0,
8830
+ "step": 1259
8831
+ },
8832
+ {
8833
+ "epoch": 9.048473967684021,
8834
+ "grad_norm": 0.001769304508343339,
8835
+ "learning_rate": 2.2646065292087404e-06,
8836
+ "loss": 0.0,
8837
+ "step": 1260
8838
+ },
8839
+ {
8840
+ "epoch": 9.055655296229803,
8841
+ "grad_norm": 0.003293538000434637,
8842
+ "learning_rate": 2.2309349076218456e-06,
8843
+ "loss": 0.0001,
8844
+ "step": 1261
8845
+ },
8846
+ {
8847
+ "epoch": 9.062836624775583,
8848
+ "grad_norm": 0.0017885896377265453,
8849
+ "learning_rate": 2.1975097775306097e-06,
8850
+ "loss": 0.0,
8851
+ "step": 1262
8852
+ },
8853
+ {
8854
+ "epoch": 9.070017953321365,
8855
+ "grad_norm": 0.02006862498819828,
8856
+ "learning_rate": 2.164331311410889e-06,
8857
+ "loss": 0.0001,
8858
+ "step": 1263
8859
+ },
8860
+ {
8861
+ "epoch": 9.077199281867145,
8862
+ "grad_norm": 0.0009690352599136531,
8863
+ "learning_rate": 2.131399680465729e-06,
8864
+ "loss": 0.0,
8865
+ "step": 1264
8866
+ },
8867
+ {
8868
+ "epoch": 9.084380610412927,
8869
+ "grad_norm": 0.0009640211355872452,
8870
+ "learning_rate": 2.098715054624506e-06,
8871
+ "loss": 0.0,
8872
+ "step": 1265
8873
+ },
8874
+ {
8875
+ "epoch": 9.091561938958707,
8876
+ "grad_norm": 0.0009525945642963052,
8877
+ "learning_rate": 2.0662776025420103e-06,
8878
+ "loss": 0.0,
8879
+ "step": 1266
8880
+ },
8881
+ {
8882
+ "epoch": 9.098743267504489,
8883
+ "grad_norm": 0.005768498405814171,
8884
+ "learning_rate": 2.0340874915976306e-06,
8885
+ "loss": 0.0001,
8886
+ "step": 1267
8887
+ },
8888
+ {
8889
+ "epoch": 9.105924596050269,
8890
+ "grad_norm": 0.003453444456681609,
8891
+ "learning_rate": 2.002144887894425e-06,
8892
+ "loss": 0.0001,
8893
+ "step": 1268
8894
+ },
8895
+ {
8896
+ "epoch": 9.11310592459605,
8897
+ "grad_norm": 0.0007042995421215892,
8898
+ "learning_rate": 1.97044995625833e-06,
8899
+ "loss": 0.0,
8900
+ "step": 1269
8901
+ },
8902
+ {
8903
+ "epoch": 9.12028725314183,
8904
+ "grad_norm": 0.0015764246927574277,
8905
+ "learning_rate": 1.939002860237249e-06,
8906
+ "loss": 0.0,
8907
+ "step": 1270
8908
+ },
8909
+ {
8910
+ "epoch": 9.127468581687612,
8911
+ "grad_norm": 0.002348914509639144,
8912
+ "learning_rate": 1.907803762100263e-06,
8913
+ "loss": 0.0,
8914
+ "step": 1271
8915
+ },
8916
+ {
8917
+ "epoch": 9.134649910233394,
8918
+ "grad_norm": 0.0004164179554209113,
8919
+ "learning_rate": 1.87685282283675e-06,
8920
+ "loss": 0.0,
8921
+ "step": 1272
8922
+ },
8923
+ {
8924
+ "epoch": 9.141831238779174,
8925
+ "grad_norm": 0.01101768109947443,
8926
+ "learning_rate": 1.8461502021555722e-06,
8927
+ "loss": 0.0001,
8928
+ "step": 1273
8929
+ },
8930
+ {
8931
+ "epoch": 9.149012567324956,
8932
+ "grad_norm": 0.001437205821275711,
8933
+ "learning_rate": 1.8156960584842675e-06,
8934
+ "loss": 0.0,
8935
+ "step": 1274
8936
+ },
8937
+ {
8938
+ "epoch": 9.156193895870736,
8939
+ "grad_norm": 0.0004828003002330661,
8940
+ "learning_rate": 1.7854905489681994e-06,
8941
+ "loss": 0.0,
8942
+ "step": 1275
8943
+ },
8944
+ {
8945
+ "epoch": 9.163375224416518,
8946
+ "grad_norm": 0.0033631001133471727,
8947
+ "learning_rate": 1.75553382946978e-06,
8948
+ "loss": 0.0001,
8949
+ "step": 1276
8950
+ },
8951
+ {
8952
+ "epoch": 9.170556552962298,
8953
+ "grad_norm": 0.0023919851519167423,
8954
+ "learning_rate": 1.7258260545676198e-06,
8955
+ "loss": 0.0,
8956
+ "step": 1277
8957
+ },
8958
+ {
8959
+ "epoch": 9.17773788150808,
8960
+ "grad_norm": 0.00046832981752231717,
8961
+ "learning_rate": 1.696367377555802e-06,
8962
+ "loss": 0.0,
8963
+ "step": 1278
8964
+ },
8965
+ {
8966
+ "epoch": 9.18491921005386,
8967
+ "grad_norm": 0.010521079413592815,
8968
+ "learning_rate": 1.6671579504429991e-06,
8969
+ "loss": 0.0001,
8970
+ "step": 1279
8971
+ },
8972
+ {
8973
+ "epoch": 9.192100538599641,
8974
+ "grad_norm": 0.0006425015162676573,
8975
+ "learning_rate": 1.6381979239517843e-06,
8976
+ "loss": 0.0,
8977
+ "step": 1280
8978
+ },
8979
+ {
8980
+ "epoch": 9.199281867145421,
8981
+ "grad_norm": 0.007516259793192148,
8982
+ "learning_rate": 1.6094874475177712e-06,
8983
+ "loss": 0.0001,
8984
+ "step": 1281
8985
+ },
8986
+ {
8987
+ "epoch": 9.206463195691203,
8988
+ "grad_norm": 0.005536982323974371,
8989
+ "learning_rate": 1.5810266692888931e-06,
8990
+ "loss": 0.0,
8991
+ "step": 1282
8992
+ },
8993
+ {
8994
+ "epoch": 9.213644524236983,
8995
+ "grad_norm": 0.008903410285711288,
8996
+ "learning_rate": 1.552815736124641e-06,
8997
+ "loss": 0.0001,
8998
+ "step": 1283
8999
+ },
9000
+ {
9001
+ "epoch": 9.220825852782765,
9002
+ "grad_norm": 0.003421616740524769,
9003
+ "learning_rate": 1.5248547935952484e-06,
9004
+ "loss": 0.0001,
9005
+ "step": 1284
9006
+ },
9007
+ {
9008
+ "epoch": 9.228007181328545,
9009
+ "grad_norm": 0.00239805830642581,
9010
+ "learning_rate": 1.4971439859810198e-06,
9011
+ "loss": 0.0,
9012
+ "step": 1285
9013
+ },
9014
+ {
9015
+ "epoch": 9.235188509874327,
9016
+ "grad_norm": 0.00542791560292244,
9017
+ "learning_rate": 1.4696834562715312e-06,
9018
+ "loss": 0.0001,
9019
+ "step": 1286
9020
+ },
9021
+ {
9022
+ "epoch": 9.242369838420109,
9023
+ "grad_norm": 0.0025002851616591215,
9024
+ "learning_rate": 1.4424733461649131e-06,
9025
+ "loss": 0.0,
9026
+ "step": 1287
9027
+ },
9028
+ {
9029
+ "epoch": 9.249551166965889,
9030
+ "grad_norm": 0.0022409127559512854,
9031
+ "learning_rate": 1.4155137960670972e-06,
9032
+ "loss": 0.0,
9033
+ "step": 1288
9034
+ },
9035
+ {
9036
+ "epoch": 9.25673249551167,
9037
+ "grad_norm": 0.0016906855162233114,
9038
+ "learning_rate": 1.3888049450911323e-06,
9039
+ "loss": 0.0,
9040
+ "step": 1289
9041
+ },
9042
+ {
9043
+ "epoch": 9.26391382405745,
9044
+ "grad_norm": 0.001018270617350936,
9045
+ "learning_rate": 1.3623469310564407e-06,
9046
+ "loss": 0.0,
9047
+ "step": 1290
9048
+ },
9049
+ {
9050
+ "epoch": 9.271095152603232,
9051
+ "grad_norm": 0.0011273447889834642,
9052
+ "learning_rate": 1.3361398904880806e-06,
9053
+ "loss": 0.0,
9054
+ "step": 1291
9055
+ },
9056
+ {
9057
+ "epoch": 9.278276481149012,
9058
+ "grad_norm": 0.003946348559111357,
9059
+ "learning_rate": 1.3101839586161125e-06,
9060
+ "loss": 0.0001,
9061
+ "step": 1292
9062
+ },
9063
+ {
9064
+ "epoch": 9.285457809694794,
9065
+ "grad_norm": 0.0032709978986531496,
9066
+ "learning_rate": 1.2844792693748386e-06,
9067
+ "loss": 0.0,
9068
+ "step": 1293
9069
+ },
9070
+ {
9071
+ "epoch": 9.292639138240574,
9072
+ "grad_norm": 0.0048051816411316395,
9073
+ "learning_rate": 1.259025955402121e-06,
9074
+ "loss": 0.0,
9075
+ "step": 1294
9076
+ },
9077
+ {
9078
+ "epoch": 9.299820466786356,
9079
+ "grad_norm": 0.0077668423764407635,
9080
+ "learning_rate": 1.233824148038737e-06,
9081
+ "loss": 0.0001,
9082
+ "step": 1295
9083
+ },
9084
+ {
9085
+ "epoch": 9.307001795332136,
9086
+ "grad_norm": 0.0007973044412210584,
9087
+ "learning_rate": 1.208873977327657e-06,
9088
+ "loss": 0.0,
9089
+ "step": 1296
9090
+ },
9091
+ {
9092
+ "epoch": 9.314183123877918,
9093
+ "grad_norm": 0.006575505714863539,
9094
+ "learning_rate": 1.1841755720133797e-06,
9095
+ "loss": 0.0001,
9096
+ "step": 1297
9097
+ },
9098
+ {
9099
+ "epoch": 9.321364452423698,
9100
+ "grad_norm": 0.004024865571409464,
9101
+ "learning_rate": 1.159729059541298e-06,
9102
+ "loss": 0.0,
9103
+ "step": 1298
9104
+ },
9105
+ {
9106
+ "epoch": 9.32854578096948,
9107
+ "grad_norm": 0.0005098568508401513,
9108
+ "learning_rate": 1.1355345660570172e-06,
9109
+ "loss": 0.0,
9110
+ "step": 1299
9111
+ },
9112
+ {
9113
+ "epoch": 9.335727109515261,
9114
+ "grad_norm": 0.00511940149590373,
9115
+ "learning_rate": 1.111592216405688e-06,
9116
+ "loss": 0.0001,
9117
+ "step": 1300
9118
+ },
9119
+ {
9120
+ "epoch": 9.342908438061041,
9121
+ "grad_norm": 0.003943296615034342,
9122
+ "learning_rate": 1.0879021341314077e-06,
9123
+ "loss": 0.0001,
9124
+ "step": 1301
9125
+ },
9126
+ {
9127
+ "epoch": 9.350089766606823,
9128
+ "grad_norm": 0.003307908307760954,
9129
+ "learning_rate": 1.0644644414765592e-06,
9130
+ "loss": 0.0001,
9131
+ "step": 1302
9132
+ },
9133
+ {
9134
+ "epoch": 9.357271095152603,
9135
+ "grad_norm": 0.0039034478832036257,
9136
+ "learning_rate": 1.0412792593811504e-06,
9137
+ "loss": 0.0001,
9138
+ "step": 1303
9139
+ },
9140
+ {
9141
+ "epoch": 9.364452423698385,
9142
+ "grad_norm": 0.003994462080299854,
9143
+ "learning_rate": 1.0183467074822427e-06,
9144
+ "loss": 0.0001,
9145
+ "step": 1304
9146
+ },
9147
+ {
9148
+ "epoch": 9.371633752244165,
9149
+ "grad_norm": 0.011003606021404266,
9150
+ "learning_rate": 9.956669041133015e-07,
9151
+ "loss": 0.0001,
9152
+ "step": 1305
9153
+ },
9154
+ {
9155
+ "epoch": 9.378815080789947,
9156
+ "grad_norm": 0.006357505451887846,
9157
+ "learning_rate": 9.732399663035908e-07,
9158
+ "loss": 0.0001,
9159
+ "step": 1306
9160
+ },
9161
+ {
9162
+ "epoch": 9.385996409335727,
9163
+ "grad_norm": 0.002158686053007841,
9164
+ "learning_rate": 9.510660097775792e-07,
9165
+ "loss": 0.0,
9166
+ "step": 1307
9167
+ },
9168
+ {
9169
+ "epoch": 9.393177737881508,
9170
+ "grad_norm": 0.008415409363806248,
9171
+ "learning_rate": 9.291451489543246e-07,
9172
+ "loss": 0.0001,
9173
+ "step": 1308
9174
+ },
9175
+ {
9176
+ "epoch": 9.400359066427288,
9177
+ "grad_norm": 0.0016714815283194184,
9178
+ "learning_rate": 9.074774969469013e-07,
9179
+ "loss": 0.0,
9180
+ "step": 1309
9181
+ },
9182
+ {
9183
+ "epoch": 9.40754039497307,
9184
+ "grad_norm": 0.0017930882750079036,
9185
+ "learning_rate": 8.860631655618124e-07,
9186
+ "loss": 0.0,
9187
+ "step": 1310
9188
+ },
9189
+ {
9190
+ "epoch": 9.41472172351885,
9191
+ "grad_norm": 0.0028353806119412184,
9192
+ "learning_rate": 8.649022652984062e-07,
9193
+ "loss": 0.0,
9194
+ "step": 1311
9195
+ },
9196
+ {
9197
+ "epoch": 9.421903052064632,
9198
+ "grad_norm": 0.007203152868896723,
9199
+ "learning_rate": 8.439949053483054e-07,
9200
+ "loss": 0.0001,
9201
+ "step": 1312
9202
+ },
9203
+ {
9204
+ "epoch": 9.429084380610412,
9205
+ "grad_norm": 0.008097037672996521,
9206
+ "learning_rate": 8.233411935948565e-07,
9207
+ "loss": 0.0001,
9208
+ "step": 1313
9209
+ },
9210
+ {
9211
+ "epoch": 9.436265709156194,
9212
+ "grad_norm": 0.0008651064126752317,
9213
+ "learning_rate": 8.029412366125643e-07,
9214
+ "loss": 0.0,
9215
+ "step": 1314
9216
+ },
9217
+ {
9218
+ "epoch": 9.443447037701976,
9219
+ "grad_norm": 0.002910839393734932,
9220
+ "learning_rate": 7.827951396665312e-07,
9221
+ "loss": 0.0,
9222
+ "step": 1315
9223
+ },
9224
+ {
9225
+ "epoch": 9.450628366247756,
9226
+ "grad_norm": 0.002898834180086851,
9227
+ "learning_rate": 7.629030067119347e-07,
9228
+ "loss": 0.0,
9229
+ "step": 1316
9230
+ },
9231
+ {
9232
+ "epoch": 9.457809694793538,
9233
+ "grad_norm": 0.0035262927412986755,
9234
+ "learning_rate": 7.432649403934899e-07,
9235
+ "loss": 0.0001,
9236
+ "step": 1317
9237
+ },
9238
+ {
9239
+ "epoch": 9.464991023339318,
9240
+ "grad_norm": 0.0023212425876408815,
9241
+ "learning_rate": 7.238810420448883e-07,
9242
+ "loss": 0.0,
9243
+ "step": 1318
9244
+ },
9245
+ {
9246
+ "epoch": 9.4721723518851,
9247
+ "grad_norm": 0.006389750633388758,
9248
+ "learning_rate": 7.047514116883203e-07,
9249
+ "loss": 0.0001,
9250
+ "step": 1319
9251
+ },
9252
+ {
9253
+ "epoch": 9.47935368043088,
9254
+ "grad_norm": 0.00800410844385624,
9255
+ "learning_rate": 6.858761480339259e-07,
9256
+ "loss": 0.0001,
9257
+ "step": 1320
9258
+ },
9259
+ {
9260
+ "epoch": 9.486535008976661,
9261
+ "grad_norm": 0.000574652396608144,
9262
+ "learning_rate": 6.672553484792954e-07,
9263
+ "loss": 0.0,
9264
+ "step": 1321
9265
+ },
9266
+ {
9267
+ "epoch": 9.493716337522441,
9268
+ "grad_norm": 0.004203511867672205,
9269
+ "learning_rate": 6.488891091089744e-07,
9270
+ "loss": 0.0,
9271
+ "step": 1322
9272
+ },
9273
+ {
9274
+ "epoch": 9.500897666068223,
9275
+ "grad_norm": 0.0021888138726353645,
9276
+ "learning_rate": 6.30777524693954e-07,
9277
+ "loss": 0.0,
9278
+ "step": 1323
9279
+ },
9280
+ {
9281
+ "epoch": 9.508078994614003,
9282
+ "grad_norm": 0.0033636968582868576,
9283
+ "learning_rate": 6.129206886911931e-07,
9284
+ "loss": 0.0,
9285
+ "step": 1324
9286
+ },
9287
+ {
9288
+ "epoch": 9.515260323159785,
9289
+ "grad_norm": 0.0030494180973619223,
9290
+ "learning_rate": 5.953186932431298e-07,
9291
+ "loss": 0.0,
9292
+ "step": 1325
9293
+ },
9294
+ {
9295
+ "epoch": 9.522441651705565,
9296
+ "grad_norm": 0.004318075720220804,
9297
+ "learning_rate": 5.779716291772208e-07,
9298
+ "loss": 0.0001,
9299
+ "step": 1326
9300
+ },
9301
+ {
9302
+ "epoch": 9.529622980251347,
9303
+ "grad_norm": 0.003387854201719165,
9304
+ "learning_rate": 5.608795860054416e-07,
9305
+ "loss": 0.0,
9306
+ "step": 1327
9307
+ },
9308
+ {
9309
+ "epoch": 9.536804308797127,
9310
+ "grad_norm": 0.005705864634364843,
9311
+ "learning_rate": 5.440426519238429e-07,
9312
+ "loss": 0.0,
9313
+ "step": 1328
9314
+ },
9315
+ {
9316
+ "epoch": 9.543985637342908,
9317
+ "grad_norm": 0.0007057313923723996,
9318
+ "learning_rate": 5.274609138121223e-07,
9319
+ "loss": 0.0,
9320
+ "step": 1329
9321
+ },
9322
+ {
9323
+ "epoch": 9.55116696588869,
9324
+ "grad_norm": 0.001151918200775981,
9325
+ "learning_rate": 5.111344572331145e-07,
9326
+ "loss": 0.0,
9327
+ "step": 1330
9328
+ },
9329
+ {
9330
+ "epoch": 9.55834829443447,
9331
+ "grad_norm": 0.0010176684008911252,
9332
+ "learning_rate": 4.950633664324189e-07,
9333
+ "loss": 0.0,
9334
+ "step": 1331
9335
+ },
9336
+ {
9337
+ "epoch": 9.565529622980252,
9338
+ "grad_norm": 0.003837242489680648,
9339
+ "learning_rate": 4.792477243379001e-07,
9340
+ "loss": 0.0001,
9341
+ "step": 1332
9342
+ },
9343
+ {
9344
+ "epoch": 9.572710951526032,
9345
+ "grad_norm": 0.0014953743666410446,
9346
+ "learning_rate": 4.636876125593048e-07,
9347
+ "loss": 0.0,
9348
+ "step": 1333
9349
+ },
9350
+ {
9351
+ "epoch": 9.579892280071814,
9352
+ "grad_norm": 0.0008955992525443435,
9353
+ "learning_rate": 4.4838311138782897e-07,
9354
+ "loss": 0.0,
9355
+ "step": 1334
9356
+ },
9357
+ {
9358
+ "epoch": 9.587073608617594,
9359
+ "grad_norm": 0.0019382266327738762,
9360
+ "learning_rate": 4.333342997957013e-07,
9361
+ "loss": 0.0,
9362
+ "step": 1335
9363
+ },
9364
+ {
9365
+ "epoch": 9.594254937163376,
9366
+ "grad_norm": 0.0018870545318350196,
9367
+ "learning_rate": 4.1854125543576705e-07,
9368
+ "loss": 0.0,
9369
+ "step": 1336
9370
+ },
9371
+ {
9372
+ "epoch": 9.601436265709156,
9373
+ "grad_norm": 0.004259036388248205,
9374
+ "learning_rate": 4.04004054641105e-07,
9375
+ "loss": 0.0001,
9376
+ "step": 1337
9377
+ },
9378
+ {
9379
+ "epoch": 9.608617594254937,
9380
+ "grad_norm": 0.0013580111553892493,
9381
+ "learning_rate": 3.897227724246222e-07,
9382
+ "loss": 0.0,
9383
+ "step": 1338
9384
+ },
9385
+ {
9386
+ "epoch": 9.615798922800717,
9387
+ "grad_norm": 0.0010445443913340569,
9388
+ "learning_rate": 3.7569748247866523e-07,
9389
+ "loss": 0.0,
9390
+ "step": 1339
9391
+ },
9392
+ {
9393
+ "epoch": 9.6229802513465,
9394
+ "grad_norm": 0.006067071110010147,
9395
+ "learning_rate": 3.6192825717464294e-07,
9396
+ "loss": 0.0001,
9397
+ "step": 1340
9398
+ },
9399
+ {
9400
+ "epoch": 9.63016157989228,
9401
+ "grad_norm": 0.0007093562744557858,
9402
+ "learning_rate": 3.4841516756266015e-07,
9403
+ "loss": 0.0,
9404
+ "step": 1341
9405
+ },
9406
+ {
9407
+ "epoch": 9.637342908438061,
9408
+ "grad_norm": 0.0034481927286833525,
9409
+ "learning_rate": 3.351582833711453e-07,
9410
+ "loss": 0.0,
9411
+ "step": 1342
9412
+ },
9413
+ {
9414
+ "epoch": 9.644524236983841,
9415
+ "grad_norm": 0.0062695154920220375,
9416
+ "learning_rate": 3.2215767300647906e-07,
9417
+ "loss": 0.0001,
9418
+ "step": 1343
9419
+ },
9420
+ {
9421
+ "epoch": 9.651705565529623,
9422
+ "grad_norm": 0.0011026825523003936,
9423
+ "learning_rate": 3.0941340355266637e-07,
9424
+ "loss": 0.0,
9425
+ "step": 1344
9426
+ },
9427
+ {
9428
+ "epoch": 9.658886894075405,
9429
+ "grad_norm": 0.002446260768920183,
9430
+ "learning_rate": 2.969255407709648e-07,
9431
+ "loss": 0.0,
9432
+ "step": 1345
9433
+ },
9434
+ {
9435
+ "epoch": 9.666068222621185,
9436
+ "grad_norm": 0.0011774407466873527,
9437
+ "learning_rate": 2.8469414909956804e-07,
9438
+ "loss": 0.0,
9439
+ "step": 1346
9440
+ },
9441
+ {
9442
+ "epoch": 9.673249551166966,
9443
+ "grad_norm": 0.008814037777483463,
9444
+ "learning_rate": 2.727192916532506e-07,
9445
+ "loss": 0.0001,
9446
+ "step": 1347
9447
+ },
9448
+ {
9449
+ "epoch": 9.680430879712747,
9450
+ "grad_norm": 0.0010899716289713979,
9451
+ "learning_rate": 2.610010302230625e-07,
9452
+ "loss": 0.0,
9453
+ "step": 1348
9454
+ },
9455
+ {
9456
+ "epoch": 9.687612208258528,
9457
+ "grad_norm": 0.0008330538985319436,
9458
+ "learning_rate": 2.495394252759964e-07,
9459
+ "loss": 0.0,
9460
+ "step": 1349
9461
+ },
9462
+ {
9463
+ "epoch": 9.694793536804308,
9464
+ "grad_norm": 0.001670084660872817,
9465
+ "learning_rate": 2.383345359546818e-07,
9466
+ "loss": 0.0,
9467
+ "step": 1350
9468
+ },
9469
+ {
9470
+ "epoch": 9.70197486535009,
9471
+ "grad_norm": 0.003384950337931514,
9472
+ "learning_rate": 2.2738642007708033e-07,
9473
+ "loss": 0.0,
9474
+ "step": 1351
9475
+ },
9476
+ {
9477
+ "epoch": 9.70915619389587,
9478
+ "grad_norm": 0.004845671821385622,
9479
+ "learning_rate": 2.166951341361856e-07,
9480
+ "loss": 0.0001,
9481
+ "step": 1352
9482
+ },
9483
+ {
9484
+ "epoch": 9.716337522441652,
9485
+ "grad_norm": 0.0023180951829999685,
9486
+ "learning_rate": 2.0626073329972905e-07,
9487
+ "loss": 0.0,
9488
+ "step": 1353
9489
+ },
9490
+ {
9491
+ "epoch": 9.723518850987432,
9492
+ "grad_norm": 0.0038995614740997553,
9493
+ "learning_rate": 1.9608327140990256e-07,
9494
+ "loss": 0.0,
9495
+ "step": 1354
9496
+ },
9497
+ {
9498
+ "epoch": 9.730700179533214,
9499
+ "grad_norm": 0.0008373655728064477,
9500
+ "learning_rate": 1.861628009830696e-07,
9501
+ "loss": 0.0,
9502
+ "step": 1355
9503
+ },
9504
+ {
9505
+ "epoch": 9.737881508078996,
9506
+ "grad_norm": 0.003047862323001027,
9507
+ "learning_rate": 1.7649937320951548e-07,
9508
+ "loss": 0.0001,
9509
+ "step": 1356
9510
+ },
9511
+ {
9512
+ "epoch": 9.745062836624776,
9513
+ "grad_norm": 0.004954088944941759,
9514
+ "learning_rate": 1.6709303795314767e-07,
9515
+ "loss": 0.0,
9516
+ "step": 1357
9517
+ },
9518
+ {
9519
+ "epoch": 9.752244165170557,
9520
+ "grad_norm": 0.004162759054452181,
9521
+ "learning_rate": 1.579438437512737e-07,
9522
+ "loss": 0.0,
9523
+ "step": 1358
9524
+ },
9525
+ {
9526
+ "epoch": 9.759425493716337,
9527
+ "grad_norm": 0.012499436736106873,
9528
+ "learning_rate": 1.4905183781434573e-07,
9529
+ "loss": 0.0002,
9530
+ "step": 1359
9531
+ },
9532
+ {
9533
+ "epoch": 9.76660682226212,
9534
+ "grad_norm": 0.0014654555125162005,
9535
+ "learning_rate": 1.4041706602567207e-07,
9536
+ "loss": 0.0,
9537
+ "step": 1360
9538
+ },
9539
+ {
9540
+ "epoch": 9.7737881508079,
9541
+ "grad_norm": 0.004668499808758497,
9542
+ "learning_rate": 1.32039572941256e-07,
9543
+ "loss": 0.0001,
9544
+ "step": 1361
9545
+ },
9546
+ {
9547
+ "epoch": 9.780969479353681,
9548
+ "grad_norm": 0.0022428377997130156,
9549
+ "learning_rate": 1.239194017895018e-07,
9550
+ "loss": 0.0,
9551
+ "step": 1362
9552
+ },
9553
+ {
9554
+ "epoch": 9.788150807899461,
9555
+ "grad_norm": 0.003603378077968955,
9556
+ "learning_rate": 1.1605659447102568e-07,
9557
+ "loss": 0.0001,
9558
+ "step": 1363
9559
+ },
9560
+ {
9561
+ "epoch": 9.795332136445243,
9562
+ "grad_norm": 0.002531717298552394,
9563
+ "learning_rate": 1.0845119155842853e-07,
9564
+ "loss": 0.0,
9565
+ "step": 1364
9566
+ },
9567
+ {
9568
+ "epoch": 9.802513464991023,
9569
+ "grad_norm": 0.0031889344099909067,
9570
+ "learning_rate": 1.0110323229608476e-07,
9571
+ "loss": 0.0001,
9572
+ "step": 1365
9573
+ },
9574
+ {
9575
+ "epoch": 9.809694793536805,
9576
+ "grad_norm": 0.0018446670146659017,
9577
+ "learning_rate": 9.401275459994252e-08,
9578
+ "loss": 0.0,
9579
+ "step": 1366
9580
+ },
9581
+ {
9582
+ "epoch": 9.816876122082585,
9583
+ "grad_norm": 0.0019796814303845167,
9584
+ "learning_rate": 8.717979505732943e-08,
9585
+ "loss": 0.0,
9586
+ "step": 1367
9587
+ },
9588
+ {
9589
+ "epoch": 9.824057450628366,
9590
+ "grad_norm": 0.0005245081265456975,
9591
+ "learning_rate": 8.06043889267638e-08,
9592
+ "loss": 0.0,
9593
+ "step": 1368
9594
+ },
9595
+ {
9596
+ "epoch": 9.831238779174146,
9597
+ "grad_norm": 0.0012920144945383072,
9598
+ "learning_rate": 7.428657013777152e-08,
9599
+ "loss": 0.0,
9600
+ "step": 1369
9601
+ },
9602
+ {
9603
+ "epoch": 9.838420107719928,
9604
+ "grad_norm": 0.001015665358863771,
9605
+ "learning_rate": 6.82263712907083e-08,
9606
+ "loss": 0.0,
9607
+ "step": 1370
9608
+ },
9609
+ {
9610
+ "epoch": 9.84560143626571,
9611
+ "grad_norm": 0.0012212838046252728,
9612
+ "learning_rate": 6.242382365659883e-08,
9613
+ "loss": 0.0,
9614
+ "step": 1371
9615
+ },
9616
+ {
9617
+ "epoch": 9.85278276481149,
9618
+ "grad_norm": 0.0013459456386044621,
9619
+ "learning_rate": 5.6878957176964564e-08,
9620
+ "loss": 0.0,
9621
+ "step": 1372
9622
+ },
9623
+ {
9624
+ "epoch": 9.859964093357272,
9625
+ "grad_norm": 0.009229972958564758,
9626
+ "learning_rate": 5.159180046368506e-08,
9627
+ "loss": 0.0001,
9628
+ "step": 1373
9629
+ },
9630
+ {
9631
+ "epoch": 9.867145421903052,
9632
+ "grad_norm": 0.0007870359695516527,
9633
+ "learning_rate": 4.65623807988258e-08,
9634
+ "loss": 0.0,
9635
+ "step": 1374
9636
+ },
9637
+ {
9638
+ "epoch": 9.874326750448834,
9639
+ "grad_norm": 0.0021520848385989666,
9640
+ "learning_rate": 4.1790724134521675e-08,
9641
+ "loss": 0.0,
9642
+ "step": 1375
9643
+ },
9644
+ {
9645
+ "epoch": 9.881508078994614,
9646
+ "grad_norm": 0.0025529288686811924,
9647
+ "learning_rate": 3.727685509284373e-08,
9648
+ "loss": 0.0,
9649
+ "step": 1376
9650
+ },
9651
+ {
9652
+ "epoch": 9.888689407540395,
9653
+ "grad_norm": 0.004391699563711882,
9654
+ "learning_rate": 3.30207969656382e-08,
9655
+ "loss": 0.0001,
9656
+ "step": 1377
9657
+ },
9658
+ {
9659
+ "epoch": 9.895870736086176,
9660
+ "grad_norm": 0.01228626910597086,
9661
+ "learning_rate": 2.9022571714448776e-08,
9662
+ "loss": 0.0001,
9663
+ "step": 1378
9664
+ },
9665
+ {
9666
+ "epoch": 9.903052064631957,
9667
+ "grad_norm": 0.0017042134422808886,
9668
+ "learning_rate": 2.5282199970372288e-08,
9669
+ "loss": 0.0,
9670
+ "step": 1379
9671
+ },
9672
+ {
9673
+ "epoch": 9.910233393177737,
9674
+ "grad_norm": 0.002146362094208598,
9675
+ "learning_rate": 2.1799701033986543e-08,
9676
+ "loss": 0.0,
9677
+ "step": 1380
9678
+ },
9679
+ {
9680
+ "epoch": 9.91741472172352,
9681
+ "grad_norm": 0.0068658581003546715,
9682
+ "learning_rate": 1.8575092875194876e-08,
9683
+ "loss": 0.0001,
9684
+ "step": 1381
9685
+ },
9686
+ {
9687
+ "epoch": 9.9245960502693,
9688
+ "grad_norm": 0.0008882509428076446,
9689
+ "learning_rate": 1.5608392133198425e-08,
9690
+ "loss": 0.0,
9691
+ "step": 1382
9692
+ },
9693
+ {
9694
+ "epoch": 9.931777378815081,
9695
+ "grad_norm": 0.0020740588661283255,
9696
+ "learning_rate": 1.2899614116362867e-08,
9697
+ "loss": 0.0,
9698
+ "step": 1383
9699
+ },
9700
+ {
9701
+ "epoch": 9.938958707360861,
9702
+ "grad_norm": 0.002014560392126441,
9703
+ "learning_rate": 1.0448772802162943e-08,
9704
+ "loss": 0.0,
9705
+ "step": 1384
9706
+ },
9707
+ {
9708
+ "epoch": 9.946140035906643,
9709
+ "grad_norm": 0.004955880343914032,
9710
+ "learning_rate": 8.25588083709361e-09,
9711
+ "loss": 0.0,
9712
+ "step": 1385
9713
+ },
9714
+ {
9715
+ "epoch": 9.953321364452425,
9716
+ "grad_norm": 0.0034909662790596485,
9717
+ "learning_rate": 6.320949536625653e-09,
9718
+ "loss": 0.0001,
9719
+ "step": 1386
9720
+ },
9721
+ {
9722
+ "epoch": 9.960502692998205,
9723
+ "grad_norm": 0.0021931135561317205,
9724
+ "learning_rate": 4.643988885127959e-09,
9725
+ "loss": 0.0,
9726
+ "step": 1387
9727
+ },
9728
+ {
9729
+ "epoch": 9.967684021543986,
9730
+ "grad_norm": 0.00938593689352274,
9731
+ "learning_rate": 3.2250075358286614e-09,
9732
+ "loss": 0.0001,
9733
+ "step": 1388
9734
+ },
9735
+ {
9736
+ "epoch": 9.974865350089766,
9737
+ "grad_norm": 0.000684427039232105,
9738
+ "learning_rate": 2.0640128107596302e-09,
9739
+ "loss": 0.0,
9740
+ "step": 1389
9741
+ },
9742
+ {
9743
+ "epoch": 9.982046678635548,
9744
+ "grad_norm": 0.0008046108996495605,
9745
+ "learning_rate": 1.1610107007398174e-09,
9746
+ "loss": 0.0,
9747
+ "step": 1390
9748
+ },
9749
+ {
9750
+ "epoch": 9.989228007181328,
9751
+ "grad_norm": 0.003727276111021638,
9752
+ "learning_rate": 5.160058653086442e-10,
9753
+ "loss": 0.0001,
9754
+ "step": 1391
9755
+ },
9756
+ {
9757
+ "epoch": 9.99640933572711,
9758
+ "grad_norm": 0.006966722197830677,
9759
+ "learning_rate": 1.2900163274265354e-10,
9760
+ "loss": 0.0001,
9761
+ "step": 1392
9762
+ },
9763
+ {
9764
+ "epoch": 10.00359066427289,
9765
+ "grad_norm": 0.00568317761644721,
9766
+ "learning_rate": 0.0,
9767
+ "loss": 0.0001,
9768
+ "step": 1393
9769
  }
9770
  ],
9771
  "logging_steps": 1,
 
9780
  "should_evaluate": false,
9781
  "should_log": false,
9782
  "should_save": true,
9783
+ "should_training_stop": true
9784
  },
9785
  "attributes": {}
9786
  }
9787
  },
9788
+ "total_flos": 5.021446705250304e+16,
9789
  "train_batch_size": 4,
9790
  "trial_name": null,
9791
  "trial_params": null