Leonel-Maia commited on
Commit
4124aed
·
verified ·
1 Parent(s): 1127dd2

End of training

Browse files
Files changed (5) hide show
  1. README.md +6 -4
  2. all_results.json +16 -0
  3. eval_results.json +10 -0
  4. train_results.json +9 -0
  5. trainer_state.json +2002 -0
README.md CHANGED
@@ -3,6 +3,8 @@ library_name: transformers
3
  license: apache-2.0
4
  base_model: facebook/wav2vec2-xls-r-300m
5
  tags:
 
 
6
  - generated_from_trainer
7
  metrics:
8
  - wer
@@ -16,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
16
 
17
  # Wav2vec2-fula-no0
18
 
19
- This model is a fine-tuned version of [facebook/wav2vec2-xls-r-300m](https://huggingface.co/facebook/wav2vec2-xls-r-300m) on an unknown dataset.
20
  It achieves the following results on the evaluation set:
21
- - Loss: 0.4417
22
- - Wer: 0.5500
23
- - Cer: 0.1528
24
 
25
  ## Model description
26
 
 
3
  license: apache-2.0
4
  base_model: facebook/wav2vec2-xls-r-300m
5
  tags:
6
+ - automatic-speech-recognition
7
+ - Leonel-Maia/fulfulde-no0
8
  - generated_from_trainer
9
  metrics:
10
  - wer
 
18
 
19
  # Wav2vec2-fula-no0
20
 
21
+ This model is a fine-tuned version of [facebook/wav2vec2-xls-r-300m](https://huggingface.co/facebook/wav2vec2-xls-r-300m) on the LEONEL-MAIA/FULFULDE-NO0 - DEFAULT dataset.
22
  It achieves the following results on the evaluation set:
23
+ - Loss: 0.4407
24
+ - Wer: 0.5583
25
+ - Cer: 0.1549
26
 
27
  ## Model description
28
 
all_results.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 2.5601733307071104,
3
+ "eval_cer": 0.15485007139457402,
4
+ "eval_loss": 0.4407041072845459,
5
+ "eval_runtime": 161.3047,
6
+ "eval_samples": 1225,
7
+ "eval_samples_per_second": 7.594,
8
+ "eval_steps_per_second": 0.955,
9
+ "eval_wer": 0.5582874099194574,
10
+ "total_flos": 2.4200639627895153e+19,
11
+ "train_loss": 0.5404087718450106,
12
+ "train_runtime": 33172.3648,
13
+ "train_samples": 40609,
14
+ "train_samples_per_second": 73.451,
15
+ "train_steps_per_second": 4.591
16
+ }
eval_results.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 2.5601733307071104,
3
+ "eval_cer": 0.15485007139457402,
4
+ "eval_loss": 0.4407041072845459,
5
+ "eval_runtime": 161.3047,
6
+ "eval_samples": 1225,
7
+ "eval_samples_per_second": 7.594,
8
+ "eval_steps_per_second": 0.955,
9
+ "eval_wer": 0.5582874099194574
10
+ }
train_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 2.5601733307071104,
3
+ "total_flos": 2.4200639627895153e+19,
4
+ "train_loss": 0.5404087718450106,
5
+ "train_runtime": 33172.3648,
6
+ "train_samples": 40609,
7
+ "train_samples_per_second": 73.451,
8
+ "train_steps_per_second": 4.591
9
+ }
trainer_state.json ADDED
@@ -0,0 +1,2002 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 5000,
3
+ "best_metric": 0.4407041072845459,
4
+ "best_model_checkpoint": "./Wav2vec2-fula-no0/checkpoint-5000",
5
+ "epoch": 2.5601733307071104,
6
+ "eval_steps": 500,
7
+ "global_step": 6500,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.009848335631278314,
14
+ "grad_norm": 12.046097755432129,
15
+ "learning_rate": 6.899999999999999e-06,
16
+ "loss": 14.4755,
17
+ "step": 25
18
+ },
19
+ {
20
+ "epoch": 0.019696671262556628,
21
+ "grad_norm": 14.947002410888672,
22
+ "learning_rate": 1.44e-05,
23
+ "loss": 12.3724,
24
+ "step": 50
25
+ },
26
+ {
27
+ "epoch": 0.029545006893834942,
28
+ "grad_norm": 12.23189640045166,
29
+ "learning_rate": 2.1899999999999997e-05,
30
+ "loss": 9.1857,
31
+ "step": 75
32
+ },
33
+ {
34
+ "epoch": 0.039393342525113256,
35
+ "grad_norm": 9.180994987487793,
36
+ "learning_rate": 2.94e-05,
37
+ "loss": 5.4281,
38
+ "step": 100
39
+ },
40
+ {
41
+ "epoch": 0.04924167815639157,
42
+ "grad_norm": 6.606555461883545,
43
+ "learning_rate": 3.6899999999999996e-05,
44
+ "loss": 4.5971,
45
+ "step": 125
46
+ },
47
+ {
48
+ "epoch": 0.059090013787669884,
49
+ "grad_norm": 5.29020881652832,
50
+ "learning_rate": 4.4399999999999995e-05,
51
+ "loss": 3.9427,
52
+ "step": 150
53
+ },
54
+ {
55
+ "epoch": 0.06893834941894819,
56
+ "grad_norm": 2.6828274726867676,
57
+ "learning_rate": 5.1899999999999994e-05,
58
+ "loss": 3.6124,
59
+ "step": 175
60
+ },
61
+ {
62
+ "epoch": 0.07878668505022651,
63
+ "grad_norm": 1.4759694337844849,
64
+ "learning_rate": 5.94e-05,
65
+ "loss": 3.2772,
66
+ "step": 200
67
+ },
68
+ {
69
+ "epoch": 0.08863502068150482,
70
+ "grad_norm": 0.8410621285438538,
71
+ "learning_rate": 6.69e-05,
72
+ "loss": 3.0949,
73
+ "step": 225
74
+ },
75
+ {
76
+ "epoch": 0.09848335631278314,
77
+ "grad_norm": 1.349051594734192,
78
+ "learning_rate": 7.439999999999999e-05,
79
+ "loss": 2.9748,
80
+ "step": 250
81
+ },
82
+ {
83
+ "epoch": 0.10833169194406145,
84
+ "grad_norm": 0.9243702292442322,
85
+ "learning_rate": 8.19e-05,
86
+ "loss": 2.9459,
87
+ "step": 275
88
+ },
89
+ {
90
+ "epoch": 0.11818002757533977,
91
+ "grad_norm": 0.5389373302459717,
92
+ "learning_rate": 8.939999999999999e-05,
93
+ "loss": 2.9207,
94
+ "step": 300
95
+ },
96
+ {
97
+ "epoch": 0.1280283632066181,
98
+ "grad_norm": 1.399165153503418,
99
+ "learning_rate": 9.69e-05,
100
+ "loss": 2.8467,
101
+ "step": 325
102
+ },
103
+ {
104
+ "epoch": 0.13787669883789638,
105
+ "grad_norm": 0.7010773420333862,
106
+ "learning_rate": 0.00010439999999999999,
107
+ "loss": 2.5841,
108
+ "step": 350
109
+ },
110
+ {
111
+ "epoch": 0.1477250344691747,
112
+ "grad_norm": 0.8464407920837402,
113
+ "learning_rate": 0.0001119,
114
+ "loss": 2.1433,
115
+ "step": 375
116
+ },
117
+ {
118
+ "epoch": 0.15757337010045303,
119
+ "grad_norm": 1.085396647453308,
120
+ "learning_rate": 0.0001194,
121
+ "loss": 1.4039,
122
+ "step": 400
123
+ },
124
+ {
125
+ "epoch": 0.16742170573173135,
126
+ "grad_norm": 0.8390390276908875,
127
+ "learning_rate": 0.0001269,
128
+ "loss": 0.9324,
129
+ "step": 425
130
+ },
131
+ {
132
+ "epoch": 0.17727004136300964,
133
+ "grad_norm": 1.0844223499298096,
134
+ "learning_rate": 0.0001344,
135
+ "loss": 0.7308,
136
+ "step": 450
137
+ },
138
+ {
139
+ "epoch": 0.18711837699428796,
140
+ "grad_norm": 0.7026138305664062,
141
+ "learning_rate": 0.00014189999999999998,
142
+ "loss": 0.6444,
143
+ "step": 475
144
+ },
145
+ {
146
+ "epoch": 0.19696671262556628,
147
+ "grad_norm": 0.996733546257019,
148
+ "learning_rate": 0.0001494,
149
+ "loss": 0.5615,
150
+ "step": 500
151
+ },
152
+ {
153
+ "epoch": 0.19696671262556628,
154
+ "eval_cer": 0.2082246549262256,
155
+ "eval_loss": 0.6706342697143555,
156
+ "eval_runtime": 163.1895,
157
+ "eval_samples_per_second": 7.507,
158
+ "eval_steps_per_second": 0.944,
159
+ "eval_wer": 0.7328846969054684,
160
+ "step": 500
161
+ },
162
+ {
163
+ "epoch": 0.2068150482568446,
164
+ "grad_norm": 0.7681376338005066,
165
+ "learning_rate": 0.0001569,
166
+ "loss": 0.5653,
167
+ "step": 525
168
+ },
169
+ {
170
+ "epoch": 0.2166633838881229,
171
+ "grad_norm": 0.9657942056655884,
172
+ "learning_rate": 0.0001644,
173
+ "loss": 0.5054,
174
+ "step": 550
175
+ },
176
+ {
177
+ "epoch": 0.22651171951940122,
178
+ "grad_norm": 0.6645617485046387,
179
+ "learning_rate": 0.00017189999999999998,
180
+ "loss": 0.4903,
181
+ "step": 575
182
+ },
183
+ {
184
+ "epoch": 0.23636005515067954,
185
+ "grad_norm": 0.8374491930007935,
186
+ "learning_rate": 0.00017939999999999997,
187
+ "loss": 0.4468,
188
+ "step": 600
189
+ },
190
+ {
191
+ "epoch": 0.24620839078195786,
192
+ "grad_norm": 0.634929895401001,
193
+ "learning_rate": 0.0001869,
194
+ "loss": 0.5071,
195
+ "step": 625
196
+ },
197
+ {
198
+ "epoch": 0.2560567264132362,
199
+ "grad_norm": 1.10395348072052,
200
+ "learning_rate": 0.00019439999999999998,
201
+ "loss": 0.4589,
202
+ "step": 650
203
+ },
204
+ {
205
+ "epoch": 0.2659050620445145,
206
+ "grad_norm": 0.6340622305870056,
207
+ "learning_rate": 0.0002019,
208
+ "loss": 0.4443,
209
+ "step": 675
210
+ },
211
+ {
212
+ "epoch": 0.27575339767579277,
213
+ "grad_norm": 0.8145949244499207,
214
+ "learning_rate": 0.00020939999999999997,
215
+ "loss": 0.4012,
216
+ "step": 700
217
+ },
218
+ {
219
+ "epoch": 0.2856017333070711,
220
+ "grad_norm": 0.6671243906021118,
221
+ "learning_rate": 0.0002169,
222
+ "loss": 0.426,
223
+ "step": 725
224
+ },
225
+ {
226
+ "epoch": 0.2954500689383494,
227
+ "grad_norm": 0.9220252633094788,
228
+ "learning_rate": 0.00022439999999999998,
229
+ "loss": 0.3847,
230
+ "step": 750
231
+ },
232
+ {
233
+ "epoch": 0.30529840456962776,
234
+ "grad_norm": 0.565290093421936,
235
+ "learning_rate": 0.0002319,
236
+ "loss": 0.4275,
237
+ "step": 775
238
+ },
239
+ {
240
+ "epoch": 0.31514674020090605,
241
+ "grad_norm": 0.9773520231246948,
242
+ "learning_rate": 0.0002394,
243
+ "loss": 0.4157,
244
+ "step": 800
245
+ },
246
+ {
247
+ "epoch": 0.32499507583218434,
248
+ "grad_norm": 0.46723672747612,
249
+ "learning_rate": 0.0002469,
250
+ "loss": 0.3753,
251
+ "step": 825
252
+ },
253
+ {
254
+ "epoch": 0.3348434114634627,
255
+ "grad_norm": 0.8790475726127625,
256
+ "learning_rate": 0.00025439999999999995,
257
+ "loss": 0.3772,
258
+ "step": 850
259
+ },
260
+ {
261
+ "epoch": 0.344691747094741,
262
+ "grad_norm": 0.5482104420661926,
263
+ "learning_rate": 0.00026189999999999997,
264
+ "loss": 0.5094,
265
+ "step": 875
266
+ },
267
+ {
268
+ "epoch": 0.3545400827260193,
269
+ "grad_norm": 0.6486608982086182,
270
+ "learning_rate": 0.0002694,
271
+ "loss": 0.3437,
272
+ "step": 900
273
+ },
274
+ {
275
+ "epoch": 0.3643884183572976,
276
+ "grad_norm": 0.5524376034736633,
277
+ "learning_rate": 0.0002769,
278
+ "loss": 0.3633,
279
+ "step": 925
280
+ },
281
+ {
282
+ "epoch": 0.3742367539885759,
283
+ "grad_norm": 0.8503928184509277,
284
+ "learning_rate": 0.0002844,
285
+ "loss": 0.3734,
286
+ "step": 950
287
+ },
288
+ {
289
+ "epoch": 0.38408508961985427,
290
+ "grad_norm": 0.46665817499160767,
291
+ "learning_rate": 0.0002919,
292
+ "loss": 0.4187,
293
+ "step": 975
294
+ },
295
+ {
296
+ "epoch": 0.39393342525113256,
297
+ "grad_norm": 0.6875209808349609,
298
+ "learning_rate": 0.00029939999999999996,
299
+ "loss": 0.3606,
300
+ "step": 1000
301
+ },
302
+ {
303
+ "epoch": 0.39393342525113256,
304
+ "eval_cer": 0.17860066634935745,
305
+ "eval_loss": 0.5461390018463135,
306
+ "eval_runtime": 163.7996,
307
+ "eval_samples_per_second": 7.479,
308
+ "eval_steps_per_second": 0.94,
309
+ "eval_wer": 0.635173802458669,
310
+ "step": 1000
311
+ },
312
+ {
313
+ "epoch": 0.40378176088241086,
314
+ "grad_norm": 0.5352048277854919,
315
+ "learning_rate": 0.00029995438921205707,
316
+ "loss": 0.3672,
317
+ "step": 1025
318
+ },
319
+ {
320
+ "epoch": 0.4136300965136892,
321
+ "grad_norm": 0.8251035213470459,
322
+ "learning_rate": 0.0002999048122686409,
323
+ "loss": 0.339,
324
+ "step": 1050
325
+ },
326
+ {
327
+ "epoch": 0.4234784321449675,
328
+ "grad_norm": 0.3810572326183319,
329
+ "learning_rate": 0.0002998552353252247,
330
+ "loss": 0.3476,
331
+ "step": 1075
332
+ },
333
+ {
334
+ "epoch": 0.4333267677762458,
335
+ "grad_norm": 0.7540473341941833,
336
+ "learning_rate": 0.00029980565838180854,
337
+ "loss": 0.3312,
338
+ "step": 1100
339
+ },
340
+ {
341
+ "epoch": 0.44317510340752414,
342
+ "grad_norm": 0.4706610143184662,
343
+ "learning_rate": 0.00029975608143839236,
344
+ "loss": 0.3824,
345
+ "step": 1125
346
+ },
347
+ {
348
+ "epoch": 0.45302343903880243,
349
+ "grad_norm": 0.8626775145530701,
350
+ "learning_rate": 0.0002997065044949762,
351
+ "loss": 0.3151,
352
+ "step": 1150
353
+ },
354
+ {
355
+ "epoch": 0.4628717746700808,
356
+ "grad_norm": 0.49395477771759033,
357
+ "learning_rate": 0.00029965692755156,
358
+ "loss": 0.329,
359
+ "step": 1175
360
+ },
361
+ {
362
+ "epoch": 0.4727201103013591,
363
+ "grad_norm": 0.7644901871681213,
364
+ "learning_rate": 0.00029960735060814383,
365
+ "loss": 0.3286,
366
+ "step": 1200
367
+ },
368
+ {
369
+ "epoch": 0.48256844593263737,
370
+ "grad_norm": 0.4805561304092407,
371
+ "learning_rate": 0.0002995577736647276,
372
+ "loss": 0.3309,
373
+ "step": 1225
374
+ },
375
+ {
376
+ "epoch": 0.4924167815639157,
377
+ "grad_norm": 0.8837474584579468,
378
+ "learning_rate": 0.0002995081967213115,
379
+ "loss": 0.2904,
380
+ "step": 1250
381
+ },
382
+ {
383
+ "epoch": 0.5022651171951941,
384
+ "grad_norm": 0.4018630087375641,
385
+ "learning_rate": 0.00029945861977789524,
386
+ "loss": 0.3672,
387
+ "step": 1275
388
+ },
389
+ {
390
+ "epoch": 0.5121134528264724,
391
+ "grad_norm": 0.7346324324607849,
392
+ "learning_rate": 0.0002994090428344791,
393
+ "loss": 0.2945,
394
+ "step": 1300
395
+ },
396
+ {
397
+ "epoch": 0.5219617884577507,
398
+ "grad_norm": 0.40217846632003784,
399
+ "learning_rate": 0.0002993594658910629,
400
+ "loss": 0.3403,
401
+ "step": 1325
402
+ },
403
+ {
404
+ "epoch": 0.531810124089029,
405
+ "grad_norm": 1.1682546138763428,
406
+ "learning_rate": 0.0002993098889476467,
407
+ "loss": 0.3214,
408
+ "step": 1350
409
+ },
410
+ {
411
+ "epoch": 0.5416584597203072,
412
+ "grad_norm": 0.5751331448554993,
413
+ "learning_rate": 0.00029926031200423053,
414
+ "loss": 0.3351,
415
+ "step": 1375
416
+ },
417
+ {
418
+ "epoch": 0.5515067953515855,
419
+ "grad_norm": 0.6926270127296448,
420
+ "learning_rate": 0.00029921073506081436,
421
+ "loss": 0.2982,
422
+ "step": 1400
423
+ },
424
+ {
425
+ "epoch": 0.5613551309828639,
426
+ "grad_norm": 0.48034876585006714,
427
+ "learning_rate": 0.0002991611581173982,
428
+ "loss": 0.3248,
429
+ "step": 1425
430
+ },
431
+ {
432
+ "epoch": 0.5712034666141422,
433
+ "grad_norm": 0.9431607127189636,
434
+ "learning_rate": 0.000299111581173982,
435
+ "loss": 0.3203,
436
+ "step": 1450
437
+ },
438
+ {
439
+ "epoch": 0.5810518022454205,
440
+ "grad_norm": 0.4477253258228302,
441
+ "learning_rate": 0.0002990620042305658,
442
+ "loss": 0.4062,
443
+ "step": 1475
444
+ },
445
+ {
446
+ "epoch": 0.5909001378766988,
447
+ "grad_norm": 0.7116991877555847,
448
+ "learning_rate": 0.00029901242728714965,
449
+ "loss": 0.3103,
450
+ "step": 1500
451
+ },
452
+ {
453
+ "epoch": 0.5909001378766988,
454
+ "eval_cer": 0.16950023798191338,
455
+ "eval_loss": 0.49604567885398865,
456
+ "eval_runtime": 162.9792,
457
+ "eval_samples_per_second": 7.516,
458
+ "eval_steps_per_second": 0.945,
459
+ "eval_wer": 0.602585841458245,
460
+ "step": 1500
461
+ },
462
+ {
463
+ "epoch": 0.6007484735079771,
464
+ "grad_norm": 0.6022364497184753,
465
+ "learning_rate": 0.00029896285034373347,
466
+ "loss": 0.2932,
467
+ "step": 1525
468
+ },
469
+ {
470
+ "epoch": 0.6105968091392555,
471
+ "grad_norm": 0.5500746369361877,
472
+ "learning_rate": 0.00029891327340031724,
473
+ "loss": 0.2917,
474
+ "step": 1550
475
+ },
476
+ {
477
+ "epoch": 0.6204451447705338,
478
+ "grad_norm": 0.4216461181640625,
479
+ "learning_rate": 0.00029886369645690106,
480
+ "loss": 0.3091,
481
+ "step": 1575
482
+ },
483
+ {
484
+ "epoch": 0.6302934804018121,
485
+ "grad_norm": 0.579009473323822,
486
+ "learning_rate": 0.0002988141195134849,
487
+ "loss": 0.2846,
488
+ "step": 1600
489
+ },
490
+ {
491
+ "epoch": 0.6401418160330904,
492
+ "grad_norm": 0.4677256941795349,
493
+ "learning_rate": 0.0002987645425700687,
494
+ "loss": 0.2971,
495
+ "step": 1625
496
+ },
497
+ {
498
+ "epoch": 0.6499901516643687,
499
+ "grad_norm": 0.8396487236022949,
500
+ "learning_rate": 0.00029871496562665253,
501
+ "loss": 0.2865,
502
+ "step": 1650
503
+ },
504
+ {
505
+ "epoch": 0.659838487295647,
506
+ "grad_norm": 0.45849570631980896,
507
+ "learning_rate": 0.00029866538868323635,
508
+ "loss": 0.3084,
509
+ "step": 1675
510
+ },
511
+ {
512
+ "epoch": 0.6696868229269254,
513
+ "grad_norm": 0.44411608576774597,
514
+ "learning_rate": 0.0002986158117398202,
515
+ "loss": 0.2729,
516
+ "step": 1700
517
+ },
518
+ {
519
+ "epoch": 0.6795351585582037,
520
+ "grad_norm": 0.4640048146247864,
521
+ "learning_rate": 0.000298566234796404,
522
+ "loss": 0.28,
523
+ "step": 1725
524
+ },
525
+ {
526
+ "epoch": 0.689383494189482,
527
+ "grad_norm": 0.6684908866882324,
528
+ "learning_rate": 0.00029851665785298777,
529
+ "loss": 0.2853,
530
+ "step": 1750
531
+ },
532
+ {
533
+ "epoch": 0.6992318298207603,
534
+ "grad_norm": 0.38581475615501404,
535
+ "learning_rate": 0.00029846708090957165,
536
+ "loss": 0.3043,
537
+ "step": 1775
538
+ },
539
+ {
540
+ "epoch": 0.7090801654520386,
541
+ "grad_norm": 0.7165818810462952,
542
+ "learning_rate": 0.0002984175039661554,
543
+ "loss": 0.2659,
544
+ "step": 1800
545
+ },
546
+ {
547
+ "epoch": 0.718928501083317,
548
+ "grad_norm": 0.47936758399009705,
549
+ "learning_rate": 0.0002983679270227393,
550
+ "loss": 0.3179,
551
+ "step": 1825
552
+ },
553
+ {
554
+ "epoch": 0.7287768367145953,
555
+ "grad_norm": 0.8553590178489685,
556
+ "learning_rate": 0.00029831835007932306,
557
+ "loss": 0.2658,
558
+ "step": 1850
559
+ },
560
+ {
561
+ "epoch": 0.7386251723458735,
562
+ "grad_norm": 0.8372988104820251,
563
+ "learning_rate": 0.00029826877313590694,
564
+ "loss": 0.3262,
565
+ "step": 1875
566
+ },
567
+ {
568
+ "epoch": 0.7484735079771518,
569
+ "grad_norm": 0.6207088232040405,
570
+ "learning_rate": 0.0002982191961924907,
571
+ "loss": 0.2492,
572
+ "step": 1900
573
+ },
574
+ {
575
+ "epoch": 0.7583218436084301,
576
+ "grad_norm": 0.41880714893341064,
577
+ "learning_rate": 0.00029816961924907453,
578
+ "loss": 0.2913,
579
+ "step": 1925
580
+ },
581
+ {
582
+ "epoch": 0.7681701792397085,
583
+ "grad_norm": 0.5808923840522766,
584
+ "learning_rate": 0.00029812004230565835,
585
+ "loss": 0.2747,
586
+ "step": 1950
587
+ },
588
+ {
589
+ "epoch": 0.7780185148709868,
590
+ "grad_norm": 0.41703030467033386,
591
+ "learning_rate": 0.0002980704653622422,
592
+ "loss": 0.2835,
593
+ "step": 1975
594
+ },
595
+ {
596
+ "epoch": 0.7878668505022651,
597
+ "grad_norm": 0.5971771478652954,
598
+ "learning_rate": 0.000298020888418826,
599
+ "loss": 0.228,
600
+ "step": 2000
601
+ },
602
+ {
603
+ "epoch": 0.7878668505022651,
604
+ "eval_cer": 0.16345549738219894,
605
+ "eval_loss": 0.5086885094642639,
606
+ "eval_runtime": 163.7155,
607
+ "eval_samples_per_second": 7.482,
608
+ "eval_steps_per_second": 0.941,
609
+ "eval_wer": 0.5916701992369648,
610
+ "step": 2000
611
+ },
612
+ {
613
+ "epoch": 0.7977151861335434,
614
+ "grad_norm": 0.39887216687202454,
615
+ "learning_rate": 0.0002979713114754098,
616
+ "loss": 0.2978,
617
+ "step": 2025
618
+ },
619
+ {
620
+ "epoch": 0.8075635217648217,
621
+ "grad_norm": 0.6058250665664673,
622
+ "learning_rate": 0.00029792173453199364,
623
+ "loss": 0.258,
624
+ "step": 2050
625
+ },
626
+ {
627
+ "epoch": 0.8174118573961,
628
+ "grad_norm": 0.37628692388534546,
629
+ "learning_rate": 0.00029787215758857747,
630
+ "loss": 0.2648,
631
+ "step": 2075
632
+ },
633
+ {
634
+ "epoch": 0.8272601930273784,
635
+ "grad_norm": 0.6003425121307373,
636
+ "learning_rate": 0.0002978225806451613,
637
+ "loss": 0.2536,
638
+ "step": 2100
639
+ },
640
+ {
641
+ "epoch": 0.8371085286586567,
642
+ "grad_norm": 0.3735896348953247,
643
+ "learning_rate": 0.00029777300370174506,
644
+ "loss": 0.2853,
645
+ "step": 2125
646
+ },
647
+ {
648
+ "epoch": 0.846956864289935,
649
+ "grad_norm": 0.6161431074142456,
650
+ "learning_rate": 0.0002977234267583289,
651
+ "loss": 0.2388,
652
+ "step": 2150
653
+ },
654
+ {
655
+ "epoch": 0.8568051999212133,
656
+ "grad_norm": 0.4847399890422821,
657
+ "learning_rate": 0.0002976738498149127,
658
+ "loss": 0.2982,
659
+ "step": 2175
660
+ },
661
+ {
662
+ "epoch": 0.8666535355524916,
663
+ "grad_norm": 0.5926830172538757,
664
+ "learning_rate": 0.0002976242728714965,
665
+ "loss": 0.2716,
666
+ "step": 2200
667
+ },
668
+ {
669
+ "epoch": 0.87650187118377,
670
+ "grad_norm": 0.445588618516922,
671
+ "learning_rate": 0.00029757469592808035,
672
+ "loss": 0.269,
673
+ "step": 2225
674
+ },
675
+ {
676
+ "epoch": 0.8863502068150483,
677
+ "grad_norm": 0.7648467421531677,
678
+ "learning_rate": 0.00029752511898466417,
679
+ "loss": 0.2669,
680
+ "step": 2250
681
+ },
682
+ {
683
+ "epoch": 0.8961985424463266,
684
+ "grad_norm": 0.32576897740364075,
685
+ "learning_rate": 0.000297475542041248,
686
+ "loss": 0.2948,
687
+ "step": 2275
688
+ },
689
+ {
690
+ "epoch": 0.9060468780776049,
691
+ "grad_norm": 0.63624507188797,
692
+ "learning_rate": 0.0002974259650978318,
693
+ "loss": 0.2242,
694
+ "step": 2300
695
+ },
696
+ {
697
+ "epoch": 0.9158952137088832,
698
+ "grad_norm": 0.5524712204933167,
699
+ "learning_rate": 0.00029737638815441564,
700
+ "loss": 0.2999,
701
+ "step": 2325
702
+ },
703
+ {
704
+ "epoch": 0.9257435493401616,
705
+ "grad_norm": 1.4110374450683594,
706
+ "learning_rate": 0.00029732681121099946,
707
+ "loss": 0.2717,
708
+ "step": 2350
709
+ },
710
+ {
711
+ "epoch": 0.9355918849714399,
712
+ "grad_norm": 0.3871447443962097,
713
+ "learning_rate": 0.00029727723426758323,
714
+ "loss": 0.3137,
715
+ "step": 2375
716
+ },
717
+ {
718
+ "epoch": 0.9454402206027182,
719
+ "grad_norm": 0.5803717970848083,
720
+ "learning_rate": 0.0002972276573241671,
721
+ "loss": 0.2636,
722
+ "step": 2400
723
+ },
724
+ {
725
+ "epoch": 0.9552885562339964,
726
+ "grad_norm": 0.43855154514312744,
727
+ "learning_rate": 0.0002971780803807509,
728
+ "loss": 0.2824,
729
+ "step": 2425
730
+ },
731
+ {
732
+ "epoch": 0.9651368918652747,
733
+ "grad_norm": 0.557528018951416,
734
+ "learning_rate": 0.00029712850343733475,
735
+ "loss": 0.2325,
736
+ "step": 2450
737
+ },
738
+ {
739
+ "epoch": 0.974985227496553,
740
+ "grad_norm": 0.4475504457950592,
741
+ "learning_rate": 0.0002970789264939185,
742
+ "loss": 0.2684,
743
+ "step": 2475
744
+ },
745
+ {
746
+ "epoch": 0.9848335631278314,
747
+ "grad_norm": 0.5186614990234375,
748
+ "learning_rate": 0.00029702934955050234,
749
+ "loss": 0.2502,
750
+ "step": 2500
751
+ },
752
+ {
753
+ "epoch": 0.9848335631278314,
754
+ "eval_cer": 0.16478819609709663,
755
+ "eval_loss": 0.47200512886047363,
756
+ "eval_runtime": 163.5041,
757
+ "eval_samples_per_second": 7.492,
758
+ "eval_steps_per_second": 0.942,
759
+ "eval_wer": 0.5835099618482408,
760
+ "step": 2500
761
+ },
762
+ {
763
+ "epoch": 0.9946818987591097,
764
+ "grad_norm": 0.41672027111053467,
765
+ "learning_rate": 0.00029697977260708617,
766
+ "loss": 0.2629,
767
+ "step": 2525
768
+ },
769
+ {
770
+ "epoch": 1.0043332676777625,
771
+ "grad_norm": 0.3539595901966095,
772
+ "learning_rate": 0.00029693019566367,
773
+ "loss": 0.273,
774
+ "step": 2550
775
+ },
776
+ {
777
+ "epoch": 1.0141816033090407,
778
+ "grad_norm": 0.4776741564273834,
779
+ "learning_rate": 0.0002968806187202538,
780
+ "loss": 0.2057,
781
+ "step": 2575
782
+ },
783
+ {
784
+ "epoch": 1.0240299389403191,
785
+ "grad_norm": 0.5060381889343262,
786
+ "learning_rate": 0.00029683104177683764,
787
+ "loss": 0.3886,
788
+ "step": 2600
789
+ },
790
+ {
791
+ "epoch": 1.0338782745715973,
792
+ "grad_norm": 0.387074738740921,
793
+ "learning_rate": 0.00029678146483342146,
794
+ "loss": 0.1943,
795
+ "step": 2625
796
+ },
797
+ {
798
+ "epoch": 1.0437266102028757,
799
+ "grad_norm": 0.3543827533721924,
800
+ "learning_rate": 0.0002967318878900053,
801
+ "loss": 0.2544,
802
+ "step": 2650
803
+ },
804
+ {
805
+ "epoch": 1.0535749458341541,
806
+ "grad_norm": 0.4274260103702545,
807
+ "learning_rate": 0.0002966823109465891,
808
+ "loss": 0.1986,
809
+ "step": 2675
810
+ },
811
+ {
812
+ "epoch": 1.0634232814654323,
813
+ "grad_norm": 0.37364107370376587,
814
+ "learning_rate": 0.00029663273400317293,
815
+ "loss": 0.2713,
816
+ "step": 2700
817
+ },
818
+ {
819
+ "epoch": 1.0732716170967107,
820
+ "grad_norm": 0.5992911458015442,
821
+ "learning_rate": 0.0002965831570597567,
822
+ "loss": 0.1983,
823
+ "step": 2725
824
+ },
825
+ {
826
+ "epoch": 1.0831199527279889,
827
+ "grad_norm": 0.4560203552246094,
828
+ "learning_rate": 0.0002965335801163405,
829
+ "loss": 0.264,
830
+ "step": 2750
831
+ },
832
+ {
833
+ "epoch": 1.0929682883592673,
834
+ "grad_norm": 0.4546229839324951,
835
+ "learning_rate": 0.00029648400317292434,
836
+ "loss": 0.1982,
837
+ "step": 2775
838
+ },
839
+ {
840
+ "epoch": 1.1028166239905457,
841
+ "grad_norm": 0.39508143067359924,
842
+ "learning_rate": 0.00029643442622950816,
843
+ "loss": 0.261,
844
+ "step": 2800
845
+ },
846
+ {
847
+ "epoch": 1.1126649596218239,
848
+ "grad_norm": 0.527611255645752,
849
+ "learning_rate": 0.000296384849286092,
850
+ "loss": 0.1981,
851
+ "step": 2825
852
+ },
853
+ {
854
+ "epoch": 1.1225132952531023,
855
+ "grad_norm": 0.3761278986930847,
856
+ "learning_rate": 0.0002963352723426758,
857
+ "loss": 0.2404,
858
+ "step": 2850
859
+ },
860
+ {
861
+ "epoch": 1.1323616308843805,
862
+ "grad_norm": 0.35845261812210083,
863
+ "learning_rate": 0.00029628569539925963,
864
+ "loss": 0.1828,
865
+ "step": 2875
866
+ },
867
+ {
868
+ "epoch": 1.1422099665156589,
869
+ "grad_norm": 0.38187527656555176,
870
+ "learning_rate": 0.00029623611845584346,
871
+ "loss": 0.2428,
872
+ "step": 2900
873
+ },
874
+ {
875
+ "epoch": 1.152058302146937,
876
+ "grad_norm": 0.44596055150032043,
877
+ "learning_rate": 0.0002961865415124273,
878
+ "loss": 0.1932,
879
+ "step": 2925
880
+ },
881
+ {
882
+ "epoch": 1.1619066377782155,
883
+ "grad_norm": 0.33598092198371887,
884
+ "learning_rate": 0.00029613696456901105,
885
+ "loss": 0.2846,
886
+ "step": 2950
887
+ },
888
+ {
889
+ "epoch": 1.1717549734094939,
890
+ "grad_norm": 0.5181595683097839,
891
+ "learning_rate": 0.0002960873876255949,
892
+ "loss": 0.2085,
893
+ "step": 2975
894
+ },
895
+ {
896
+ "epoch": 1.181603309040772,
897
+ "grad_norm": 0.4908069372177124,
898
+ "learning_rate": 0.0002960378106821787,
899
+ "loss": 0.2841,
900
+ "step": 3000
901
+ },
902
+ {
903
+ "epoch": 1.181603309040772,
904
+ "eval_cer": 0.1700523560209424,
905
+ "eval_loss": 0.46515917778015137,
906
+ "eval_runtime": 163.0519,
907
+ "eval_samples_per_second": 7.513,
908
+ "eval_steps_per_second": 0.944,
909
+ "eval_wer": 0.6019499788045782,
910
+ "step": 3000
911
+ },
912
+ {
913
+ "epoch": 1.1914516446720504,
914
+ "grad_norm": 0.4038330912590027,
915
+ "learning_rate": 0.00029598823373876257,
916
+ "loss": 0.2072,
917
+ "step": 3025
918
+ },
919
+ {
920
+ "epoch": 1.2012999803033289,
921
+ "grad_norm": 0.2689180374145508,
922
+ "learning_rate": 0.00029593865679534634,
923
+ "loss": 0.2815,
924
+ "step": 3050
925
+ },
926
+ {
927
+ "epoch": 1.211148315934607,
928
+ "grad_norm": 0.55915766954422,
929
+ "learning_rate": 0.00029588907985193016,
930
+ "loss": 0.1969,
931
+ "step": 3075
932
+ },
933
+ {
934
+ "epoch": 1.2209966515658854,
935
+ "grad_norm": 0.5152351260185242,
936
+ "learning_rate": 0.000295839502908514,
937
+ "loss": 0.2563,
938
+ "step": 3100
939
+ },
940
+ {
941
+ "epoch": 1.2308449871971636,
942
+ "grad_norm": 0.4780251681804657,
943
+ "learning_rate": 0.0002957899259650978,
944
+ "loss": 0.1865,
945
+ "step": 3125
946
+ },
947
+ {
948
+ "epoch": 1.240693322828442,
949
+ "grad_norm": 0.3721919357776642,
950
+ "learning_rate": 0.00029574034902168163,
951
+ "loss": 0.2804,
952
+ "step": 3150
953
+ },
954
+ {
955
+ "epoch": 1.2505416584597202,
956
+ "grad_norm": 0.33008575439453125,
957
+ "learning_rate": 0.00029569077207826545,
958
+ "loss": 0.2067,
959
+ "step": 3175
960
+ },
961
+ {
962
+ "epoch": 1.2603899940909986,
963
+ "grad_norm": 0.5002256035804749,
964
+ "learning_rate": 0.0002956411951348493,
965
+ "loss": 0.2868,
966
+ "step": 3200
967
+ },
968
+ {
969
+ "epoch": 1.270238329722277,
970
+ "grad_norm": 1.328635573387146,
971
+ "learning_rate": 0.0002955916181914331,
972
+ "loss": 0.2323,
973
+ "step": 3225
974
+ },
975
+ {
976
+ "epoch": 1.2800866653535552,
977
+ "grad_norm": 0.3654369115829468,
978
+ "learning_rate": 0.00029554204124801687,
979
+ "loss": 0.2363,
980
+ "step": 3250
981
+ },
982
+ {
983
+ "epoch": 1.2899350009848336,
984
+ "grad_norm": 0.468279629945755,
985
+ "learning_rate": 0.00029549246430460074,
986
+ "loss": 0.1716,
987
+ "step": 3275
988
+ },
989
+ {
990
+ "epoch": 1.299783336616112,
991
+ "grad_norm": 0.3845861256122589,
992
+ "learning_rate": 0.0002954428873611845,
993
+ "loss": 0.2792,
994
+ "step": 3300
995
+ },
996
+ {
997
+ "epoch": 1.3096316722473902,
998
+ "grad_norm": 0.40870147943496704,
999
+ "learning_rate": 0.00029539331041776834,
1000
+ "loss": 0.1794,
1001
+ "step": 3325
1002
+ },
1003
+ {
1004
+ "epoch": 1.3194800078786684,
1005
+ "grad_norm": 0.5596709847450256,
1006
+ "learning_rate": 0.00029534373347435216,
1007
+ "loss": 0.2471,
1008
+ "step": 3350
1009
+ },
1010
+ {
1011
+ "epoch": 1.3293283435099468,
1012
+ "grad_norm": 0.5225990414619446,
1013
+ "learning_rate": 0.000295294156530936,
1014
+ "loss": 0.1847,
1015
+ "step": 3375
1016
+ },
1017
+ {
1018
+ "epoch": 1.3391766791412252,
1019
+ "grad_norm": 0.2951211929321289,
1020
+ "learning_rate": 0.0002952445795875198,
1021
+ "loss": 0.2149,
1022
+ "step": 3400
1023
+ },
1024
+ {
1025
+ "epoch": 1.3490250147725034,
1026
+ "grad_norm": 0.7100874185562134,
1027
+ "learning_rate": 0.0002951950026441036,
1028
+ "loss": 0.197,
1029
+ "step": 3425
1030
+ },
1031
+ {
1032
+ "epoch": 1.3588733504037818,
1033
+ "grad_norm": 0.4289153218269348,
1034
+ "learning_rate": 0.00029514542570068745,
1035
+ "loss": 0.259,
1036
+ "step": 3450
1037
+ },
1038
+ {
1039
+ "epoch": 1.3687216860350602,
1040
+ "grad_norm": 0.9042884707450867,
1041
+ "learning_rate": 0.00029509584875727127,
1042
+ "loss": 0.1585,
1043
+ "step": 3475
1044
+ },
1045
+ {
1046
+ "epoch": 1.3785700216663384,
1047
+ "grad_norm": 0.3851844072341919,
1048
+ "learning_rate": 0.0002950462718138551,
1049
+ "loss": 0.2603,
1050
+ "step": 3500
1051
+ },
1052
+ {
1053
+ "epoch": 1.3785700216663384,
1054
+ "eval_cer": 0.15875297477391717,
1055
+ "eval_loss": 0.4725710451602936,
1056
+ "eval_runtime": 163.6264,
1057
+ "eval_samples_per_second": 7.487,
1058
+ "eval_steps_per_second": 0.941,
1059
+ "eval_wer": 0.5685142009325985,
1060
+ "step": 3500
1061
+ },
1062
+ {
1063
+ "epoch": 1.3884183572976168,
1064
+ "grad_norm": 0.4688514769077301,
1065
+ "learning_rate": 0.00029499669487043886,
1066
+ "loss": 0.1828,
1067
+ "step": 3525
1068
+ },
1069
+ {
1070
+ "epoch": 1.398266692928895,
1071
+ "grad_norm": 0.3662601709365845,
1072
+ "learning_rate": 0.00029494711792702274,
1073
+ "loss": 0.263,
1074
+ "step": 3550
1075
+ },
1076
+ {
1077
+ "epoch": 1.4081150285601733,
1078
+ "grad_norm": 0.8322161436080933,
1079
+ "learning_rate": 0.0002948975409836065,
1080
+ "loss": 0.1968,
1081
+ "step": 3575
1082
+ },
1083
+ {
1084
+ "epoch": 1.4179633641914515,
1085
+ "grad_norm": 0.6938912868499756,
1086
+ "learning_rate": 0.0002948479640401904,
1087
+ "loss": 0.2717,
1088
+ "step": 3600
1089
+ },
1090
+ {
1091
+ "epoch": 1.42781169982273,
1092
+ "grad_norm": 0.6767099499702454,
1093
+ "learning_rate": 0.00029479838709677416,
1094
+ "loss": 0.1871,
1095
+ "step": 3625
1096
+ },
1097
+ {
1098
+ "epoch": 1.4376600354540083,
1099
+ "grad_norm": 0.4281677305698395,
1100
+ "learning_rate": 0.000294748810153358,
1101
+ "loss": 0.2598,
1102
+ "step": 3650
1103
+ },
1104
+ {
1105
+ "epoch": 1.4475083710852865,
1106
+ "grad_norm": 0.5565653443336487,
1107
+ "learning_rate": 0.0002946992332099418,
1108
+ "loss": 0.1913,
1109
+ "step": 3675
1110
+ },
1111
+ {
1112
+ "epoch": 1.457356706716565,
1113
+ "grad_norm": 0.3767055869102478,
1114
+ "learning_rate": 0.0002946496562665256,
1115
+ "loss": 0.2536,
1116
+ "step": 3700
1117
+ },
1118
+ {
1119
+ "epoch": 1.4672050423478433,
1120
+ "grad_norm": 0.5199496150016785,
1121
+ "learning_rate": 0.00029460007932310945,
1122
+ "loss": 0.1869,
1123
+ "step": 3725
1124
+ },
1125
+ {
1126
+ "epoch": 1.4770533779791215,
1127
+ "grad_norm": 0.25990667939186096,
1128
+ "learning_rate": 0.00029455050237969327,
1129
+ "loss": 0.2672,
1130
+ "step": 3750
1131
+ },
1132
+ {
1133
+ "epoch": 1.4869017136104,
1134
+ "grad_norm": 0.4943206310272217,
1135
+ "learning_rate": 0.0002945009254362771,
1136
+ "loss": 0.1842,
1137
+ "step": 3775
1138
+ },
1139
+ {
1140
+ "epoch": 1.496750049241678,
1141
+ "grad_norm": 0.3140566051006317,
1142
+ "learning_rate": 0.0002944513484928609,
1143
+ "loss": 0.2321,
1144
+ "step": 3800
1145
+ },
1146
+ {
1147
+ "epoch": 1.5065983848729565,
1148
+ "grad_norm": 0.47428634762763977,
1149
+ "learning_rate": 0.0002944017715494447,
1150
+ "loss": 0.1781,
1151
+ "step": 3825
1152
+ },
1153
+ {
1154
+ "epoch": 1.5164467205042347,
1155
+ "grad_norm": 0.33789676427841187,
1156
+ "learning_rate": 0.00029435219460602856,
1157
+ "loss": 0.2895,
1158
+ "step": 3850
1159
+ },
1160
+ {
1161
+ "epoch": 1.526295056135513,
1162
+ "grad_norm": 0.5449649691581726,
1163
+ "learning_rate": 0.00029430261766261233,
1164
+ "loss": 0.1773,
1165
+ "step": 3875
1166
+ },
1167
+ {
1168
+ "epoch": 1.5361433917667915,
1169
+ "grad_norm": 0.3018980324268341,
1170
+ "learning_rate": 0.00029425304071919615,
1171
+ "loss": 0.2369,
1172
+ "step": 3900
1173
+ },
1174
+ {
1175
+ "epoch": 1.5459917273980697,
1176
+ "grad_norm": 0.39579182863235474,
1177
+ "learning_rate": 0.00029420346377578,
1178
+ "loss": 0.1831,
1179
+ "step": 3925
1180
+ },
1181
+ {
1182
+ "epoch": 1.555840063029348,
1183
+ "grad_norm": 0.31681591272354126,
1184
+ "learning_rate": 0.0002941538868323638,
1185
+ "loss": 0.2517,
1186
+ "step": 3950
1187
+ },
1188
+ {
1189
+ "epoch": 1.5656883986606265,
1190
+ "grad_norm": 0.5165658593177795,
1191
+ "learning_rate": 0.0002941043098889476,
1192
+ "loss": 0.1675,
1193
+ "step": 3975
1194
+ },
1195
+ {
1196
+ "epoch": 1.5755367342919047,
1197
+ "grad_norm": 0.3655818700790405,
1198
+ "learning_rate": 0.00029405473294553144,
1199
+ "loss": 0.2538,
1200
+ "step": 4000
1201
+ },
1202
+ {
1203
+ "epoch": 1.5755367342919047,
1204
+ "eval_cer": 0.15729652546406472,
1205
+ "eval_loss": 0.45375847816467285,
1206
+ "eval_runtime": 162.5495,
1207
+ "eval_samples_per_second": 7.536,
1208
+ "eval_steps_per_second": 0.947,
1209
+ "eval_wer": 0.5666596015260704,
1210
+ "step": 4000
1211
+ },
1212
+ {
1213
+ "epoch": 1.5853850699231828,
1214
+ "grad_norm": 0.43671900033950806,
1215
+ "learning_rate": 0.00029400515600211527,
1216
+ "loss": 0.1934,
1217
+ "step": 4025
1218
+ },
1219
+ {
1220
+ "epoch": 1.5952334055544612,
1221
+ "grad_norm": 0.39044424891471863,
1222
+ "learning_rate": 0.0002939555790586991,
1223
+ "loss": 0.2838,
1224
+ "step": 4050
1225
+ },
1226
+ {
1227
+ "epoch": 1.6050817411857397,
1228
+ "grad_norm": 0.5004962086677551,
1229
+ "learning_rate": 0.0002939060021152829,
1230
+ "loss": 0.1721,
1231
+ "step": 4075
1232
+ },
1233
+ {
1234
+ "epoch": 1.6149300768170178,
1235
+ "grad_norm": 0.3070147931575775,
1236
+ "learning_rate": 0.0002938564251718667,
1237
+ "loss": 0.2792,
1238
+ "step": 4100
1239
+ },
1240
+ {
1241
+ "epoch": 1.6247784124482962,
1242
+ "grad_norm": 0.3623579740524292,
1243
+ "learning_rate": 0.00029380684822845056,
1244
+ "loss": 0.1816,
1245
+ "step": 4125
1246
+ },
1247
+ {
1248
+ "epoch": 1.6346267480795746,
1249
+ "grad_norm": 0.32997018098831177,
1250
+ "learning_rate": 0.0002937572712850343,
1251
+ "loss": 0.2707,
1252
+ "step": 4150
1253
+ },
1254
+ {
1255
+ "epoch": 1.6444750837108528,
1256
+ "grad_norm": 0.3477202355861664,
1257
+ "learning_rate": 0.00029370769434161815,
1258
+ "loss": 0.2166,
1259
+ "step": 4175
1260
+ },
1261
+ {
1262
+ "epoch": 1.6543234193421312,
1263
+ "grad_norm": 0.3085598647594452,
1264
+ "learning_rate": 0.00029365811739820197,
1265
+ "loss": 0.2746,
1266
+ "step": 4200
1267
+ },
1268
+ {
1269
+ "epoch": 1.6641717549734096,
1270
+ "grad_norm": 0.6120396852493286,
1271
+ "learning_rate": 0.0002936085404547858,
1272
+ "loss": 0.1782,
1273
+ "step": 4225
1274
+ },
1275
+ {
1276
+ "epoch": 1.6740200906046878,
1277
+ "grad_norm": 0.4212220013141632,
1278
+ "learning_rate": 0.0002935589635113696,
1279
+ "loss": 0.2373,
1280
+ "step": 4250
1281
+ },
1282
+ {
1283
+ "epoch": 1.683868426235966,
1284
+ "grad_norm": 0.5091245174407959,
1285
+ "learning_rate": 0.00029350938656795344,
1286
+ "loss": 0.1648,
1287
+ "step": 4275
1288
+ },
1289
+ {
1290
+ "epoch": 1.6937167618672444,
1291
+ "grad_norm": 0.3296779692173004,
1292
+ "learning_rate": 0.00029345980962453726,
1293
+ "loss": 0.2734,
1294
+ "step": 4300
1295
+ },
1296
+ {
1297
+ "epoch": 1.7035650974985228,
1298
+ "grad_norm": 0.2967052161693573,
1299
+ "learning_rate": 0.0002934102326811211,
1300
+ "loss": 0.1638,
1301
+ "step": 4325
1302
+ },
1303
+ {
1304
+ "epoch": 1.713413433129801,
1305
+ "grad_norm": 0.34322819113731384,
1306
+ "learning_rate": 0.0002933606557377049,
1307
+ "loss": 0.222,
1308
+ "step": 4350
1309
+ },
1310
+ {
1311
+ "epoch": 1.7232617687610794,
1312
+ "grad_norm": 0.2758971154689789,
1313
+ "learning_rate": 0.00029331107879428873,
1314
+ "loss": 0.1613,
1315
+ "step": 4375
1316
+ },
1317
+ {
1318
+ "epoch": 1.7331101043923578,
1319
+ "grad_norm": 0.3527407944202423,
1320
+ "learning_rate": 0.0002932615018508725,
1321
+ "loss": 0.2606,
1322
+ "step": 4400
1323
+ },
1324
+ {
1325
+ "epoch": 1.742958440023636,
1326
+ "grad_norm": 0.3466641902923584,
1327
+ "learning_rate": 0.0002932119249074564,
1328
+ "loss": 0.1706,
1329
+ "step": 4425
1330
+ },
1331
+ {
1332
+ "epoch": 1.7528067756549142,
1333
+ "grad_norm": 0.34825262427330017,
1334
+ "learning_rate": 0.00029316234796404015,
1335
+ "loss": 0.2187,
1336
+ "step": 4450
1337
+ },
1338
+ {
1339
+ "epoch": 1.7626551112861928,
1340
+ "grad_norm": 0.46970999240875244,
1341
+ "learning_rate": 0.00029311277102062397,
1342
+ "loss": 0.1874,
1343
+ "step": 4475
1344
+ },
1345
+ {
1346
+ "epoch": 1.772503446917471,
1347
+ "grad_norm": 0.8190127015113831,
1348
+ "learning_rate": 0.0002930631940772078,
1349
+ "loss": 0.2215,
1350
+ "step": 4500
1351
+ },
1352
+ {
1353
+ "epoch": 1.772503446917471,
1354
+ "eval_cer": 0.15814374107567825,
1355
+ "eval_loss": 0.4648754298686981,
1356
+ "eval_runtime": 160.5904,
1357
+ "eval_samples_per_second": 7.628,
1358
+ "eval_steps_per_second": 0.959,
1359
+ "eval_wer": 0.5615197117422637,
1360
+ "step": 4500
1361
+ },
1362
+ {
1363
+ "epoch": 1.7823517825487492,
1364
+ "grad_norm": 0.651522159576416,
1365
+ "learning_rate": 0.0002930136171337916,
1366
+ "loss": 0.1959,
1367
+ "step": 4525
1368
+ },
1369
+ {
1370
+ "epoch": 1.7922001181800276,
1371
+ "grad_norm": 0.29321911931037903,
1372
+ "learning_rate": 0.00029296404019037544,
1373
+ "loss": 0.2361,
1374
+ "step": 4550
1375
+ },
1376
+ {
1377
+ "epoch": 1.802048453811306,
1378
+ "grad_norm": 0.5241197943687439,
1379
+ "learning_rate": 0.00029291446324695926,
1380
+ "loss": 0.2164,
1381
+ "step": 4575
1382
+ },
1383
+ {
1384
+ "epoch": 1.8118967894425841,
1385
+ "grad_norm": 0.39373457431793213,
1386
+ "learning_rate": 0.0002928648863035431,
1387
+ "loss": 0.2354,
1388
+ "step": 4600
1389
+ },
1390
+ {
1391
+ "epoch": 1.8217451250738625,
1392
+ "grad_norm": 0.4190231263637543,
1393
+ "learning_rate": 0.0002928153093601269,
1394
+ "loss": 0.1639,
1395
+ "step": 4625
1396
+ },
1397
+ {
1398
+ "epoch": 1.831593460705141,
1399
+ "grad_norm": 0.29849475622177124,
1400
+ "learning_rate": 0.00029276573241671073,
1401
+ "loss": 0.2495,
1402
+ "step": 4650
1403
+ },
1404
+ {
1405
+ "epoch": 1.8414417963364191,
1406
+ "grad_norm": 0.4116981625556946,
1407
+ "learning_rate": 0.0002927161554732945,
1408
+ "loss": 0.1705,
1409
+ "step": 4675
1410
+ },
1411
+ {
1412
+ "epoch": 1.8512901319676973,
1413
+ "grad_norm": 0.2837681472301483,
1414
+ "learning_rate": 0.0002926665785298784,
1415
+ "loss": 0.2358,
1416
+ "step": 4700
1417
+ },
1418
+ {
1419
+ "epoch": 1.8611384675989757,
1420
+ "grad_norm": 0.41158556938171387,
1421
+ "learning_rate": 0.00029261700158646214,
1422
+ "loss": 0.1573,
1423
+ "step": 4725
1424
+ },
1425
+ {
1426
+ "epoch": 1.8709868032302541,
1427
+ "grad_norm": 0.2807323932647705,
1428
+ "learning_rate": 0.00029256742464304597,
1429
+ "loss": 0.2292,
1430
+ "step": 4750
1431
+ },
1432
+ {
1433
+ "epoch": 1.8808351388615323,
1434
+ "grad_norm": 0.4338144361972809,
1435
+ "learning_rate": 0.0002925178476996298,
1436
+ "loss": 0.2213,
1437
+ "step": 4775
1438
+ },
1439
+ {
1440
+ "epoch": 1.8906834744928107,
1441
+ "grad_norm": 0.27579835057258606,
1442
+ "learning_rate": 0.0002924682707562136,
1443
+ "loss": 0.2297,
1444
+ "step": 4800
1445
+ },
1446
+ {
1447
+ "epoch": 1.9005318101240891,
1448
+ "grad_norm": 0.3741152286529541,
1449
+ "learning_rate": 0.00029241869381279743,
1450
+ "loss": 0.1735,
1451
+ "step": 4825
1452
+ },
1453
+ {
1454
+ "epoch": 1.9103801457553673,
1455
+ "grad_norm": 0.2773807942867279,
1456
+ "learning_rate": 0.00029236911686938126,
1457
+ "loss": 0.2162,
1458
+ "step": 4850
1459
+ },
1460
+ {
1461
+ "epoch": 1.9202284813866457,
1462
+ "grad_norm": 0.32655900716781616,
1463
+ "learning_rate": 0.0002923195399259651,
1464
+ "loss": 0.1632,
1465
+ "step": 4875
1466
+ },
1467
+ {
1468
+ "epoch": 1.930076817017924,
1469
+ "grad_norm": 0.5068430304527283,
1470
+ "learning_rate": 0.0002922699629825489,
1471
+ "loss": 0.2551,
1472
+ "step": 4900
1473
+ },
1474
+ {
1475
+ "epoch": 1.9399251526492023,
1476
+ "grad_norm": 0.39267122745513916,
1477
+ "learning_rate": 0.00029222038603913267,
1478
+ "loss": 0.194,
1479
+ "step": 4925
1480
+ },
1481
+ {
1482
+ "epoch": 1.9497734882804805,
1483
+ "grad_norm": 0.37297454476356506,
1484
+ "learning_rate": 0.00029217080909571655,
1485
+ "loss": 0.2512,
1486
+ "step": 4950
1487
+ },
1488
+ {
1489
+ "epoch": 1.9596218239117589,
1490
+ "grad_norm": 0.33435386419296265,
1491
+ "learning_rate": 0.0002921212321523003,
1492
+ "loss": 0.1674,
1493
+ "step": 4975
1494
+ },
1495
+ {
1496
+ "epoch": 1.9694701595430373,
1497
+ "grad_norm": 0.45720335841178894,
1498
+ "learning_rate": 0.0002920716552088842,
1499
+ "loss": 0.2329,
1500
+ "step": 5000
1501
+ },
1502
+ {
1503
+ "epoch": 1.9694701595430373,
1504
+ "eval_cer": 0.15485007139457402,
1505
+ "eval_loss": 0.4407041072845459,
1506
+ "eval_runtime": 161.0078,
1507
+ "eval_samples_per_second": 7.608,
1508
+ "eval_steps_per_second": 0.956,
1509
+ "eval_wer": 0.5582874099194574,
1510
+ "step": 5000
1511
+ },
1512
+ {
1513
+ "epoch": 1.9793184951743155,
1514
+ "grad_norm": 0.509185791015625,
1515
+ "learning_rate": 0.00029202207826546796,
1516
+ "loss": 0.1547,
1517
+ "step": 5025
1518
+ },
1519
+ {
1520
+ "epoch": 1.9891668308055939,
1521
+ "grad_norm": 0.7026469707489014,
1522
+ "learning_rate": 0.0002919725013220518,
1523
+ "loss": 0.2667,
1524
+ "step": 5050
1525
+ },
1526
+ {
1527
+ "epoch": 1.9990151664368723,
1528
+ "grad_norm": 0.48996204137802124,
1529
+ "learning_rate": 0.0002919229243786356,
1530
+ "loss": 0.186,
1531
+ "step": 5075
1532
+ },
1533
+ {
1534
+ "epoch": 2.008666535355525,
1535
+ "grad_norm": 0.29709795117378235,
1536
+ "learning_rate": 0.00029187334743521943,
1537
+ "loss": 0.2121,
1538
+ "step": 5100
1539
+ },
1540
+ {
1541
+ "epoch": 2.0185148709868033,
1542
+ "grad_norm": 0.6418112516403198,
1543
+ "learning_rate": 0.00029182377049180325,
1544
+ "loss": 0.1564,
1545
+ "step": 5125
1546
+ },
1547
+ {
1548
+ "epoch": 2.0283632066180814,
1549
+ "grad_norm": 0.3827853500843048,
1550
+ "learning_rate": 0.0002917741935483871,
1551
+ "loss": 0.187,
1552
+ "step": 5150
1553
+ },
1554
+ {
1555
+ "epoch": 2.03821154224936,
1556
+ "grad_norm": 0.3637414574623108,
1557
+ "learning_rate": 0.0002917246166049709,
1558
+ "loss": 0.1498,
1559
+ "step": 5175
1560
+ },
1561
+ {
1562
+ "epoch": 2.0480598778806383,
1563
+ "grad_norm": 0.3048696219921112,
1564
+ "learning_rate": 0.0002916750396615547,
1565
+ "loss": 0.1954,
1566
+ "step": 5200
1567
+ },
1568
+ {
1569
+ "epoch": 2.0579082135119164,
1570
+ "grad_norm": 0.4234159290790558,
1571
+ "learning_rate": 0.00029162546271813855,
1572
+ "loss": 0.1739,
1573
+ "step": 5225
1574
+ },
1575
+ {
1576
+ "epoch": 2.0677565491431946,
1577
+ "grad_norm": 0.6576627492904663,
1578
+ "learning_rate": 0.0002915758857747223,
1579
+ "loss": 0.2164,
1580
+ "step": 5250
1581
+ },
1582
+ {
1583
+ "epoch": 2.0776048847744732,
1584
+ "grad_norm": 0.5567516088485718,
1585
+ "learning_rate": 0.0002915263088313062,
1586
+ "loss": 0.1604,
1587
+ "step": 5275
1588
+ },
1589
+ {
1590
+ "epoch": 2.0874532204057514,
1591
+ "grad_norm": 0.3496594727039337,
1592
+ "learning_rate": 0.00029147673188788996,
1593
+ "loss": 0.2653,
1594
+ "step": 5300
1595
+ },
1596
+ {
1597
+ "epoch": 2.0973015560370296,
1598
+ "grad_norm": 0.544669508934021,
1599
+ "learning_rate": 0.0002914271549444738,
1600
+ "loss": 0.1378,
1601
+ "step": 5325
1602
+ },
1603
+ {
1604
+ "epoch": 2.1071498916683082,
1605
+ "grad_norm": 0.39314302802085876,
1606
+ "learning_rate": 0.0002913775780010576,
1607
+ "loss": 0.2019,
1608
+ "step": 5350
1609
+ },
1610
+ {
1611
+ "epoch": 2.1169982272995864,
1612
+ "grad_norm": 0.4864466190338135,
1613
+ "learning_rate": 0.00029132800105764143,
1614
+ "loss": 0.1509,
1615
+ "step": 5375
1616
+ },
1617
+ {
1618
+ "epoch": 2.1268465629308646,
1619
+ "grad_norm": 0.3684788644313812,
1620
+ "learning_rate": 0.00029127842411422525,
1621
+ "loss": 0.2032,
1622
+ "step": 5400
1623
+ },
1624
+ {
1625
+ "epoch": 2.1366948985621432,
1626
+ "grad_norm": 0.503184974193573,
1627
+ "learning_rate": 0.0002912288471708091,
1628
+ "loss": 0.164,
1629
+ "step": 5425
1630
+ },
1631
+ {
1632
+ "epoch": 2.1465432341934214,
1633
+ "grad_norm": 0.28915172815322876,
1634
+ "learning_rate": 0.0002911792702273929,
1635
+ "loss": 0.3365,
1636
+ "step": 5450
1637
+ },
1638
+ {
1639
+ "epoch": 2.1563915698246996,
1640
+ "grad_norm": 0.449964314699173,
1641
+ "learning_rate": 0.0002911296932839767,
1642
+ "loss": 0.1741,
1643
+ "step": 5475
1644
+ },
1645
+ {
1646
+ "epoch": 2.1662399054559778,
1647
+ "grad_norm": 0.30920708179473877,
1648
+ "learning_rate": 0.0002910801163405605,
1649
+ "loss": 0.2111,
1650
+ "step": 5500
1651
+ },
1652
+ {
1653
+ "epoch": 2.1662399054559778,
1654
+ "eval_cer": 0.15415516420752023,
1655
+ "eval_loss": 0.4676578938961029,
1656
+ "eval_runtime": 161.7616,
1657
+ "eval_samples_per_second": 7.573,
1658
+ "eval_steps_per_second": 0.952,
1659
+ "eval_wer": 0.5528825773632895,
1660
+ "step": 5500
1661
+ },
1662
+ {
1663
+ "epoch": 2.1760882410872564,
1664
+ "grad_norm": 0.4080190062522888,
1665
+ "learning_rate": 0.00029103053939714437,
1666
+ "loss": 0.1527,
1667
+ "step": 5525
1668
+ },
1669
+ {
1670
+ "epoch": 2.1859365767185346,
1671
+ "grad_norm": 0.2396317571401596,
1672
+ "learning_rate": 0.00029098096245372813,
1673
+ "loss": 0.1957,
1674
+ "step": 5550
1675
+ },
1676
+ {
1677
+ "epoch": 2.1957849123498128,
1678
+ "grad_norm": 0.5699915885925293,
1679
+ "learning_rate": 0.000290931385510312,
1680
+ "loss": 0.1405,
1681
+ "step": 5575
1682
+ },
1683
+ {
1684
+ "epoch": 2.2056332479810914,
1685
+ "grad_norm": 0.20270849764347076,
1686
+ "learning_rate": 0.0002908818085668958,
1687
+ "loss": 0.2075,
1688
+ "step": 5600
1689
+ },
1690
+ {
1691
+ "epoch": 2.2154815836123696,
1692
+ "grad_norm": 0.4552954435348511,
1693
+ "learning_rate": 0.0002908322316234796,
1694
+ "loss": 0.1705,
1695
+ "step": 5625
1696
+ },
1697
+ {
1698
+ "epoch": 2.2253299192436478,
1699
+ "grad_norm": 0.23801960051059723,
1700
+ "learning_rate": 0.0002907826546800634,
1701
+ "loss": 0.1836,
1702
+ "step": 5650
1703
+ },
1704
+ {
1705
+ "epoch": 2.235178254874926,
1706
+ "grad_norm": 0.349804550409317,
1707
+ "learning_rate": 0.00029073307773664725,
1708
+ "loss": 0.1499,
1709
+ "step": 5675
1710
+ },
1711
+ {
1712
+ "epoch": 2.2450265905062046,
1713
+ "grad_norm": 0.24956457316875458,
1714
+ "learning_rate": 0.00029068350079323107,
1715
+ "loss": 0.2026,
1716
+ "step": 5700
1717
+ },
1718
+ {
1719
+ "epoch": 2.2548749261374827,
1720
+ "grad_norm": 0.4090624749660492,
1721
+ "learning_rate": 0.0002906339238498149,
1722
+ "loss": 0.1576,
1723
+ "step": 5725
1724
+ },
1725
+ {
1726
+ "epoch": 2.264723261768761,
1727
+ "grad_norm": 0.2871131896972656,
1728
+ "learning_rate": 0.0002905843469063987,
1729
+ "loss": 0.2075,
1730
+ "step": 5750
1731
+ },
1732
+ {
1733
+ "epoch": 2.2745715974000396,
1734
+ "grad_norm": 0.4429128170013428,
1735
+ "learning_rate": 0.00029053476996298254,
1736
+ "loss": 0.1918,
1737
+ "step": 5775
1738
+ },
1739
+ {
1740
+ "epoch": 2.2844199330313177,
1741
+ "grad_norm": 0.515388548374176,
1742
+ "learning_rate": 0.00029048519301956636,
1743
+ "loss": 0.2296,
1744
+ "step": 5800
1745
+ },
1746
+ {
1747
+ "epoch": 2.294268268662596,
1748
+ "grad_norm": 0.3795805275440216,
1749
+ "learning_rate": 0.00029043561607615013,
1750
+ "loss": 0.1521,
1751
+ "step": 5825
1752
+ },
1753
+ {
1754
+ "epoch": 2.304116604293874,
1755
+ "grad_norm": 0.2490343451499939,
1756
+ "learning_rate": 0.000290386039132734,
1757
+ "loss": 0.1812,
1758
+ "step": 5850
1759
+ },
1760
+ {
1761
+ "epoch": 2.3139649399251527,
1762
+ "grad_norm": 0.4595893621444702,
1763
+ "learning_rate": 0.0002903364621893178,
1764
+ "loss": 0.1662,
1765
+ "step": 5875
1766
+ },
1767
+ {
1768
+ "epoch": 2.323813275556431,
1769
+ "grad_norm": 0.4148694574832916,
1770
+ "learning_rate": 0.0002902868852459016,
1771
+ "loss": 0.207,
1772
+ "step": 5900
1773
+ },
1774
+ {
1775
+ "epoch": 2.333661611187709,
1776
+ "grad_norm": 0.5799115300178528,
1777
+ "learning_rate": 0.0002902373083024854,
1778
+ "loss": 0.1774,
1779
+ "step": 5925
1780
+ },
1781
+ {
1782
+ "epoch": 2.3435099468189877,
1783
+ "grad_norm": 0.2783784568309784,
1784
+ "learning_rate": 0.00029018773135906924,
1785
+ "loss": 0.1981,
1786
+ "step": 5950
1787
+ },
1788
+ {
1789
+ "epoch": 2.353358282450266,
1790
+ "grad_norm": 0.5307630300521851,
1791
+ "learning_rate": 0.00029013815441565307,
1792
+ "loss": 0.165,
1793
+ "step": 5975
1794
+ },
1795
+ {
1796
+ "epoch": 2.363206618081544,
1797
+ "grad_norm": 0.29262271523475647,
1798
+ "learning_rate": 0.0002900885774722369,
1799
+ "loss": 0.2018,
1800
+ "step": 6000
1801
+ },
1802
+ {
1803
+ "epoch": 2.363206618081544,
1804
+ "eval_cer": 0.15306044740599714,
1805
+ "eval_loss": 0.4573569595813751,
1806
+ "eval_runtime": 161.9027,
1807
+ "eval_samples_per_second": 7.566,
1808
+ "eval_steps_per_second": 0.951,
1809
+ "eval_wer": 0.550710046629928,
1810
+ "step": 6000
1811
+ },
1812
+ {
1813
+ "epoch": 2.3730549537128227,
1814
+ "grad_norm": 0.6890036463737488,
1815
+ "learning_rate": 0.0002900390005288207,
1816
+ "loss": 0.1505,
1817
+ "step": 6025
1818
+ },
1819
+ {
1820
+ "epoch": 2.382903289344101,
1821
+ "grad_norm": 0.25754716992378235,
1822
+ "learning_rate": 0.00028998942358540454,
1823
+ "loss": 0.2199,
1824
+ "step": 6050
1825
+ },
1826
+ {
1827
+ "epoch": 2.392751624975379,
1828
+ "grad_norm": 0.40421202778816223,
1829
+ "learning_rate": 0.0002899398466419883,
1830
+ "loss": 0.1581,
1831
+ "step": 6075
1832
+ },
1833
+ {
1834
+ "epoch": 2.4025999606066577,
1835
+ "grad_norm": 0.3112453520298004,
1836
+ "learning_rate": 0.0002898902696985722,
1837
+ "loss": 0.2001,
1838
+ "step": 6100
1839
+ },
1840
+ {
1841
+ "epoch": 2.412448296237936,
1842
+ "grad_norm": 0.4719525873661041,
1843
+ "learning_rate": 0.00028984069275515595,
1844
+ "loss": 0.1381,
1845
+ "step": 6125
1846
+ },
1847
+ {
1848
+ "epoch": 2.422296631869214,
1849
+ "grad_norm": 0.25783413648605347,
1850
+ "learning_rate": 0.00028979111581173983,
1851
+ "loss": 0.2042,
1852
+ "step": 6150
1853
+ },
1854
+ {
1855
+ "epoch": 2.4321449675004922,
1856
+ "grad_norm": 0.46275967359542847,
1857
+ "learning_rate": 0.0002897415388683236,
1858
+ "loss": 0.1668,
1859
+ "step": 6175
1860
+ },
1861
+ {
1862
+ "epoch": 2.441993303131771,
1863
+ "grad_norm": 0.41631945967674255,
1864
+ "learning_rate": 0.0002896919619249074,
1865
+ "loss": 0.2147,
1866
+ "step": 6200
1867
+ },
1868
+ {
1869
+ "epoch": 2.451841638763049,
1870
+ "grad_norm": 0.44267284870147705,
1871
+ "learning_rate": 0.00028964238498149124,
1872
+ "loss": 0.1643,
1873
+ "step": 6225
1874
+ },
1875
+ {
1876
+ "epoch": 2.4616899743943272,
1877
+ "grad_norm": 0.29726967215538025,
1878
+ "learning_rate": 0.00028959280803807506,
1879
+ "loss": 0.1831,
1880
+ "step": 6250
1881
+ },
1882
+ {
1883
+ "epoch": 2.471538310025606,
1884
+ "grad_norm": 0.597053050994873,
1885
+ "learning_rate": 0.0002895432310946589,
1886
+ "loss": 0.1464,
1887
+ "step": 6275
1888
+ },
1889
+ {
1890
+ "epoch": 2.481386645656884,
1891
+ "grad_norm": 0.21625810861587524,
1892
+ "learning_rate": 0.0002894936541512427,
1893
+ "loss": 0.2042,
1894
+ "step": 6300
1895
+ },
1896
+ {
1897
+ "epoch": 2.4912349812881622,
1898
+ "grad_norm": 0.7981178164482117,
1899
+ "learning_rate": 0.00028944407720782653,
1900
+ "loss": 0.1417,
1901
+ "step": 6325
1902
+ },
1903
+ {
1904
+ "epoch": 2.5010833169194404,
1905
+ "grad_norm": 0.26910632848739624,
1906
+ "learning_rate": 0.00028939450026441036,
1907
+ "loss": 0.223,
1908
+ "step": 6350
1909
+ },
1910
+ {
1911
+ "epoch": 2.510931652550719,
1912
+ "grad_norm": 0.6753020882606506,
1913
+ "learning_rate": 0.0002893449233209942,
1914
+ "loss": 0.1597,
1915
+ "step": 6375
1916
+ },
1917
+ {
1918
+ "epoch": 2.5207799881819972,
1919
+ "grad_norm": 0.2274799793958664,
1920
+ "learning_rate": 0.000289295346377578,
1921
+ "loss": 0.2102,
1922
+ "step": 6400
1923
+ },
1924
+ {
1925
+ "epoch": 2.5306283238132754,
1926
+ "grad_norm": 0.2969699501991272,
1927
+ "learning_rate": 0.00028924576943416177,
1928
+ "loss": 0.17,
1929
+ "step": 6425
1930
+ },
1931
+ {
1932
+ "epoch": 2.540476659444554,
1933
+ "grad_norm": 0.48988422751426697,
1934
+ "learning_rate": 0.0002891961924907456,
1935
+ "loss": 0.1838,
1936
+ "step": 6450
1937
+ },
1938
+ {
1939
+ "epoch": 2.550324995075832,
1940
+ "grad_norm": 0.568366527557373,
1941
+ "learning_rate": 0.0002891466155473294,
1942
+ "loss": 0.1455,
1943
+ "step": 6475
1944
+ },
1945
+ {
1946
+ "epoch": 2.5601733307071104,
1947
+ "grad_norm": 0.35780784487724304,
1948
+ "learning_rate": 0.00028909703860391324,
1949
+ "loss": 0.2421,
1950
+ "step": 6500
1951
+ },
1952
+ {
1953
+ "epoch": 2.5601733307071104,
1954
+ "eval_cer": 0.15275583055687766,
1955
+ "eval_loss": 0.4416634440422058,
1956
+ "eval_runtime": 161.0854,
1957
+ "eval_samples_per_second": 7.605,
1958
+ "eval_steps_per_second": 0.956,
1959
+ "eval_wer": 0.5499682068673166,
1960
+ "step": 6500
1961
+ },
1962
+ {
1963
+ "epoch": 2.5601733307071104,
1964
+ "step": 6500,
1965
+ "total_flos": 2.4200639627895153e+19,
1966
+ "train_loss": 0.5404087718450106,
1967
+ "train_runtime": 33172.3648,
1968
+ "train_samples_per_second": 73.451,
1969
+ "train_steps_per_second": 4.591
1970
+ }
1971
+ ],
1972
+ "logging_steps": 25,
1973
+ "max_steps": 152280,
1974
+ "num_input_tokens_seen": 0,
1975
+ "num_train_epochs": 60,
1976
+ "save_steps": 500,
1977
+ "stateful_callbacks": {
1978
+ "EarlyStoppingCallback": {
1979
+ "args": {
1980
+ "early_stopping_patience": 3,
1981
+ "early_stopping_threshold": 0.0
1982
+ },
1983
+ "attributes": {
1984
+ "early_stopping_patience_counter": 3
1985
+ }
1986
+ },
1987
+ "TrainerControl": {
1988
+ "args": {
1989
+ "should_epoch_stop": false,
1990
+ "should_evaluate": false,
1991
+ "should_log": false,
1992
+ "should_save": true,
1993
+ "should_training_stop": true
1994
+ },
1995
+ "attributes": {}
1996
+ }
1997
+ },
1998
+ "total_flos": 2.4200639627895153e+19,
1999
+ "train_batch_size": 8,
2000
+ "trial_name": null,
2001
+ "trial_params": null
2002
+ }