c14kevincardenas commited on
Commit
0656fcb
·
verified ·
1 Parent(s): 47de05b

End of training

Browse files
README.md CHANGED
@@ -3,6 +3,8 @@ library_name: transformers
3
  license: apache-2.0
4
  base_model: c14kevincardenas/beit-large-patch16-384-limb
5
  tags:
 
 
6
  - generated_from_trainer
7
  model-index:
8
  - name: limbxy_seq_t2_heads2_layers1
@@ -14,10 +16,10 @@ should probably proofread and complete it, then remove this comment. -->
14
 
15
  # limbxy_seq_t2_heads2_layers1
16
 
17
- This model is a fine-tuned version of [c14kevincardenas/beit-large-patch16-384-limb](https://huggingface.co/c14kevincardenas/beit-large-patch16-384-limb) on an unknown dataset.
18
  It achieves the following results on the evaluation set:
19
  - Loss: 0.0048
20
- - Rmse: 0.0693
21
 
22
  ## Model description
23
 
 
3
  license: apache-2.0
4
  base_model: c14kevincardenas/beit-large-patch16-384-limb
5
  tags:
6
+ - image-sequence-classification
7
+ - vision
8
  - generated_from_trainer
9
  model-index:
10
  - name: limbxy_seq_t2_heads2_layers1
 
16
 
17
  # limbxy_seq_t2_heads2_layers1
18
 
19
+ This model is a fine-tuned version of [c14kevincardenas/beit-large-patch16-384-limb](https://huggingface.co/c14kevincardenas/beit-large-patch16-384-limb) on the c14kevincardenas/beta_caller_284_limbxy_seq_2 dataset.
20
  It achieves the following results on the evaluation set:
21
  - Loss: 0.0048
22
+ - Rmse: 0.0692
23
 
24
  ## Model description
25
 
all_results.json CHANGED
@@ -1,13 +1,13 @@
1
  {
2
- "epoch": 20.0,
3
- "eval_loss": 0.005479985848069191,
4
- "eval_rmse": 0.0740269273519516,
5
- "eval_runtime": 24.539,
6
- "eval_samples_per_second": 34.476,
7
- "eval_steps_per_second": 1.1,
8
  "total_flos": 0.0,
9
- "train_loss": 0.00369019165293624,
10
- "train_runtime": 6610.8402,
11
- "train_samples_per_second": 14.485,
12
- "train_steps_per_second": 0.454
13
  }
 
1
  {
2
+ "epoch": 50.0,
3
+ "eval_loss": 0.0047905659303069115,
4
+ "eval_rmse": 0.06921391934156418,
5
+ "eval_runtime": 24.4368,
6
+ "eval_samples_per_second": 34.62,
7
+ "eval_steps_per_second": 1.105,
8
  "total_flos": 0.0,
9
+ "train_loss": 0.0016370025988823424,
10
+ "train_runtime": 16468.788,
11
+ "train_samples_per_second": 14.537,
12
+ "train_steps_per_second": 0.455
13
  }
eval_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 20.0,
3
- "eval_loss": 0.005479985848069191,
4
- "eval_rmse": 0.0740269273519516,
5
- "eval_runtime": 24.539,
6
- "eval_samples_per_second": 34.476,
7
- "eval_steps_per_second": 1.1
8
  }
 
1
  {
2
+ "epoch": 50.0,
3
+ "eval_loss": 0.0047905659303069115,
4
+ "eval_rmse": 0.06921391934156418,
5
+ "eval_runtime": 24.4368,
6
+ "eval_samples_per_second": 34.62,
7
+ "eval_steps_per_second": 1.105
8
  }
runs/Feb19_23-43-10_galactica.ad.cirange.net/events.out.tfevents.1740025323.galactica.ad.cirange.net.3091725.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:75bb6f70943325c7711165d1031b4dcad4dde761cce0f635712314fb1f4c17db
3
+ size 407
train_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 20.0,
3
  "total_flos": 0.0,
4
- "train_loss": 0.00369019165293624,
5
- "train_runtime": 6610.8402,
6
- "train_samples_per_second": 14.485,
7
- "train_steps_per_second": 0.454
8
  }
 
1
  {
2
+ "epoch": 50.0,
3
  "total_flos": 0.0,
4
+ "train_loss": 0.0016370025988823424,
5
+ "train_runtime": 16468.788,
6
+ "train_samples_per_second": 14.537,
7
+ "train_steps_per_second": 0.455
8
  }
trainer_state.json CHANGED
@@ -1,1047 +1,2577 @@
1
  {
2
- "best_metric": 0.005479985848069191,
3
- "best_model_checkpoint": "limbxy_seq_t2/checkpoint-2550",
4
- "epoch": 20.0,
5
  "eval_steps": 500,
6
- "global_step": 3000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.16666666666666666,
13
- "grad_norm": 22046.798828125,
14
  "learning_rate": 5e-06,
15
- "loss": 0.0357,
16
  "step": 25
17
  },
18
  {
19
  "epoch": 0.3333333333333333,
20
- "grad_norm": 42614.5546875,
21
  "learning_rate": 1e-05,
22
- "loss": 0.0278,
23
  "step": 50
24
  },
25
  {
26
  "epoch": 0.5,
27
- "grad_norm": 17162.4296875,
28
  "learning_rate": 1.5e-05,
29
- "loss": 0.0243,
30
  "step": 75
31
  },
32
  {
33
  "epoch": 0.6666666666666666,
34
- "grad_norm": 81025.53125,
35
  "learning_rate": 2e-05,
36
- "loss": 0.0188,
37
  "step": 100
38
  },
39
  {
40
  "epoch": 0.8333333333333334,
41
- "grad_norm": 52040.0,
42
  "learning_rate": 2.5e-05,
43
- "loss": 0.0201,
44
  "step": 125
45
  },
46
  {
47
  "epoch": 1.0,
48
- "grad_norm": 16304.97265625,
49
  "learning_rate": 3e-05,
50
- "loss": 0.0137,
51
  "step": 150
52
  },
53
  {
54
  "epoch": 1.0,
55
- "eval_loss": 0.011878792196512222,
56
- "eval_rmse": 0.10898987948894501,
57
- "eval_runtime": 23.3047,
58
- "eval_samples_per_second": 36.302,
59
- "eval_steps_per_second": 1.159,
60
  "step": 150
61
  },
62
  {
63
  "epoch": 1.1666666666666667,
64
- "grad_norm": 11179.8837890625,
65
  "learning_rate": 3.5e-05,
66
- "loss": 0.0143,
67
  "step": 175
68
  },
69
  {
70
  "epoch": 1.3333333333333333,
71
- "grad_norm": 40079.0546875,
72
  "learning_rate": 4e-05,
73
- "loss": 0.0188,
74
  "step": 200
75
  },
76
  {
77
  "epoch": 1.5,
78
- "grad_norm": 22735.115234375,
79
  "learning_rate": 4.5e-05,
80
- "loss": 0.012,
81
  "step": 225
82
  },
83
  {
84
  "epoch": 1.6666666666666665,
85
- "grad_norm": 54281.23046875,
86
  "learning_rate": 5e-05,
87
- "loss": 0.0117,
88
  "step": 250
89
  },
90
  {
91
  "epoch": 1.8333333333333335,
92
- "grad_norm": 51424.09375,
93
- "learning_rate": 4.9545454545454553e-05,
94
- "loss": 0.0104,
95
  "step": 275
96
  },
97
  {
98
  "epoch": 2.0,
99
- "grad_norm": 99929.515625,
100
- "learning_rate": 4.909090909090909e-05,
101
- "loss": 0.0112,
102
  "step": 300
103
  },
104
  {
105
  "epoch": 2.0,
106
- "eval_loss": 0.011832492426037788,
107
- "eval_rmse": 0.10877726227045059,
108
- "eval_runtime": 24.0969,
109
- "eval_samples_per_second": 35.108,
110
- "eval_steps_per_second": 1.12,
111
  "step": 300
112
  },
113
  {
114
  "epoch": 2.1666666666666665,
115
- "grad_norm": 41221.3046875,
116
- "learning_rate": 4.863636363636364e-05,
117
- "loss": 0.0093,
118
  "step": 325
119
  },
120
  {
121
  "epoch": 2.3333333333333335,
122
- "grad_norm": 55105.00390625,
123
- "learning_rate": 4.8181818181818186e-05,
124
- "loss": 0.0074,
125
  "step": 350
126
  },
127
  {
128
  "epoch": 2.5,
129
- "grad_norm": 54882.34765625,
130
- "learning_rate": 4.772727272727273e-05,
131
- "loss": 0.0073,
132
  "step": 375
133
  },
134
  {
135
  "epoch": 2.6666666666666665,
136
- "grad_norm": 20329.99609375,
137
- "learning_rate": 4.7272727272727275e-05,
138
- "loss": 0.0079,
139
  "step": 400
140
  },
141
  {
142
  "epoch": 2.8333333333333335,
143
- "grad_norm": 29952.67578125,
144
- "learning_rate": 4.681818181818182e-05,
145
- "loss": 0.0082,
146
  "step": 425
147
  },
148
  {
149
  "epoch": 3.0,
150
- "grad_norm": 36055.50390625,
151
- "learning_rate": 4.636363636363636e-05,
152
- "loss": 0.0074,
153
  "step": 450
154
  },
155
  {
156
  "epoch": 3.0,
157
- "eval_loss": 0.010063888505101204,
158
- "eval_rmse": 0.10031893104314804,
159
- "eval_runtime": 24.7801,
160
- "eval_samples_per_second": 34.14,
161
  "eval_steps_per_second": 1.09,
162
  "step": 450
163
  },
164
  {
165
  "epoch": 3.1666666666666665,
166
- "grad_norm": 8092.63427734375,
167
- "learning_rate": 4.5909090909090914e-05,
168
- "loss": 0.0059,
169
  "step": 475
170
  },
171
  {
172
  "epoch": 3.3333333333333335,
173
- "grad_norm": 39814.0,
174
- "learning_rate": 4.545454545454546e-05,
175
  "loss": 0.0065,
176
  "step": 500
177
  },
178
  {
179
  "epoch": 3.5,
180
- "grad_norm": 7769.53125,
181
- "learning_rate": 4.5e-05,
182
- "loss": 0.0055,
183
  "step": 525
184
  },
185
  {
186
  "epoch": 3.6666666666666665,
187
- "grad_norm": 27703.099609375,
188
- "learning_rate": 4.454545454545455e-05,
189
- "loss": 0.0057,
190
  "step": 550
191
  },
192
  {
193
  "epoch": 3.8333333333333335,
194
- "grad_norm": 20657.283203125,
195
- "learning_rate": 4.409090909090909e-05,
196
- "loss": 0.0072,
197
  "step": 575
198
  },
199
  {
200
  "epoch": 4.0,
201
- "grad_norm": 20261.841796875,
202
- "learning_rate": 4.3636363636363636e-05,
203
- "loss": 0.0064,
204
  "step": 600
205
  },
206
  {
207
  "epoch": 4.0,
208
- "eval_loss": 0.006974302232265472,
209
- "eval_rmse": 0.08351229131221771,
210
- "eval_runtime": 23.547,
211
- "eval_samples_per_second": 35.928,
212
- "eval_steps_per_second": 1.147,
213
  "step": 600
214
  },
215
  {
216
  "epoch": 4.166666666666667,
217
- "grad_norm": 18018.79296875,
218
- "learning_rate": 4.318181818181819e-05,
219
- "loss": 0.004,
220
  "step": 625
221
  },
222
  {
223
  "epoch": 4.333333333333333,
224
- "grad_norm": 11542.9560546875,
225
- "learning_rate": 4.2727272727272724e-05,
226
- "loss": 0.0044,
227
  "step": 650
228
  },
229
  {
230
  "epoch": 4.5,
231
- "grad_norm": 34041.24609375,
232
- "learning_rate": 4.2272727272727275e-05,
233
- "loss": 0.0056,
234
  "step": 675
235
  },
236
  {
237
  "epoch": 4.666666666666667,
238
- "grad_norm": 11050.5517578125,
239
- "learning_rate": 4.181818181818182e-05,
240
- "loss": 0.0046,
241
  "step": 700
242
  },
243
  {
244
  "epoch": 4.833333333333333,
245
- "grad_norm": 13684.1787109375,
246
- "learning_rate": 4.1363636363636364e-05,
247
- "loss": 0.0036,
248
  "step": 725
249
  },
250
  {
251
  "epoch": 5.0,
252
- "grad_norm": 20930.271484375,
253
- "learning_rate": 4.0909090909090915e-05,
254
- "loss": 0.0039,
255
  "step": 750
256
  },
257
  {
258
  "epoch": 5.0,
259
- "eval_loss": 0.006916658021509647,
260
- "eval_rmse": 0.0831664502620697,
261
- "eval_runtime": 23.3555,
262
- "eval_samples_per_second": 36.223,
263
- "eval_steps_per_second": 1.156,
264
  "step": 750
265
  },
266
  {
267
  "epoch": 5.166666666666667,
268
- "grad_norm": 6945.47314453125,
269
- "learning_rate": 4.045454545454546e-05,
270
- "loss": 0.0032,
271
  "step": 775
272
  },
273
  {
274
  "epoch": 5.333333333333333,
275
- "grad_norm": 21823.470703125,
276
- "learning_rate": 4e-05,
277
- "loss": 0.004,
278
  "step": 800
279
  },
280
  {
281
  "epoch": 5.5,
282
- "grad_norm": 6344.1767578125,
283
- "learning_rate": 3.954545454545455e-05,
284
- "loss": 0.0032,
285
  "step": 825
286
  },
287
  {
288
  "epoch": 5.666666666666667,
289
- "grad_norm": 28923.7578125,
290
- "learning_rate": 3.909090909090909e-05,
291
- "loss": 0.0031,
292
  "step": 850
293
  },
294
  {
295
  "epoch": 5.833333333333333,
296
- "grad_norm": 18844.93359375,
297
- "learning_rate": 3.8636363636363636e-05,
298
- "loss": 0.0037,
299
  "step": 875
300
  },
301
  {
302
  "epoch": 6.0,
303
- "grad_norm": 14070.8798828125,
304
- "learning_rate": 3.818181818181819e-05,
305
  "loss": 0.0033,
306
  "step": 900
307
  },
308
  {
309
  "epoch": 6.0,
310
- "eval_loss": 0.007384075783193111,
311
- "eval_rmse": 0.08593064546585083,
312
- "eval_runtime": 24.2639,
313
- "eval_samples_per_second": 34.867,
314
- "eval_steps_per_second": 1.113,
315
  "step": 900
316
  },
317
  {
318
  "epoch": 6.166666666666667,
319
- "grad_norm": 7107.0751953125,
320
- "learning_rate": 3.7727272727272725e-05,
321
- "loss": 0.0025,
322
  "step": 925
323
  },
324
  {
325
  "epoch": 6.333333333333333,
326
- "grad_norm": 26281.095703125,
327
- "learning_rate": 3.7272727272727276e-05,
328
- "loss": 0.0033,
329
  "step": 950
330
  },
331
  {
332
  "epoch": 6.5,
333
- "grad_norm": 6169.37744140625,
334
- "learning_rate": 3.681818181818182e-05,
335
- "loss": 0.0026,
336
  "step": 975
337
  },
338
  {
339
  "epoch": 6.666666666666667,
340
- "grad_norm": 15514.4677734375,
341
- "learning_rate": 3.6363636363636364e-05,
342
  "loss": 0.0027,
343
  "step": 1000
344
  },
345
  {
346
  "epoch": 6.833333333333333,
347
- "grad_norm": 4963.125,
348
- "learning_rate": 3.590909090909091e-05,
349
  "loss": 0.0027,
350
  "step": 1025
351
  },
352
  {
353
  "epoch": 7.0,
354
- "grad_norm": 20854.5859375,
355
- "learning_rate": 3.545454545454546e-05,
356
- "loss": 0.0026,
357
  "step": 1050
358
  },
359
  {
360
  "epoch": 7.0,
361
- "eval_loss": 0.006149372085928917,
362
- "eval_rmse": 0.07841793447732925,
363
- "eval_runtime": 24.4157,
364
- "eval_samples_per_second": 34.65,
365
- "eval_steps_per_second": 1.106,
366
  "step": 1050
367
  },
368
  {
369
  "epoch": 7.166666666666667,
370
- "grad_norm": 9573.7587890625,
371
- "learning_rate": 3.5e-05,
372
- "loss": 0.0027,
373
  "step": 1075
374
  },
375
  {
376
  "epoch": 7.333333333333333,
377
- "grad_norm": 25957.48046875,
378
- "learning_rate": 3.454545454545455e-05,
379
- "loss": 0.0024,
380
  "step": 1100
381
  },
382
  {
383
  "epoch": 7.5,
384
- "grad_norm": 14093.68359375,
385
- "learning_rate": 3.409090909090909e-05,
386
- "loss": 0.0026,
387
  "step": 1125
388
  },
389
  {
390
  "epoch": 7.666666666666667,
391
- "grad_norm": 4025.608642578125,
392
- "learning_rate": 3.3636363636363636e-05,
393
- "loss": 0.002,
394
  "step": 1150
395
  },
396
  {
397
  "epoch": 7.833333333333333,
398
- "grad_norm": 6692.55908203125,
399
- "learning_rate": 3.318181818181819e-05,
400
- "loss": 0.0029,
401
  "step": 1175
402
  },
403
  {
404
  "epoch": 8.0,
405
- "grad_norm": 4868.02978515625,
406
- "learning_rate": 3.272727272727273e-05,
407
- "loss": 0.002,
408
  "step": 1200
409
  },
410
  {
411
  "epoch": 8.0,
412
- "eval_loss": 0.006902625784277916,
413
- "eval_rmse": 0.08308204263448715,
414
- "eval_runtime": 23.2531,
415
- "eval_samples_per_second": 36.382,
416
- "eval_steps_per_second": 1.161,
417
  "step": 1200
418
  },
419
  {
420
  "epoch": 8.166666666666666,
421
- "grad_norm": 16112.8388671875,
422
- "learning_rate": 3.2272727272727276e-05,
423
- "loss": 0.0019,
424
  "step": 1225
425
  },
426
  {
427
  "epoch": 8.333333333333334,
428
- "grad_norm": 7358.75732421875,
429
- "learning_rate": 3.181818181818182e-05,
430
- "loss": 0.0021,
431
  "step": 1250
432
  },
433
  {
434
  "epoch": 8.5,
435
- "grad_norm": 6156.6611328125,
436
- "learning_rate": 3.1363636363636365e-05,
437
- "loss": 0.0017,
438
  "step": 1275
439
  },
440
  {
441
  "epoch": 8.666666666666666,
442
- "grad_norm": 10837.3037109375,
443
- "learning_rate": 3.090909090909091e-05,
444
- "loss": 0.0024,
445
  "step": 1300
446
  },
447
  {
448
  "epoch": 8.833333333333334,
449
- "grad_norm": 12637.4150390625,
450
- "learning_rate": 3.0454545454545456e-05,
451
- "loss": 0.0018,
452
  "step": 1325
453
  },
454
  {
455
  "epoch": 9.0,
456
- "grad_norm": 23124.64453125,
457
- "learning_rate": 3e-05,
458
- "loss": 0.0018,
459
  "step": 1350
460
  },
461
  {
462
  "epoch": 9.0,
463
- "eval_loss": 0.005730382166802883,
464
- "eval_rmse": 0.07569928467273712,
465
- "eval_runtime": 23.3861,
466
- "eval_samples_per_second": 36.175,
467
- "eval_steps_per_second": 1.155,
468
  "step": 1350
469
  },
470
  {
471
  "epoch": 9.166666666666666,
472
- "grad_norm": 6718.92919921875,
473
- "learning_rate": 2.954545454545455e-05,
474
- "loss": 0.0015,
475
  "step": 1375
476
  },
477
  {
478
  "epoch": 9.333333333333334,
479
- "grad_norm": 10810.6953125,
480
- "learning_rate": 2.909090909090909e-05,
481
- "loss": 0.0013,
482
  "step": 1400
483
  },
484
  {
485
  "epoch": 9.5,
486
- "grad_norm": 12909.9033203125,
487
- "learning_rate": 2.863636363636364e-05,
488
- "loss": 0.0015,
489
  "step": 1425
490
  },
491
  {
492
  "epoch": 9.666666666666666,
493
- "grad_norm": 5796.60693359375,
494
- "learning_rate": 2.818181818181818e-05,
495
- "loss": 0.0013,
496
  "step": 1450
497
  },
498
  {
499
  "epoch": 9.833333333333334,
500
- "grad_norm": 23500.55078125,
501
- "learning_rate": 2.772727272727273e-05,
502
  "loss": 0.0017,
503
  "step": 1475
504
  },
505
  {
506
  "epoch": 10.0,
507
- "grad_norm": 2772.444580078125,
508
- "learning_rate": 2.7272727272727273e-05,
509
- "loss": 0.002,
510
  "step": 1500
511
  },
512
  {
513
  "epoch": 10.0,
514
- "eval_loss": 0.005920641124248505,
515
- "eval_rmse": 0.0769456997513771,
516
- "eval_runtime": 24.5095,
517
- "eval_samples_per_second": 34.517,
518
- "eval_steps_per_second": 1.102,
519
  "step": 1500
520
  },
521
  {
522
  "epoch": 10.166666666666666,
523
- "grad_norm": 15935.796875,
524
- "learning_rate": 2.681818181818182e-05,
525
- "loss": 0.0011,
526
  "step": 1525
527
  },
528
  {
529
  "epoch": 10.333333333333334,
530
- "grad_norm": 13381.3623046875,
531
- "learning_rate": 2.636363636363636e-05,
532
- "loss": 0.0014,
533
  "step": 1550
534
  },
535
  {
536
  "epoch": 10.5,
537
- "grad_norm": 8558.2841796875,
538
- "learning_rate": 2.590909090909091e-05,
539
- "loss": 0.0012,
540
  "step": 1575
541
  },
542
  {
543
  "epoch": 10.666666666666666,
544
- "grad_norm": 13277.8525390625,
545
- "learning_rate": 2.5454545454545454e-05,
546
  "loss": 0.0013,
547
  "step": 1600
548
  },
549
  {
550
  "epoch": 10.833333333333334,
551
- "grad_norm": 11197.5478515625,
552
- "learning_rate": 2.5e-05,
553
- "loss": 0.0012,
554
  "step": 1625
555
  },
556
  {
557
  "epoch": 11.0,
558
- "grad_norm": 3204.55810546875,
559
- "learning_rate": 2.4545454545454545e-05,
560
- "loss": 0.0012,
561
  "step": 1650
562
  },
563
  {
564
  "epoch": 11.0,
565
- "eval_loss": 0.005719946697354317,
566
- "eval_rmse": 0.07563033699989319,
567
- "eval_runtime": 25.7743,
568
- "eval_samples_per_second": 32.823,
569
- "eval_steps_per_second": 1.048,
570
  "step": 1650
571
  },
572
  {
573
  "epoch": 11.166666666666666,
574
- "grad_norm": 7068.5830078125,
575
- "learning_rate": 2.4090909090909093e-05,
576
- "loss": 0.001,
577
  "step": 1675
578
  },
579
  {
580
  "epoch": 11.333333333333334,
581
- "grad_norm": 6493.97265625,
582
- "learning_rate": 2.3636363636363637e-05,
583
- "loss": 0.0011,
584
  "step": 1700
585
  },
586
  {
587
  "epoch": 11.5,
588
- "grad_norm": 6777.013671875,
589
- "learning_rate": 2.318181818181818e-05,
590
- "loss": 0.0011,
591
  "step": 1725
592
  },
593
  {
594
  "epoch": 11.666666666666666,
595
- "grad_norm": 6261.11767578125,
596
- "learning_rate": 2.272727272727273e-05,
597
- "loss": 0.0011,
598
  "step": 1750
599
  },
600
  {
601
  "epoch": 11.833333333333334,
602
- "grad_norm": 8973.4599609375,
603
- "learning_rate": 2.2272727272727274e-05,
604
- "loss": 0.0012,
605
  "step": 1775
606
  },
607
  {
608
  "epoch": 12.0,
609
- "grad_norm": 11911.302734375,
610
- "learning_rate": 2.1818181818181818e-05,
611
- "loss": 0.0011,
612
  "step": 1800
613
  },
614
  {
615
  "epoch": 12.0,
616
- "eval_loss": 0.005933709908276796,
617
- "eval_rmse": 0.07703057676553726,
618
- "eval_runtime": 23.8679,
619
- "eval_samples_per_second": 35.445,
620
- "eval_steps_per_second": 1.131,
621
  "step": 1800
622
  },
623
  {
624
  "epoch": 12.166666666666666,
625
- "grad_norm": 7263.52197265625,
626
- "learning_rate": 2.1363636363636362e-05,
627
- "loss": 0.001,
628
  "step": 1825
629
  },
630
  {
631
  "epoch": 12.333333333333334,
632
- "grad_norm": 2190.18115234375,
633
- "learning_rate": 2.090909090909091e-05,
634
- "loss": 0.0008,
635
  "step": 1850
636
  },
637
  {
638
  "epoch": 12.5,
639
- "grad_norm": 17004.29296875,
640
- "learning_rate": 2.0454545454545457e-05,
641
- "loss": 0.0009,
642
  "step": 1875
643
  },
644
  {
645
  "epoch": 12.666666666666666,
646
- "grad_norm": 3601.951416015625,
647
- "learning_rate": 2e-05,
648
- "loss": 0.0008,
649
  "step": 1900
650
  },
651
  {
652
  "epoch": 12.833333333333334,
653
- "grad_norm": 16977.19140625,
654
- "learning_rate": 1.9545454545454546e-05,
655
- "loss": 0.0009,
656
  "step": 1925
657
  },
658
  {
659
  "epoch": 13.0,
660
- "grad_norm": 9962.5048828125,
661
- "learning_rate": 1.9090909090909094e-05,
662
- "loss": 0.0009,
663
  "step": 1950
664
  },
665
  {
666
  "epoch": 13.0,
667
- "eval_loss": 0.005788400769233704,
668
- "eval_rmse": 0.0760815367102623,
669
- "eval_runtime": 23.6915,
670
- "eval_samples_per_second": 35.709,
671
- "eval_steps_per_second": 1.14,
672
  "step": 1950
673
  },
674
  {
675
  "epoch": 13.166666666666666,
676
- "grad_norm": 6503.86474609375,
677
- "learning_rate": 1.8636363636363638e-05,
678
- "loss": 0.0009,
679
  "step": 1975
680
  },
681
  {
682
  "epoch": 13.333333333333334,
683
- "grad_norm": 3315.51904296875,
684
- "learning_rate": 1.8181818181818182e-05,
685
- "loss": 0.0008,
686
  "step": 2000
687
  },
688
  {
689
  "epoch": 13.5,
690
- "grad_norm": 6505.07373046875,
691
- "learning_rate": 1.772727272727273e-05,
692
- "loss": 0.0007,
693
  "step": 2025
694
  },
695
  {
696
  "epoch": 13.666666666666666,
697
- "grad_norm": 8015.05712890625,
698
- "learning_rate": 1.7272727272727274e-05,
699
- "loss": 0.0007,
700
  "step": 2050
701
  },
702
  {
703
  "epoch": 13.833333333333334,
704
- "grad_norm": 19194.6015625,
705
- "learning_rate": 1.6818181818181818e-05,
706
- "loss": 0.0008,
707
  "step": 2075
708
  },
709
  {
710
  "epoch": 14.0,
711
- "grad_norm": 9773.720703125,
712
- "learning_rate": 1.6363636363636366e-05,
713
- "loss": 0.0008,
714
  "step": 2100
715
  },
716
  {
717
  "epoch": 14.0,
718
- "eval_loss": 0.005640079732984304,
719
- "eval_rmse": 0.07510046660900116,
720
- "eval_runtime": 25.0673,
721
- "eval_samples_per_second": 33.749,
722
- "eval_steps_per_second": 1.077,
723
  "step": 2100
724
  },
725
  {
726
  "epoch": 14.166666666666666,
727
- "grad_norm": 5335.89013671875,
728
- "learning_rate": 1.590909090909091e-05,
729
- "loss": 0.0007,
730
  "step": 2125
731
  },
732
  {
733
  "epoch": 14.333333333333334,
734
- "grad_norm": 5937.32421875,
735
- "learning_rate": 1.5454545454545454e-05,
736
- "loss": 0.0007,
737
  "step": 2150
738
  },
739
  {
740
  "epoch": 14.5,
741
- "grad_norm": 5748.50048828125,
742
- "learning_rate": 1.5e-05,
743
- "loss": 0.0007,
744
  "step": 2175
745
  },
746
  {
747
  "epoch": 14.666666666666666,
748
- "grad_norm": 7561.5009765625,
749
- "learning_rate": 1.4545454545454545e-05,
750
- "loss": 0.0007,
751
  "step": 2200
752
  },
753
  {
754
  "epoch": 14.833333333333334,
755
- "grad_norm": 2272.05419921875,
756
- "learning_rate": 1.409090909090909e-05,
757
- "loss": 0.0007,
758
  "step": 2225
759
  },
760
  {
761
  "epoch": 15.0,
762
- "grad_norm": 4282.1005859375,
763
- "learning_rate": 1.3636363636363637e-05,
764
- "loss": 0.0008,
765
  "step": 2250
766
  },
767
  {
768
  "epoch": 15.0,
769
- "eval_loss": 0.0057137333787977695,
770
- "eval_rmse": 0.07558923959732056,
771
- "eval_runtime": 24.0972,
772
- "eval_samples_per_second": 35.108,
773
- "eval_steps_per_second": 1.12,
774
  "step": 2250
775
  },
776
  {
777
  "epoch": 15.166666666666666,
778
- "grad_norm": 4606.4609375,
779
- "learning_rate": 1.318181818181818e-05,
780
- "loss": 0.0006,
781
  "step": 2275
782
  },
783
  {
784
  "epoch": 15.333333333333334,
785
- "grad_norm": 9886.646484375,
786
- "learning_rate": 1.2727272727272727e-05,
787
- "loss": 0.0006,
788
  "step": 2300
789
  },
790
  {
791
  "epoch": 15.5,
792
- "grad_norm": 4568.2802734375,
793
- "learning_rate": 1.2272727272727273e-05,
794
- "loss": 0.0005,
795
  "step": 2325
796
  },
797
  {
798
  "epoch": 15.666666666666666,
799
- "grad_norm": 8178.26025390625,
800
- "learning_rate": 1.1818181818181819e-05,
801
- "loss": 0.0006,
802
  "step": 2350
803
  },
804
  {
805
  "epoch": 15.833333333333334,
806
- "grad_norm": 3068.3349609375,
807
- "learning_rate": 1.1363636363636365e-05,
808
- "loss": 0.0006,
809
  "step": 2375
810
  },
811
  {
812
  "epoch": 16.0,
813
- "grad_norm": 7865.693359375,
814
- "learning_rate": 1.0909090909090909e-05,
815
- "loss": 0.0006,
816
  "step": 2400
817
  },
818
  {
819
  "epoch": 16.0,
820
- "eval_loss": 0.0056036608293652534,
821
- "eval_rmse": 0.07485760003328323,
822
- "eval_runtime": 24.1386,
823
- "eval_samples_per_second": 35.048,
824
- "eval_steps_per_second": 1.119,
825
  "step": 2400
826
  },
827
  {
828
  "epoch": 16.166666666666668,
829
- "grad_norm": 12935.966796875,
830
- "learning_rate": 1.0454545454545455e-05,
831
- "loss": 0.0005,
832
  "step": 2425
833
  },
834
  {
835
  "epoch": 16.333333333333332,
836
- "grad_norm": 2572.318359375,
837
- "learning_rate": 1e-05,
838
- "loss": 0.0004,
839
  "step": 2450
840
  },
841
  {
842
  "epoch": 16.5,
843
- "grad_norm": 3913.558837890625,
844
- "learning_rate": 9.545454545454547e-06,
845
- "loss": 0.0005,
846
  "step": 2475
847
  },
848
  {
849
  "epoch": 16.666666666666668,
850
- "grad_norm": 7128.30126953125,
851
- "learning_rate": 9.090909090909091e-06,
852
- "loss": 0.0005,
853
  "step": 2500
854
  },
855
  {
856
  "epoch": 16.833333333333332,
857
- "grad_norm": 11092.6220703125,
858
- "learning_rate": 8.636363636363637e-06,
859
- "loss": 0.0005,
860
  "step": 2525
861
  },
862
  {
863
  "epoch": 17.0,
864
- "grad_norm": 7797.11767578125,
865
- "learning_rate": 8.181818181818183e-06,
866
- "loss": 0.0006,
867
  "step": 2550
868
  },
869
  {
870
  "epoch": 17.0,
871
- "eval_loss": 0.005479985848069191,
872
- "eval_rmse": 0.0740269273519516,
873
- "eval_runtime": 23.866,
874
- "eval_samples_per_second": 35.448,
875
- "eval_steps_per_second": 1.131,
876
  "step": 2550
877
  },
878
  {
879
  "epoch": 17.166666666666668,
880
- "grad_norm": 3903.398193359375,
881
- "learning_rate": 7.727272727272727e-06,
882
- "loss": 0.0004,
883
  "step": 2575
884
  },
885
  {
886
  "epoch": 17.333333333333332,
887
- "grad_norm": 9970.853515625,
888
- "learning_rate": 7.272727272727272e-06,
889
- "loss": 0.0004,
890
  "step": 2600
891
  },
892
  {
893
  "epoch": 17.5,
894
- "grad_norm": 10561.7421875,
895
- "learning_rate": 6.818181818181818e-06,
896
- "loss": 0.0004,
897
  "step": 2625
898
  },
899
  {
900
  "epoch": 17.666666666666668,
901
- "grad_norm": 4177.15771484375,
902
- "learning_rate": 6.363636363636363e-06,
903
- "loss": 0.0004,
904
  "step": 2650
905
  },
906
  {
907
  "epoch": 17.833333333333332,
908
- "grad_norm": 7322.50634765625,
909
- "learning_rate": 5.909090909090909e-06,
910
- "loss": 0.0004,
911
  "step": 2675
912
  },
913
  {
914
  "epoch": 18.0,
915
- "grad_norm": 13072.9580078125,
916
- "learning_rate": 5.4545454545454545e-06,
917
- "loss": 0.0004,
918
  "step": 2700
919
  },
920
  {
921
  "epoch": 18.0,
922
- "eval_loss": 0.005703671369701624,
923
- "eval_rmse": 0.07552265375852585,
924
- "eval_runtime": 24.3429,
925
- "eval_samples_per_second": 34.754,
926
- "eval_steps_per_second": 1.109,
927
  "step": 2700
928
  },
929
  {
930
  "epoch": 18.166666666666668,
931
- "grad_norm": 3103.575927734375,
932
- "learning_rate": 5e-06,
933
- "loss": 0.0004,
934
  "step": 2725
935
  },
936
  {
937
  "epoch": 18.333333333333332,
938
- "grad_norm": 2713.65869140625,
939
- "learning_rate": 4.5454545454545455e-06,
940
- "loss": 0.0003,
941
  "step": 2750
942
  },
943
  {
944
  "epoch": 18.5,
945
- "grad_norm": 2231.278564453125,
946
- "learning_rate": 4.0909090909090915e-06,
947
- "loss": 0.0003,
948
  "step": 2775
949
  },
950
  {
951
  "epoch": 18.666666666666668,
952
- "grad_norm": 6196.794921875,
953
- "learning_rate": 3.636363636363636e-06,
954
- "loss": 0.0003,
955
  "step": 2800
956
  },
957
  {
958
  "epoch": 18.833333333333332,
959
- "grad_norm": 1392.4776611328125,
960
- "learning_rate": 3.1818181818181817e-06,
961
- "loss": 0.0003,
962
  "step": 2825
963
  },
964
  {
965
  "epoch": 19.0,
966
- "grad_norm": 2869.9462890625,
967
- "learning_rate": 2.7272727272727272e-06,
968
- "loss": 0.0004,
969
  "step": 2850
970
  },
971
  {
972
  "epoch": 19.0,
973
- "eval_loss": 0.005522754043340683,
974
- "eval_rmse": 0.07431523501873016,
975
- "eval_runtime": 23.5254,
976
- "eval_samples_per_second": 35.961,
977
- "eval_steps_per_second": 1.148,
978
  "step": 2850
979
  },
980
  {
981
  "epoch": 19.166666666666668,
982
- "grad_norm": 1801.104248046875,
983
- "learning_rate": 2.2727272727272728e-06,
984
- "loss": 0.0003,
985
  "step": 2875
986
  },
987
  {
988
  "epoch": 19.333333333333332,
989
- "grad_norm": 2785.420654296875,
990
- "learning_rate": 1.818181818181818e-06,
991
- "loss": 0.0003,
992
  "step": 2900
993
  },
994
  {
995
  "epoch": 19.5,
996
- "grad_norm": 3792.26416015625,
997
- "learning_rate": 1.3636363636363636e-06,
998
- "loss": 0.0003,
999
  "step": 2925
1000
  },
1001
  {
1002
  "epoch": 19.666666666666668,
1003
- "grad_norm": 6763.56982421875,
1004
- "learning_rate": 9.09090909090909e-07,
1005
- "loss": 0.0003,
1006
  "step": 2950
1007
  },
1008
  {
1009
  "epoch": 19.833333333333332,
1010
- "grad_norm": 6747.69091796875,
1011
- "learning_rate": 4.545454545454545e-07,
1012
- "loss": 0.0003,
1013
  "step": 2975
1014
  },
1015
  {
1016
  "epoch": 20.0,
1017
- "grad_norm": 2657.044677734375,
1018
- "learning_rate": 0.0,
1019
- "loss": 0.0002,
1020
  "step": 3000
1021
  },
1022
  {
1023
  "epoch": 20.0,
1024
- "eval_loss": 0.00548164127394557,
1025
- "eval_rmse": 0.07403810322284698,
1026
- "eval_runtime": 24.066,
1027
- "eval_samples_per_second": 35.153,
1028
- "eval_steps_per_second": 1.122,
1029
  "step": 3000
1030
  },
1031
  {
1032
- "epoch": 20.0,
1033
- "step": 3000,
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1034
  "total_flos": 0.0,
1035
- "train_loss": 0.00369019165293624,
1036
- "train_runtime": 6610.8402,
1037
- "train_samples_per_second": 14.485,
1038
- "train_steps_per_second": 0.454
1039
  }
1040
  ],
1041
  "logging_steps": 25,
1042
- "max_steps": 3000,
1043
  "num_input_tokens_seen": 0,
1044
- "num_train_epochs": 20,
1045
  "save_steps": 500,
1046
  "stateful_callbacks": {
1047
  "TrainerControl": {
 
1
  {
2
+ "best_metric": 0.0047905659303069115,
3
+ "best_model_checkpoint": "limbxy_seq_t2/checkpoint-6900",
4
+ "epoch": 50.0,
5
  "eval_steps": 500,
6
+ "global_step": 7500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.16666666666666666,
13
+ "grad_norm": 23976.76171875,
14
  "learning_rate": 5e-06,
15
+ "loss": 0.0303,
16
  "step": 25
17
  },
18
  {
19
  "epoch": 0.3333333333333333,
20
+ "grad_norm": 44498.20703125,
21
  "learning_rate": 1e-05,
22
+ "loss": 0.0247,
23
  "step": 50
24
  },
25
  {
26
  "epoch": 0.5,
27
+ "grad_norm": 15935.5693359375,
28
  "learning_rate": 1.5e-05,
29
+ "loss": 0.0242,
30
  "step": 75
31
  },
32
  {
33
  "epoch": 0.6666666666666666,
34
+ "grad_norm": 46439.44140625,
35
  "learning_rate": 2e-05,
36
+ "loss": 0.0185,
37
  "step": 100
38
  },
39
  {
40
  "epoch": 0.8333333333333334,
41
+ "grad_norm": 56363.26171875,
42
  "learning_rate": 2.5e-05,
43
+ "loss": 0.016,
44
  "step": 125
45
  },
46
  {
47
  "epoch": 1.0,
48
+ "grad_norm": 42469.171875,
49
  "learning_rate": 3e-05,
50
+ "loss": 0.0135,
51
  "step": 150
52
  },
53
  {
54
  "epoch": 1.0,
55
+ "eval_loss": 0.012278009206056595,
56
+ "eval_rmse": 0.1108061820268631,
57
+ "eval_runtime": 22.9058,
58
+ "eval_samples_per_second": 36.934,
59
+ "eval_steps_per_second": 1.179,
60
  "step": 150
61
  },
62
  {
63
  "epoch": 1.1666666666666667,
64
+ "grad_norm": 18461.55859375,
65
  "learning_rate": 3.5e-05,
66
+ "loss": 0.0111,
67
  "step": 175
68
  },
69
  {
70
  "epoch": 1.3333333333333333,
71
+ "grad_norm": 30171.146484375,
72
  "learning_rate": 4e-05,
73
+ "loss": 0.0113,
74
  "step": 200
75
  },
76
  {
77
  "epoch": 1.5,
78
+ "grad_norm": 25474.505859375,
79
  "learning_rate": 4.5e-05,
80
+ "loss": 0.0108,
81
  "step": 225
82
  },
83
  {
84
  "epoch": 1.6666666666666665,
85
+ "grad_norm": 32029.49609375,
86
  "learning_rate": 5e-05,
87
+ "loss": 0.0101,
88
  "step": 250
89
  },
90
  {
91
  "epoch": 1.8333333333333335,
92
+ "grad_norm": 39912.48828125,
93
+ "learning_rate": 4.982758620689655e-05,
94
+ "loss": 0.0091,
95
  "step": 275
96
  },
97
  {
98
  "epoch": 2.0,
99
+ "grad_norm": 36011.33984375,
100
+ "learning_rate": 4.9655172413793107e-05,
101
+ "loss": 0.0102,
102
  "step": 300
103
  },
104
  {
105
  "epoch": 2.0,
106
+ "eval_loss": 0.007965018041431904,
107
+ "eval_rmse": 0.08924694359302521,
108
+ "eval_runtime": 24.0962,
109
+ "eval_samples_per_second": 35.109,
110
+ "eval_steps_per_second": 1.121,
111
  "step": 300
112
  },
113
  {
114
  "epoch": 2.1666666666666665,
115
+ "grad_norm": 29222.896484375,
116
+ "learning_rate": 4.9482758620689655e-05,
117
+ "loss": 0.0065,
118
  "step": 325
119
  },
120
  {
121
  "epoch": 2.3333333333333335,
122
+ "grad_norm": 18097.1953125,
123
+ "learning_rate": 4.931034482758621e-05,
124
+ "loss": 0.0067,
125
  "step": 350
126
  },
127
  {
128
  "epoch": 2.5,
129
+ "grad_norm": 20067.69140625,
130
+ "learning_rate": 4.913793103448276e-05,
131
+ "loss": 0.0067,
132
  "step": 375
133
  },
134
  {
135
  "epoch": 2.6666666666666665,
136
+ "grad_norm": 26646.060546875,
137
+ "learning_rate": 4.896551724137931e-05,
138
+ "loss": 0.0085,
139
  "step": 400
140
  },
141
  {
142
  "epoch": 2.8333333333333335,
143
+ "grad_norm": 37624.953125,
144
+ "learning_rate": 4.8793103448275864e-05,
145
+ "loss": 0.0085,
146
  "step": 425
147
  },
148
  {
149
  "epoch": 3.0,
150
+ "grad_norm": 11236.326171875,
151
+ "learning_rate": 4.862068965517241e-05,
152
+ "loss": 0.0065,
153
  "step": 450
154
  },
155
  {
156
  "epoch": 3.0,
157
+ "eval_loss": 0.010736133903265,
158
+ "eval_rmse": 0.10361532121896744,
159
+ "eval_runtime": 24.7647,
160
+ "eval_samples_per_second": 34.162,
161
  "eval_steps_per_second": 1.09,
162
  "step": 450
163
  },
164
  {
165
  "epoch": 3.1666666666666665,
166
+ "grad_norm": 21234.044921875,
167
+ "learning_rate": 4.844827586206897e-05,
168
+ "loss": 0.0056,
169
  "step": 475
170
  },
171
  {
172
  "epoch": 3.3333333333333335,
173
+ "grad_norm": 27683.8359375,
174
+ "learning_rate": 4.827586206896552e-05,
175
  "loss": 0.0065,
176
  "step": 500
177
  },
178
  {
179
  "epoch": 3.5,
180
+ "grad_norm": 27213.1171875,
181
+ "learning_rate": 4.810344827586207e-05,
182
+ "loss": 0.0048,
183
  "step": 525
184
  },
185
  {
186
  "epoch": 3.6666666666666665,
187
+ "grad_norm": 51301.77734375,
188
+ "learning_rate": 4.793103448275863e-05,
189
+ "loss": 0.0064,
190
  "step": 550
191
  },
192
  {
193
  "epoch": 3.8333333333333335,
194
+ "grad_norm": 22701.841796875,
195
+ "learning_rate": 4.7758620689655176e-05,
196
+ "loss": 0.005,
197
  "step": 575
198
  },
199
  {
200
  "epoch": 4.0,
201
+ "grad_norm": 43817.91796875,
202
+ "learning_rate": 4.7586206896551725e-05,
203
+ "loss": 0.0049,
204
  "step": 600
205
  },
206
  {
207
  "epoch": 4.0,
208
+ "eval_loss": 0.008756866678595543,
209
+ "eval_rmse": 0.09357813745737076,
210
+ "eval_runtime": 24.2147,
211
+ "eval_samples_per_second": 34.937,
212
+ "eval_steps_per_second": 1.115,
213
  "step": 600
214
  },
215
  {
216
  "epoch": 4.166666666666667,
217
+ "grad_norm": 23862.228515625,
218
+ "learning_rate": 4.741379310344828e-05,
219
+ "loss": 0.0056,
220
  "step": 625
221
  },
222
  {
223
  "epoch": 4.333333333333333,
224
+ "grad_norm": 22432.494140625,
225
+ "learning_rate": 4.724137931034483e-05,
226
+ "loss": 0.0045,
227
  "step": 650
228
  },
229
  {
230
  "epoch": 4.5,
231
+ "grad_norm": 36739.33203125,
232
+ "learning_rate": 4.7068965517241385e-05,
233
+ "loss": 0.0043,
234
  "step": 675
235
  },
236
  {
237
  "epoch": 4.666666666666667,
238
+ "grad_norm": 30371.708984375,
239
+ "learning_rate": 4.689655172413793e-05,
240
+ "loss": 0.0048,
241
  "step": 700
242
  },
243
  {
244
  "epoch": 4.833333333333333,
245
+ "grad_norm": 20437.169921875,
246
+ "learning_rate": 4.672413793103448e-05,
247
+ "loss": 0.0037,
248
  "step": 725
249
  },
250
  {
251
  "epoch": 5.0,
252
+ "grad_norm": 29574.46875,
253
+ "learning_rate": 4.655172413793104e-05,
254
+ "loss": 0.0042,
255
  "step": 750
256
  },
257
  {
258
  "epoch": 5.0,
259
+ "eval_loss": 0.007152818143367767,
260
+ "eval_rmse": 0.08457433432340622,
261
+ "eval_runtime": 25.0184,
262
+ "eval_samples_per_second": 33.815,
263
+ "eval_steps_per_second": 1.079,
264
  "step": 750
265
  },
266
  {
267
  "epoch": 5.166666666666667,
268
+ "grad_norm": 27755.48828125,
269
+ "learning_rate": 4.6379310344827586e-05,
270
+ "loss": 0.0028,
271
  "step": 775
272
  },
273
  {
274
  "epoch": 5.333333333333333,
275
+ "grad_norm": 27771.154296875,
276
+ "learning_rate": 4.6206896551724135e-05,
277
+ "loss": 0.0039,
278
  "step": 800
279
  },
280
  {
281
  "epoch": 5.5,
282
+ "grad_norm": 17496.92578125,
283
+ "learning_rate": 4.603448275862069e-05,
284
+ "loss": 0.0039,
285
  "step": 825
286
  },
287
  {
288
  "epoch": 5.666666666666667,
289
+ "grad_norm": 18169.658203125,
290
+ "learning_rate": 4.586206896551724e-05,
291
+ "loss": 0.0039,
292
  "step": 850
293
  },
294
  {
295
  "epoch": 5.833333333333333,
296
+ "grad_norm": 17193.5234375,
297
+ "learning_rate": 4.5689655172413794e-05,
298
+ "loss": 0.0034,
299
  "step": 875
300
  },
301
  {
302
  "epoch": 6.0,
303
+ "grad_norm": 22194.474609375,
304
+ "learning_rate": 4.551724137931035e-05,
305
  "loss": 0.0033,
306
  "step": 900
307
  },
308
  {
309
  "epoch": 6.0,
310
+ "eval_loss": 0.007074417546391487,
311
+ "eval_rmse": 0.08410955965518951,
312
+ "eval_runtime": 23.9626,
313
+ "eval_samples_per_second": 35.305,
314
+ "eval_steps_per_second": 1.127,
315
  "step": 900
316
  },
317
  {
318
  "epoch": 6.166666666666667,
319
+ "grad_norm": 9658.81640625,
320
+ "learning_rate": 4.53448275862069e-05,
321
+ "loss": 0.0026,
322
  "step": 925
323
  },
324
  {
325
  "epoch": 6.333333333333333,
326
+ "grad_norm": 8459.115234375,
327
+ "learning_rate": 4.5172413793103454e-05,
328
+ "loss": 0.0025,
329
  "step": 950
330
  },
331
  {
332
  "epoch": 6.5,
333
+ "grad_norm": 22246.572265625,
334
+ "learning_rate": 4.5e-05,
335
+ "loss": 0.0027,
336
  "step": 975
337
  },
338
  {
339
  "epoch": 6.666666666666667,
340
+ "grad_norm": 19054.365234375,
341
+ "learning_rate": 4.482758620689655e-05,
342
  "loss": 0.0027,
343
  "step": 1000
344
  },
345
  {
346
  "epoch": 6.833333333333333,
347
+ "grad_norm": 20117.76171875,
348
+ "learning_rate": 4.465517241379311e-05,
349
  "loss": 0.0027,
350
  "step": 1025
351
  },
352
  {
353
  "epoch": 7.0,
354
+ "grad_norm": 31974.06640625,
355
+ "learning_rate": 4.4482758620689656e-05,
356
+ "loss": 0.0028,
357
  "step": 1050
358
  },
359
  {
360
  "epoch": 7.0,
361
+ "eval_loss": 0.006500152871012688,
362
+ "eval_rmse": 0.08062352240085602,
363
+ "eval_runtime": 24.6356,
364
+ "eval_samples_per_second": 34.341,
365
+ "eval_steps_per_second": 1.096,
366
  "step": 1050
367
  },
368
  {
369
  "epoch": 7.166666666666667,
370
+ "grad_norm": 7549.3779296875,
371
+ "learning_rate": 4.431034482758621e-05,
372
+ "loss": 0.0023,
373
  "step": 1075
374
  },
375
  {
376
  "epoch": 7.333333333333333,
377
+ "grad_norm": 3568.779296875,
378
+ "learning_rate": 4.413793103448276e-05,
379
+ "loss": 0.0023,
380
  "step": 1100
381
  },
382
  {
383
  "epoch": 7.5,
384
+ "grad_norm": 7770.5302734375,
385
+ "learning_rate": 4.396551724137931e-05,
386
+ "loss": 0.0024,
387
  "step": 1125
388
  },
389
  {
390
  "epoch": 7.666666666666667,
391
+ "grad_norm": 3176.07470703125,
392
+ "learning_rate": 4.3793103448275864e-05,
393
+ "loss": 0.0025,
394
  "step": 1150
395
  },
396
  {
397
  "epoch": 7.833333333333333,
398
+ "grad_norm": 10015.4404296875,
399
+ "learning_rate": 4.362068965517241e-05,
400
+ "loss": 0.0024,
401
  "step": 1175
402
  },
403
  {
404
  "epoch": 8.0,
405
+ "grad_norm": 4624.525390625,
406
+ "learning_rate": 4.344827586206897e-05,
407
+ "loss": 0.0023,
408
  "step": 1200
409
  },
410
  {
411
  "epoch": 8.0,
412
+ "eval_loss": 0.007097144145518541,
413
+ "eval_rmse": 0.08424454927444458,
414
+ "eval_runtime": 24.1478,
415
+ "eval_samples_per_second": 35.034,
416
+ "eval_steps_per_second": 1.118,
417
  "step": 1200
418
  },
419
  {
420
  "epoch": 8.166666666666666,
421
+ "grad_norm": 32302.224609375,
422
+ "learning_rate": 4.327586206896552e-05,
423
+ "loss": 0.0027,
424
  "step": 1225
425
  },
426
  {
427
  "epoch": 8.333333333333334,
428
+ "grad_norm": 15594.7314453125,
429
+ "learning_rate": 4.3103448275862066e-05,
430
+ "loss": 0.0027,
431
  "step": 1250
432
  },
433
  {
434
  "epoch": 8.5,
435
+ "grad_norm": 30639.5546875,
436
+ "learning_rate": 4.293103448275863e-05,
437
+ "loss": 0.0023,
438
  "step": 1275
439
  },
440
  {
441
  "epoch": 8.666666666666666,
442
+ "grad_norm": 16389.27734375,
443
+ "learning_rate": 4.275862068965518e-05,
444
+ "loss": 0.0026,
445
  "step": 1300
446
  },
447
  {
448
  "epoch": 8.833333333333334,
449
+ "grad_norm": 6988.25048828125,
450
+ "learning_rate": 4.2586206896551725e-05,
451
+ "loss": 0.0027,
452
  "step": 1325
453
  },
454
  {
455
  "epoch": 9.0,
456
+ "grad_norm": 15722.751953125,
457
+ "learning_rate": 4.241379310344828e-05,
458
+ "loss": 0.0022,
459
  "step": 1350
460
  },
461
  {
462
  "epoch": 9.0,
463
+ "eval_loss": 0.006430492270737886,
464
+ "eval_rmse": 0.08019035309553146,
465
+ "eval_runtime": 24.2153,
466
+ "eval_samples_per_second": 34.937,
467
+ "eval_steps_per_second": 1.115,
468
  "step": 1350
469
  },
470
  {
471
  "epoch": 9.166666666666666,
472
+ "grad_norm": 14371.986328125,
473
+ "learning_rate": 4.224137931034483e-05,
474
+ "loss": 0.0017,
475
  "step": 1375
476
  },
477
  {
478
  "epoch": 9.333333333333334,
479
+ "grad_norm": 15843.341796875,
480
+ "learning_rate": 4.2068965517241385e-05,
481
+ "loss": 0.0015,
482
  "step": 1400
483
  },
484
  {
485
  "epoch": 9.5,
486
+ "grad_norm": 13752.29296875,
487
+ "learning_rate": 4.1896551724137934e-05,
488
+ "loss": 0.0021,
489
  "step": 1425
490
  },
491
  {
492
  "epoch": 9.666666666666666,
493
+ "grad_norm": 3012.7041015625,
494
+ "learning_rate": 4.172413793103448e-05,
495
+ "loss": 0.0016,
496
  "step": 1450
497
  },
498
  {
499
  "epoch": 9.833333333333334,
500
+ "grad_norm": 12362.5390625,
501
+ "learning_rate": 4.155172413793104e-05,
502
  "loss": 0.0017,
503
  "step": 1475
504
  },
505
  {
506
  "epoch": 10.0,
507
+ "grad_norm": 14453.1337890625,
508
+ "learning_rate": 4.1379310344827587e-05,
509
+ "loss": 0.0018,
510
  "step": 1500
511
  },
512
  {
513
  "epoch": 10.0,
514
+ "eval_loss": 0.005872304085642099,
515
+ "eval_rmse": 0.07663095742464066,
516
+ "eval_runtime": 24.1286,
517
+ "eval_samples_per_second": 35.062,
518
+ "eval_steps_per_second": 1.119,
519
  "step": 1500
520
  },
521
  {
522
  "epoch": 10.166666666666666,
523
+ "grad_norm": 9474.490234375,
524
+ "learning_rate": 4.120689655172414e-05,
525
+ "loss": 0.0013,
526
  "step": 1525
527
  },
528
  {
529
  "epoch": 10.333333333333334,
530
+ "grad_norm": 18761.958984375,
531
+ "learning_rate": 4.103448275862069e-05,
532
+ "loss": 0.0015,
533
  "step": 1550
534
  },
535
  {
536
  "epoch": 10.5,
537
+ "grad_norm": 8908.1357421875,
538
+ "learning_rate": 4.086206896551724e-05,
539
+ "loss": 0.0014,
540
  "step": 1575
541
  },
542
  {
543
  "epoch": 10.666666666666666,
544
+ "grad_norm": 10597.185546875,
545
+ "learning_rate": 4.0689655172413795e-05,
546
  "loss": 0.0013,
547
  "step": 1600
548
  },
549
  {
550
  "epoch": 10.833333333333334,
551
+ "grad_norm": 2860.470458984375,
552
+ "learning_rate": 4.0517241379310344e-05,
553
+ "loss": 0.0013,
554
  "step": 1625
555
  },
556
  {
557
  "epoch": 11.0,
558
+ "grad_norm": 16391.615234375,
559
+ "learning_rate": 4.03448275862069e-05,
560
+ "loss": 0.0014,
561
  "step": 1650
562
  },
563
  {
564
  "epoch": 11.0,
565
+ "eval_loss": 0.005458915140479803,
566
+ "eval_rmse": 0.07388447225093842,
567
+ "eval_runtime": 23.9306,
568
+ "eval_samples_per_second": 35.352,
569
+ "eval_steps_per_second": 1.128,
570
  "step": 1650
571
  },
572
  {
573
  "epoch": 11.166666666666666,
574
+ "grad_norm": 7713.515625,
575
+ "learning_rate": 4.0172413793103455e-05,
576
+ "loss": 0.0011,
577
  "step": 1675
578
  },
579
  {
580
  "epoch": 11.333333333333334,
581
+ "grad_norm": 7927.998046875,
582
+ "learning_rate": 4e-05,
583
+ "loss": 0.0013,
584
  "step": 1700
585
  },
586
  {
587
  "epoch": 11.5,
588
+ "grad_norm": 12422.3525390625,
589
+ "learning_rate": 3.982758620689656e-05,
590
+ "loss": 0.0012,
591
  "step": 1725
592
  },
593
  {
594
  "epoch": 11.666666666666666,
595
+ "grad_norm": 6916.77197265625,
596
+ "learning_rate": 3.965517241379311e-05,
597
+ "loss": 0.0013,
598
  "step": 1750
599
  },
600
  {
601
  "epoch": 11.833333333333334,
602
+ "grad_norm": 15062.759765625,
603
+ "learning_rate": 3.9482758620689656e-05,
604
+ "loss": 0.0013,
605
  "step": 1775
606
  },
607
  {
608
  "epoch": 12.0,
609
+ "grad_norm": 11555.865234375,
610
+ "learning_rate": 3.931034482758621e-05,
611
+ "loss": 0.0014,
612
  "step": 1800
613
  },
614
  {
615
  "epoch": 12.0,
616
+ "eval_loss": 0.006092158146202564,
617
+ "eval_rmse": 0.07805227488279343,
618
+ "eval_runtime": 24.7327,
619
+ "eval_samples_per_second": 34.206,
620
+ "eval_steps_per_second": 1.092,
621
  "step": 1800
622
  },
623
  {
624
  "epoch": 12.166666666666666,
625
+ "grad_norm": 16014.1708984375,
626
+ "learning_rate": 3.913793103448276e-05,
627
+ "loss": 0.0013,
628
  "step": 1825
629
  },
630
  {
631
  "epoch": 12.333333333333334,
632
+ "grad_norm": 8199.9521484375,
633
+ "learning_rate": 3.896551724137931e-05,
634
+ "loss": 0.0015,
635
  "step": 1850
636
  },
637
  {
638
  "epoch": 12.5,
639
+ "grad_norm": 5141.04541015625,
640
+ "learning_rate": 3.8793103448275865e-05,
641
+ "loss": 0.0011,
642
  "step": 1875
643
  },
644
  {
645
  "epoch": 12.666666666666666,
646
+ "grad_norm": 6066.68603515625,
647
+ "learning_rate": 3.862068965517241e-05,
648
+ "loss": 0.0013,
649
  "step": 1900
650
  },
651
  {
652
  "epoch": 12.833333333333334,
653
+ "grad_norm": 15361.6728515625,
654
+ "learning_rate": 3.844827586206897e-05,
655
+ "loss": 0.0013,
656
  "step": 1925
657
  },
658
  {
659
  "epoch": 13.0,
660
+ "grad_norm": 18773.4296875,
661
+ "learning_rate": 3.827586206896552e-05,
662
+ "loss": 0.0013,
663
  "step": 1950
664
  },
665
  {
666
  "epoch": 13.0,
667
+ "eval_loss": 0.005602031946182251,
668
+ "eval_rmse": 0.07484672218561172,
669
+ "eval_runtime": 25.6642,
670
+ "eval_samples_per_second": 32.964,
671
+ "eval_steps_per_second": 1.052,
672
  "step": 1950
673
  },
674
  {
675
  "epoch": 13.166666666666666,
676
+ "grad_norm": 13982.216796875,
677
+ "learning_rate": 3.8103448275862066e-05,
678
+ "loss": 0.0012,
679
  "step": 1975
680
  },
681
  {
682
  "epoch": 13.333333333333334,
683
+ "grad_norm": 8787.0205078125,
684
+ "learning_rate": 3.793103448275862e-05,
685
+ "loss": 0.0013,
686
  "step": 2000
687
  },
688
  {
689
  "epoch": 13.5,
690
+ "grad_norm": 14623.2998046875,
691
+ "learning_rate": 3.775862068965517e-05,
692
+ "loss": 0.0014,
693
  "step": 2025
694
  },
695
  {
696
  "epoch": 13.666666666666666,
697
+ "grad_norm": 15070.6416015625,
698
+ "learning_rate": 3.7586206896551726e-05,
699
+ "loss": 0.0011,
700
  "step": 2050
701
  },
702
  {
703
  "epoch": 13.833333333333334,
704
+ "grad_norm": 3772.699951171875,
705
+ "learning_rate": 3.741379310344828e-05,
706
+ "loss": 0.0012,
707
  "step": 2075
708
  },
709
  {
710
  "epoch": 14.0,
711
+ "grad_norm": 6189.50927734375,
712
+ "learning_rate": 3.724137931034483e-05,
713
+ "loss": 0.0009,
714
  "step": 2100
715
  },
716
  {
717
  "epoch": 14.0,
718
+ "eval_loss": 0.005514672491699457,
719
+ "eval_rmse": 0.07426083832979202,
720
+ "eval_runtime": 24.3843,
721
+ "eval_samples_per_second": 34.695,
722
+ "eval_steps_per_second": 1.107,
723
  "step": 2100
724
  },
725
  {
726
  "epoch": 14.166666666666666,
727
+ "grad_norm": 7100.7158203125,
728
+ "learning_rate": 3.7068965517241385e-05,
729
+ "loss": 0.0011,
730
  "step": 2125
731
  },
732
  {
733
  "epoch": 14.333333333333334,
734
+ "grad_norm": 21329.642578125,
735
+ "learning_rate": 3.6896551724137934e-05,
736
+ "loss": 0.0012,
737
  "step": 2150
738
  },
739
  {
740
  "epoch": 14.5,
741
+ "grad_norm": 13695.5166015625,
742
+ "learning_rate": 3.672413793103448e-05,
743
+ "loss": 0.0014,
744
  "step": 2175
745
  },
746
  {
747
  "epoch": 14.666666666666666,
748
+ "grad_norm": 2531.25048828125,
749
+ "learning_rate": 3.655172413793104e-05,
750
+ "loss": 0.001,
751
  "step": 2200
752
  },
753
  {
754
  "epoch": 14.833333333333334,
755
+ "grad_norm": 34455.28125,
756
+ "learning_rate": 3.637931034482759e-05,
757
+ "loss": 0.0017,
758
  "step": 2225
759
  },
760
  {
761
  "epoch": 15.0,
762
+ "grad_norm": 4662.3671875,
763
+ "learning_rate": 3.620689655172414e-05,
764
+ "loss": 0.0017,
765
  "step": 2250
766
  },
767
  {
768
  "epoch": 15.0,
769
+ "eval_loss": 0.005805719178169966,
770
+ "eval_rmse": 0.07619526982307434,
771
+ "eval_runtime": 25.2273,
772
+ "eval_samples_per_second": 33.535,
773
+ "eval_steps_per_second": 1.07,
774
  "step": 2250
775
  },
776
  {
777
  "epoch": 15.166666666666666,
778
+ "grad_norm": 20696.083984375,
779
+ "learning_rate": 3.603448275862069e-05,
780
+ "loss": 0.0012,
781
  "step": 2275
782
  },
783
  {
784
  "epoch": 15.333333333333334,
785
+ "grad_norm": 11598.755859375,
786
+ "learning_rate": 3.586206896551724e-05,
787
+ "loss": 0.0009,
788
  "step": 2300
789
  },
790
  {
791
  "epoch": 15.5,
792
+ "grad_norm": 3409.390625,
793
+ "learning_rate": 3.5689655172413795e-05,
794
+ "loss": 0.001,
795
  "step": 2325
796
  },
797
  {
798
  "epoch": 15.666666666666666,
799
+ "grad_norm": 5427.46875,
800
+ "learning_rate": 3.5517241379310344e-05,
801
+ "loss": 0.0012,
802
  "step": 2350
803
  },
804
  {
805
  "epoch": 15.833333333333334,
806
+ "grad_norm": 7153.16650390625,
807
+ "learning_rate": 3.53448275862069e-05,
808
+ "loss": 0.0009,
809
  "step": 2375
810
  },
811
  {
812
  "epoch": 16.0,
813
+ "grad_norm": 5100.07763671875,
814
+ "learning_rate": 3.517241379310345e-05,
815
+ "loss": 0.0012,
816
  "step": 2400
817
  },
818
  {
819
  "epoch": 16.0,
820
+ "eval_loss": 0.005410957615822554,
821
+ "eval_rmse": 0.07355920970439911,
822
+ "eval_runtime": 24.7206,
823
+ "eval_samples_per_second": 34.223,
824
+ "eval_steps_per_second": 1.092,
825
  "step": 2400
826
  },
827
  {
828
  "epoch": 16.166666666666668,
829
+ "grad_norm": 20211.419921875,
830
+ "learning_rate": 3.5e-05,
831
+ "loss": 0.0011,
832
  "step": 2425
833
  },
834
  {
835
  "epoch": 16.333333333333332,
836
+ "grad_norm": 12609.2548828125,
837
+ "learning_rate": 3.482758620689655e-05,
838
+ "loss": 0.0011,
839
  "step": 2450
840
  },
841
  {
842
  "epoch": 16.5,
843
+ "grad_norm": 3446.8486328125,
844
+ "learning_rate": 3.465517241379311e-05,
845
+ "loss": 0.0009,
846
  "step": 2475
847
  },
848
  {
849
  "epoch": 16.666666666666668,
850
+ "grad_norm": 14641.283203125,
851
+ "learning_rate": 3.4482758620689657e-05,
852
+ "loss": 0.0008,
853
  "step": 2500
854
  },
855
  {
856
  "epoch": 16.833333333333332,
857
+ "grad_norm": 12291.1083984375,
858
+ "learning_rate": 3.431034482758621e-05,
859
+ "loss": 0.0009,
860
  "step": 2525
861
  },
862
  {
863
  "epoch": 17.0,
864
+ "grad_norm": 7226.25,
865
+ "learning_rate": 3.413793103448276e-05,
866
+ "loss": 0.0008,
867
  "step": 2550
868
  },
869
  {
870
  "epoch": 17.0,
871
+ "eval_loss": 0.005254137795418501,
872
+ "eval_rmse": 0.07248543202877045,
873
+ "eval_runtime": 25.4082,
874
+ "eval_samples_per_second": 33.296,
875
+ "eval_steps_per_second": 1.063,
876
  "step": 2550
877
  },
878
  {
879
  "epoch": 17.166666666666668,
880
+ "grad_norm": 6015.2412109375,
881
+ "learning_rate": 3.3965517241379316e-05,
882
+ "loss": 0.0008,
883
  "step": 2575
884
  },
885
  {
886
  "epoch": 17.333333333333332,
887
+ "grad_norm": 7095.80859375,
888
+ "learning_rate": 3.3793103448275865e-05,
889
+ "loss": 0.0008,
890
  "step": 2600
891
  },
892
  {
893
  "epoch": 17.5,
894
+ "grad_norm": 7659.24951171875,
895
+ "learning_rate": 3.3620689655172414e-05,
896
+ "loss": 0.0008,
897
  "step": 2625
898
  },
899
  {
900
  "epoch": 17.666666666666668,
901
+ "grad_norm": 3724.34619140625,
902
+ "learning_rate": 3.344827586206897e-05,
903
+ "loss": 0.001,
904
  "step": 2650
905
  },
906
  {
907
  "epoch": 17.833333333333332,
908
+ "grad_norm": 16511.189453125,
909
+ "learning_rate": 3.327586206896552e-05,
910
+ "loss": 0.0009,
911
  "step": 2675
912
  },
913
  {
914
  "epoch": 18.0,
915
+ "grad_norm": 13546.2470703125,
916
+ "learning_rate": 3.310344827586207e-05,
917
+ "loss": 0.0008,
918
  "step": 2700
919
  },
920
  {
921
  "epoch": 18.0,
922
+ "eval_loss": 0.00547071872279048,
923
+ "eval_rmse": 0.07396430522203445,
924
+ "eval_runtime": 24.3255,
925
+ "eval_samples_per_second": 34.778,
926
+ "eval_steps_per_second": 1.11,
927
  "step": 2700
928
  },
929
  {
930
  "epoch": 18.166666666666668,
931
+ "grad_norm": 9512.2578125,
932
+ "learning_rate": 3.293103448275862e-05,
933
+ "loss": 0.0008,
934
  "step": 2725
935
  },
936
  {
937
  "epoch": 18.333333333333332,
938
+ "grad_norm": 6799.78662109375,
939
+ "learning_rate": 3.275862068965517e-05,
940
+ "loss": 0.0008,
941
  "step": 2750
942
  },
943
  {
944
  "epoch": 18.5,
945
+ "grad_norm": 3044.78662109375,
946
+ "learning_rate": 3.2586206896551726e-05,
947
+ "loss": 0.0007,
948
  "step": 2775
949
  },
950
  {
951
  "epoch": 18.666666666666668,
952
+ "grad_norm": 13546.1982421875,
953
+ "learning_rate": 3.2413793103448275e-05,
954
+ "loss": 0.0007,
955
  "step": 2800
956
  },
957
  {
958
  "epoch": 18.833333333333332,
959
+ "grad_norm": 12045.7158203125,
960
+ "learning_rate": 3.2241379310344824e-05,
961
+ "loss": 0.0007,
962
  "step": 2825
963
  },
964
  {
965
  "epoch": 19.0,
966
+ "grad_norm": 11820.66015625,
967
+ "learning_rate": 3.206896551724138e-05,
968
+ "loss": 0.0007,
969
  "step": 2850
970
  },
971
  {
972
  "epoch": 19.0,
973
+ "eval_loss": 0.005731063894927502,
974
+ "eval_rmse": 0.07570379227399826,
975
+ "eval_runtime": 24.3718,
976
+ "eval_samples_per_second": 34.712,
977
+ "eval_steps_per_second": 1.108,
978
  "step": 2850
979
  },
980
  {
981
  "epoch": 19.166666666666668,
982
+ "grad_norm": 4663.9130859375,
983
+ "learning_rate": 3.1896551724137935e-05,
984
+ "loss": 0.0007,
985
  "step": 2875
986
  },
987
  {
988
  "epoch": 19.333333333333332,
989
+ "grad_norm": 1934.84619140625,
990
+ "learning_rate": 3.172413793103448e-05,
991
+ "loss": 0.0007,
992
  "step": 2900
993
  },
994
  {
995
  "epoch": 19.5,
996
+ "grad_norm": 6919.31982421875,
997
+ "learning_rate": 3.155172413793104e-05,
998
+ "loss": 0.0007,
999
  "step": 2925
1000
  },
1001
  {
1002
  "epoch": 19.666666666666668,
1003
+ "grad_norm": 6109.6171875,
1004
+ "learning_rate": 3.137931034482759e-05,
1005
+ "loss": 0.0007,
1006
  "step": 2950
1007
  },
1008
  {
1009
  "epoch": 19.833333333333332,
1010
+ "grad_norm": 5411.876953125,
1011
+ "learning_rate": 3.120689655172414e-05,
1012
+ "loss": 0.0006,
1013
  "step": 2975
1014
  },
1015
  {
1016
  "epoch": 20.0,
1017
+ "grad_norm": 11151.029296875,
1018
+ "learning_rate": 3.103448275862069e-05,
1019
+ "loss": 0.0007,
1020
  "step": 3000
1021
  },
1022
  {
1023
  "epoch": 20.0,
1024
+ "eval_loss": 0.005564698483794928,
1025
+ "eval_rmse": 0.07459690421819687,
1026
+ "eval_runtime": 24.4791,
1027
+ "eval_samples_per_second": 34.56,
1028
+ "eval_steps_per_second": 1.103,
1029
  "step": 3000
1030
  },
1031
  {
1032
+ "epoch": 20.166666666666668,
1033
+ "grad_norm": 6611.220703125,
1034
+ "learning_rate": 3.086206896551724e-05,
1035
+ "loss": 0.0007,
1036
+ "step": 3025
1037
+ },
1038
+ {
1039
+ "epoch": 20.333333333333332,
1040
+ "grad_norm": 2534.669921875,
1041
+ "learning_rate": 3.0689655172413796e-05,
1042
+ "loss": 0.0008,
1043
+ "step": 3050
1044
+ },
1045
+ {
1046
+ "epoch": 20.5,
1047
+ "grad_norm": 4288.451171875,
1048
+ "learning_rate": 3.0517241379310348e-05,
1049
+ "loss": 0.0007,
1050
+ "step": 3075
1051
+ },
1052
+ {
1053
+ "epoch": 20.666666666666668,
1054
+ "grad_norm": 6255.359375,
1055
+ "learning_rate": 3.0344827586206897e-05,
1056
+ "loss": 0.0006,
1057
+ "step": 3100
1058
+ },
1059
+ {
1060
+ "epoch": 20.833333333333332,
1061
+ "grad_norm": 4882.11328125,
1062
+ "learning_rate": 3.017241379310345e-05,
1063
+ "loss": 0.0006,
1064
+ "step": 3125
1065
+ },
1066
+ {
1067
+ "epoch": 21.0,
1068
+ "grad_norm": 2612.861083984375,
1069
+ "learning_rate": 3e-05,
1070
+ "loss": 0.0006,
1071
+ "step": 3150
1072
+ },
1073
+ {
1074
+ "epoch": 21.0,
1075
+ "eval_loss": 0.005460184533149004,
1076
+ "eval_rmse": 0.07389306277036667,
1077
+ "eval_runtime": 24.709,
1078
+ "eval_samples_per_second": 34.239,
1079
+ "eval_steps_per_second": 1.093,
1080
+ "step": 3150
1081
+ },
1082
+ {
1083
+ "epoch": 21.166666666666668,
1084
+ "grad_norm": 13961.8076171875,
1085
+ "learning_rate": 2.9827586206896553e-05,
1086
+ "loss": 0.0007,
1087
+ "step": 3175
1088
+ },
1089
+ {
1090
+ "epoch": 21.333333333333332,
1091
+ "grad_norm": 10601.8212890625,
1092
+ "learning_rate": 2.96551724137931e-05,
1093
+ "loss": 0.0007,
1094
+ "step": 3200
1095
+ },
1096
+ {
1097
+ "epoch": 21.5,
1098
+ "grad_norm": 8989.919921875,
1099
+ "learning_rate": 2.9482758620689654e-05,
1100
+ "loss": 0.0007,
1101
+ "step": 3225
1102
+ },
1103
+ {
1104
+ "epoch": 21.666666666666668,
1105
+ "grad_norm": 2415.768310546875,
1106
+ "learning_rate": 2.9310344827586206e-05,
1107
+ "loss": 0.0006,
1108
+ "step": 3250
1109
+ },
1110
+ {
1111
+ "epoch": 21.833333333333332,
1112
+ "grad_norm": 4838.57666015625,
1113
+ "learning_rate": 2.913793103448276e-05,
1114
+ "loss": 0.0005,
1115
+ "step": 3275
1116
+ },
1117
+ {
1118
+ "epoch": 22.0,
1119
+ "grad_norm": 8728.1083984375,
1120
+ "learning_rate": 2.8965517241379313e-05,
1121
+ "loss": 0.0005,
1122
+ "step": 3300
1123
+ },
1124
+ {
1125
+ "epoch": 22.0,
1126
+ "eval_loss": 0.005140391178429127,
1127
+ "eval_rmse": 0.07169651985168457,
1128
+ "eval_runtime": 24.1883,
1129
+ "eval_samples_per_second": 34.976,
1130
+ "eval_steps_per_second": 1.116,
1131
+ "step": 3300
1132
+ },
1133
+ {
1134
+ "epoch": 22.166666666666668,
1135
+ "grad_norm": 14058.439453125,
1136
+ "learning_rate": 2.8793103448275865e-05,
1137
+ "loss": 0.0006,
1138
+ "step": 3325
1139
+ },
1140
+ {
1141
+ "epoch": 22.333333333333332,
1142
+ "grad_norm": 3426.945068359375,
1143
+ "learning_rate": 2.8620689655172417e-05,
1144
+ "loss": 0.0007,
1145
+ "step": 3350
1146
+ },
1147
+ {
1148
+ "epoch": 22.5,
1149
+ "grad_norm": 4576.7431640625,
1150
+ "learning_rate": 2.844827586206897e-05,
1151
+ "loss": 0.0005,
1152
+ "step": 3375
1153
+ },
1154
+ {
1155
+ "epoch": 22.666666666666668,
1156
+ "grad_norm": 2808.37744140625,
1157
+ "learning_rate": 2.8275862068965518e-05,
1158
+ "loss": 0.0005,
1159
+ "step": 3400
1160
+ },
1161
+ {
1162
+ "epoch": 22.833333333333332,
1163
+ "grad_norm": 9870.7392578125,
1164
+ "learning_rate": 2.810344827586207e-05,
1165
+ "loss": 0.0006,
1166
+ "step": 3425
1167
+ },
1168
+ {
1169
+ "epoch": 23.0,
1170
+ "grad_norm": 12436.296875,
1171
+ "learning_rate": 2.7931034482758622e-05,
1172
+ "loss": 0.0006,
1173
+ "step": 3450
1174
+ },
1175
+ {
1176
+ "epoch": 23.0,
1177
+ "eval_loss": 0.005283581558614969,
1178
+ "eval_rmse": 0.0726882591843605,
1179
+ "eval_runtime": 24.0792,
1180
+ "eval_samples_per_second": 35.134,
1181
+ "eval_steps_per_second": 1.121,
1182
+ "step": 3450
1183
+ },
1184
+ {
1185
+ "epoch": 23.166666666666668,
1186
+ "grad_norm": 2277.886962890625,
1187
+ "learning_rate": 2.7758620689655175e-05,
1188
+ "loss": 0.0006,
1189
+ "step": 3475
1190
+ },
1191
+ {
1192
+ "epoch": 23.333333333333332,
1193
+ "grad_norm": 12487.025390625,
1194
+ "learning_rate": 2.7586206896551727e-05,
1195
+ "loss": 0.0006,
1196
+ "step": 3500
1197
+ },
1198
+ {
1199
+ "epoch": 23.5,
1200
+ "grad_norm": 13577.09375,
1201
+ "learning_rate": 2.7413793103448275e-05,
1202
+ "loss": 0.0006,
1203
+ "step": 3525
1204
+ },
1205
+ {
1206
+ "epoch": 23.666666666666668,
1207
+ "grad_norm": 13655.8271484375,
1208
+ "learning_rate": 2.7241379310344827e-05,
1209
+ "loss": 0.0005,
1210
+ "step": 3550
1211
+ },
1212
+ {
1213
+ "epoch": 23.833333333333332,
1214
+ "grad_norm": 2765.83056640625,
1215
+ "learning_rate": 2.706896551724138e-05,
1216
+ "loss": 0.0005,
1217
+ "step": 3575
1218
+ },
1219
+ {
1220
+ "epoch": 24.0,
1221
+ "grad_norm": 3158.755126953125,
1222
+ "learning_rate": 2.689655172413793e-05,
1223
+ "loss": 0.0005,
1224
+ "step": 3600
1225
+ },
1226
+ {
1227
+ "epoch": 24.0,
1228
+ "eval_loss": 0.005190260708332062,
1229
+ "eval_rmse": 0.07204346358776093,
1230
+ "eval_runtime": 24.5397,
1231
+ "eval_samples_per_second": 34.475,
1232
+ "eval_steps_per_second": 1.1,
1233
+ "step": 3600
1234
+ },
1235
+ {
1236
+ "epoch": 24.166666666666668,
1237
+ "grad_norm": 7158.42578125,
1238
+ "learning_rate": 2.672413793103448e-05,
1239
+ "loss": 0.0005,
1240
+ "step": 3625
1241
+ },
1242
+ {
1243
+ "epoch": 24.333333333333332,
1244
+ "grad_norm": 14029.6904296875,
1245
+ "learning_rate": 2.6551724137931032e-05,
1246
+ "loss": 0.0006,
1247
+ "step": 3650
1248
+ },
1249
+ {
1250
+ "epoch": 24.5,
1251
+ "grad_norm": 5185.93408203125,
1252
+ "learning_rate": 2.637931034482759e-05,
1253
+ "loss": 0.0005,
1254
+ "step": 3675
1255
+ },
1256
+ {
1257
+ "epoch": 24.666666666666668,
1258
+ "grad_norm": 4489.02294921875,
1259
+ "learning_rate": 2.620689655172414e-05,
1260
+ "loss": 0.0006,
1261
+ "step": 3700
1262
+ },
1263
+ {
1264
+ "epoch": 24.833333333333332,
1265
+ "grad_norm": 1894.82666015625,
1266
+ "learning_rate": 2.6034482758620692e-05,
1267
+ "loss": 0.0007,
1268
+ "step": 3725
1269
+ },
1270
+ {
1271
+ "epoch": 25.0,
1272
+ "grad_norm": 6927.84716796875,
1273
+ "learning_rate": 2.5862068965517244e-05,
1274
+ "loss": 0.0006,
1275
+ "step": 3750
1276
+ },
1277
+ {
1278
+ "epoch": 25.0,
1279
+ "eval_loss": 0.005490241106599569,
1280
+ "eval_rmse": 0.07409615814685822,
1281
+ "eval_runtime": 24.2263,
1282
+ "eval_samples_per_second": 34.921,
1283
+ "eval_steps_per_second": 1.114,
1284
+ "step": 3750
1285
+ },
1286
+ {
1287
+ "epoch": 25.166666666666668,
1288
+ "grad_norm": 2080.053955078125,
1289
+ "learning_rate": 2.5689655172413796e-05,
1290
+ "loss": 0.0005,
1291
+ "step": 3775
1292
+ },
1293
+ {
1294
+ "epoch": 25.333333333333332,
1295
+ "grad_norm": 7075.02685546875,
1296
+ "learning_rate": 2.551724137931035e-05,
1297
+ "loss": 0.0006,
1298
+ "step": 3800
1299
+ },
1300
+ {
1301
+ "epoch": 25.5,
1302
+ "grad_norm": 10757.322265625,
1303
+ "learning_rate": 2.5344827586206897e-05,
1304
+ "loss": 0.0006,
1305
+ "step": 3825
1306
+ },
1307
+ {
1308
+ "epoch": 25.666666666666668,
1309
+ "grad_norm": 9014.060546875,
1310
+ "learning_rate": 2.517241379310345e-05,
1311
+ "loss": 0.0006,
1312
+ "step": 3850
1313
+ },
1314
+ {
1315
+ "epoch": 25.833333333333332,
1316
+ "grad_norm": 2507.72998046875,
1317
+ "learning_rate": 2.5e-05,
1318
+ "loss": 0.0004,
1319
+ "step": 3875
1320
+ },
1321
+ {
1322
+ "epoch": 26.0,
1323
+ "grad_norm": 9365.7626953125,
1324
+ "learning_rate": 2.4827586206896553e-05,
1325
+ "loss": 0.0005,
1326
+ "step": 3900
1327
+ },
1328
+ {
1329
+ "epoch": 26.0,
1330
+ "eval_loss": 0.005092009902000427,
1331
+ "eval_rmse": 0.07135831564664841,
1332
+ "eval_runtime": 24.0941,
1333
+ "eval_samples_per_second": 35.112,
1334
+ "eval_steps_per_second": 1.121,
1335
+ "step": 3900
1336
+ },
1337
+ {
1338
+ "epoch": 26.166666666666668,
1339
+ "grad_norm": 8156.84814453125,
1340
+ "learning_rate": 2.4655172413793105e-05,
1341
+ "loss": 0.0005,
1342
+ "step": 3925
1343
+ },
1344
+ {
1345
+ "epoch": 26.333333333333332,
1346
+ "grad_norm": 6262.81396484375,
1347
+ "learning_rate": 2.4482758620689654e-05,
1348
+ "loss": 0.0005,
1349
+ "step": 3950
1350
+ },
1351
+ {
1352
+ "epoch": 26.5,
1353
+ "grad_norm": 4787.65771484375,
1354
+ "learning_rate": 2.4310344827586206e-05,
1355
+ "loss": 0.0005,
1356
+ "step": 3975
1357
+ },
1358
+ {
1359
+ "epoch": 26.666666666666668,
1360
+ "grad_norm": 7484.62939453125,
1361
+ "learning_rate": 2.413793103448276e-05,
1362
+ "loss": 0.0005,
1363
+ "step": 4000
1364
+ },
1365
+ {
1366
+ "epoch": 26.833333333333332,
1367
+ "grad_norm": 10509.4423828125,
1368
+ "learning_rate": 2.3965517241379314e-05,
1369
+ "loss": 0.0005,
1370
+ "step": 4025
1371
+ },
1372
+ {
1373
+ "epoch": 27.0,
1374
+ "grad_norm": 11441.84765625,
1375
+ "learning_rate": 2.3793103448275862e-05,
1376
+ "loss": 0.0005,
1377
+ "step": 4050
1378
+ },
1379
+ {
1380
+ "epoch": 27.0,
1381
+ "eval_loss": 0.005185635760426521,
1382
+ "eval_rmse": 0.07201135903596878,
1383
+ "eval_runtime": 24.5085,
1384
+ "eval_samples_per_second": 34.519,
1385
+ "eval_steps_per_second": 1.102,
1386
+ "step": 4050
1387
+ },
1388
+ {
1389
+ "epoch": 27.166666666666668,
1390
+ "grad_norm": 12403.2705078125,
1391
+ "learning_rate": 2.3620689655172415e-05,
1392
+ "loss": 0.0005,
1393
+ "step": 4075
1394
+ },
1395
+ {
1396
+ "epoch": 27.333333333333332,
1397
+ "grad_norm": 6164.29541015625,
1398
+ "learning_rate": 2.3448275862068967e-05,
1399
+ "loss": 0.0005,
1400
+ "step": 4100
1401
+ },
1402
+ {
1403
+ "epoch": 27.5,
1404
+ "grad_norm": 10556.6201171875,
1405
+ "learning_rate": 2.327586206896552e-05,
1406
+ "loss": 0.0004,
1407
+ "step": 4125
1408
+ },
1409
+ {
1410
+ "epoch": 27.666666666666668,
1411
+ "grad_norm": 5694.11572265625,
1412
+ "learning_rate": 2.3103448275862067e-05,
1413
+ "loss": 0.0005,
1414
+ "step": 4150
1415
+ },
1416
+ {
1417
+ "epoch": 27.833333333333332,
1418
+ "grad_norm": 7944.47216796875,
1419
+ "learning_rate": 2.293103448275862e-05,
1420
+ "loss": 0.0005,
1421
+ "step": 4175
1422
+ },
1423
+ {
1424
+ "epoch": 28.0,
1425
+ "grad_norm": 11066.5947265625,
1426
+ "learning_rate": 2.2758620689655175e-05,
1427
+ "loss": 0.0005,
1428
+ "step": 4200
1429
+ },
1430
+ {
1431
+ "epoch": 28.0,
1432
+ "eval_loss": 0.005251267924904823,
1433
+ "eval_rmse": 0.07246563583612442,
1434
+ "eval_runtime": 25.0299,
1435
+ "eval_samples_per_second": 33.8,
1436
+ "eval_steps_per_second": 1.079,
1437
+ "step": 4200
1438
+ },
1439
+ {
1440
+ "epoch": 28.166666666666668,
1441
+ "grad_norm": 7138.5908203125,
1442
+ "learning_rate": 2.2586206896551727e-05,
1443
+ "loss": 0.0005,
1444
+ "step": 4225
1445
+ },
1446
+ {
1447
+ "epoch": 28.333333333333332,
1448
+ "grad_norm": 7910.48193359375,
1449
+ "learning_rate": 2.2413793103448276e-05,
1450
+ "loss": 0.0004,
1451
+ "step": 4250
1452
+ },
1453
+ {
1454
+ "epoch": 28.5,
1455
+ "grad_norm": 6678.46142578125,
1456
+ "learning_rate": 2.2241379310344828e-05,
1457
+ "loss": 0.0005,
1458
+ "step": 4275
1459
+ },
1460
+ {
1461
+ "epoch": 28.666666666666668,
1462
+ "grad_norm": 2658.396484375,
1463
+ "learning_rate": 2.206896551724138e-05,
1464
+ "loss": 0.0004,
1465
+ "step": 4300
1466
+ },
1467
+ {
1468
+ "epoch": 28.833333333333332,
1469
+ "grad_norm": 7415.6455078125,
1470
+ "learning_rate": 2.1896551724137932e-05,
1471
+ "loss": 0.0003,
1472
+ "step": 4325
1473
+ },
1474
+ {
1475
+ "epoch": 29.0,
1476
+ "grad_norm": 4360.8212890625,
1477
+ "learning_rate": 2.1724137931034484e-05,
1478
+ "loss": 0.0003,
1479
+ "step": 4350
1480
+ },
1481
+ {
1482
+ "epoch": 29.0,
1483
+ "eval_loss": 0.005068263970315456,
1484
+ "eval_rmse": 0.07119174301624298,
1485
+ "eval_runtime": 23.6937,
1486
+ "eval_samples_per_second": 35.706,
1487
+ "eval_steps_per_second": 1.14,
1488
+ "step": 4350
1489
+ },
1490
+ {
1491
+ "epoch": 29.166666666666668,
1492
+ "grad_norm": 9353.43359375,
1493
+ "learning_rate": 2.1551724137931033e-05,
1494
+ "loss": 0.0003,
1495
+ "step": 4375
1496
+ },
1497
+ {
1498
+ "epoch": 29.333333333333332,
1499
+ "grad_norm": 6008.50390625,
1500
+ "learning_rate": 2.137931034482759e-05,
1501
+ "loss": 0.0004,
1502
+ "step": 4400
1503
+ },
1504
+ {
1505
+ "epoch": 29.5,
1506
+ "grad_norm": 5255.45458984375,
1507
+ "learning_rate": 2.120689655172414e-05,
1508
+ "loss": 0.0003,
1509
+ "step": 4425
1510
+ },
1511
+ {
1512
+ "epoch": 29.666666666666668,
1513
+ "grad_norm": 8044.0888671875,
1514
+ "learning_rate": 2.1034482758620692e-05,
1515
+ "loss": 0.0004,
1516
+ "step": 4450
1517
+ },
1518
+ {
1519
+ "epoch": 29.833333333333332,
1520
+ "grad_norm": 1686.931640625,
1521
+ "learning_rate": 2.086206896551724e-05,
1522
+ "loss": 0.0004,
1523
+ "step": 4475
1524
+ },
1525
+ {
1526
+ "epoch": 30.0,
1527
+ "grad_norm": 2483.55419921875,
1528
+ "learning_rate": 2.0689655172413793e-05,
1529
+ "loss": 0.0004,
1530
+ "step": 4500
1531
+ },
1532
+ {
1533
+ "epoch": 30.0,
1534
+ "eval_loss": 0.0051447427831590176,
1535
+ "eval_rmse": 0.07172686606645584,
1536
+ "eval_runtime": 24.8197,
1537
+ "eval_samples_per_second": 34.086,
1538
+ "eval_steps_per_second": 1.088,
1539
+ "step": 4500
1540
+ },
1541
+ {
1542
+ "epoch": 30.166666666666668,
1543
+ "grad_norm": 4986.66552734375,
1544
+ "learning_rate": 2.0517241379310345e-05,
1545
+ "loss": 0.0004,
1546
+ "step": 4525
1547
+ },
1548
+ {
1549
+ "epoch": 30.333333333333332,
1550
+ "grad_norm": 4183.8564453125,
1551
+ "learning_rate": 2.0344827586206897e-05,
1552
+ "loss": 0.0004,
1553
+ "step": 4550
1554
+ },
1555
+ {
1556
+ "epoch": 30.5,
1557
+ "grad_norm": 4985.001953125,
1558
+ "learning_rate": 2.017241379310345e-05,
1559
+ "loss": 0.0003,
1560
+ "step": 4575
1561
+ },
1562
+ {
1563
+ "epoch": 30.666666666666668,
1564
+ "grad_norm": 4720.66455078125,
1565
+ "learning_rate": 2e-05,
1566
+ "loss": 0.0004,
1567
+ "step": 4600
1568
+ },
1569
+ {
1570
+ "epoch": 30.833333333333332,
1571
+ "grad_norm": 2436.566650390625,
1572
+ "learning_rate": 1.9827586206896554e-05,
1573
+ "loss": 0.0004,
1574
+ "step": 4625
1575
+ },
1576
+ {
1577
+ "epoch": 31.0,
1578
+ "grad_norm": 5655.64306640625,
1579
+ "learning_rate": 1.9655172413793106e-05,
1580
+ "loss": 0.0004,
1581
+ "step": 4650
1582
+ },
1583
+ {
1584
+ "epoch": 31.0,
1585
+ "eval_loss": 0.005167735740542412,
1586
+ "eval_rmse": 0.07188696414232254,
1587
+ "eval_runtime": 23.808,
1588
+ "eval_samples_per_second": 35.534,
1589
+ "eval_steps_per_second": 1.134,
1590
+ "step": 4650
1591
+ },
1592
+ {
1593
+ "epoch": 31.166666666666668,
1594
+ "grad_norm": 6381.2216796875,
1595
+ "learning_rate": 1.9482758620689655e-05,
1596
+ "loss": 0.0005,
1597
+ "step": 4675
1598
+ },
1599
+ {
1600
+ "epoch": 31.333333333333332,
1601
+ "grad_norm": 4444.06787109375,
1602
+ "learning_rate": 1.9310344827586207e-05,
1603
+ "loss": 0.0004,
1604
+ "step": 4700
1605
+ },
1606
+ {
1607
+ "epoch": 31.5,
1608
+ "grad_norm": 4063.191650390625,
1609
+ "learning_rate": 1.913793103448276e-05,
1610
+ "loss": 0.0003,
1611
+ "step": 4725
1612
+ },
1613
+ {
1614
+ "epoch": 31.666666666666668,
1615
+ "grad_norm": 2023.14794921875,
1616
+ "learning_rate": 1.896551724137931e-05,
1617
+ "loss": 0.0004,
1618
+ "step": 4750
1619
+ },
1620
+ {
1621
+ "epoch": 31.833333333333332,
1622
+ "grad_norm": 7719.87353515625,
1623
+ "learning_rate": 1.8793103448275863e-05,
1624
+ "loss": 0.0004,
1625
+ "step": 4775
1626
+ },
1627
+ {
1628
+ "epoch": 32.0,
1629
+ "grad_norm": 10876.1064453125,
1630
+ "learning_rate": 1.8620689655172415e-05,
1631
+ "loss": 0.0003,
1632
+ "step": 4800
1633
+ },
1634
+ {
1635
+ "epoch": 32.0,
1636
+ "eval_loss": 0.005189752671867609,
1637
+ "eval_rmse": 0.07203993201255798,
1638
+ "eval_runtime": 24.4076,
1639
+ "eval_samples_per_second": 34.661,
1640
+ "eval_steps_per_second": 1.106,
1641
+ "step": 4800
1642
+ },
1643
+ {
1644
+ "epoch": 32.166666666666664,
1645
+ "grad_norm": 7112.66748046875,
1646
+ "learning_rate": 1.8448275862068967e-05,
1647
+ "loss": 0.0003,
1648
+ "step": 4825
1649
+ },
1650
+ {
1651
+ "epoch": 32.333333333333336,
1652
+ "grad_norm": 3561.666259765625,
1653
+ "learning_rate": 1.827586206896552e-05,
1654
+ "loss": 0.0003,
1655
+ "step": 4850
1656
+ },
1657
+ {
1658
+ "epoch": 32.5,
1659
+ "grad_norm": 4231.2265625,
1660
+ "learning_rate": 1.810344827586207e-05,
1661
+ "loss": 0.0003,
1662
+ "step": 4875
1663
+ },
1664
+ {
1665
+ "epoch": 32.666666666666664,
1666
+ "grad_norm": 3887.852294921875,
1667
+ "learning_rate": 1.793103448275862e-05,
1668
+ "loss": 0.0003,
1669
+ "step": 4900
1670
+ },
1671
+ {
1672
+ "epoch": 32.833333333333336,
1673
+ "grad_norm": 4729.369140625,
1674
+ "learning_rate": 1.7758620689655172e-05,
1675
+ "loss": 0.0003,
1676
+ "step": 4925
1677
+ },
1678
+ {
1679
+ "epoch": 33.0,
1680
+ "grad_norm": 12836.8896484375,
1681
+ "learning_rate": 1.7586206896551724e-05,
1682
+ "loss": 0.0003,
1683
+ "step": 4950
1684
+ },
1685
+ {
1686
+ "epoch": 33.0,
1687
+ "eval_loss": 0.00510548148304224,
1688
+ "eval_rmse": 0.07145265489816666,
1689
+ "eval_runtime": 24.6674,
1690
+ "eval_samples_per_second": 34.296,
1691
+ "eval_steps_per_second": 1.095,
1692
+ "step": 4950
1693
+ },
1694
+ {
1695
+ "epoch": 33.166666666666664,
1696
+ "grad_norm": 3480.9482421875,
1697
+ "learning_rate": 1.7413793103448276e-05,
1698
+ "loss": 0.0003,
1699
+ "step": 4975
1700
+ },
1701
+ {
1702
+ "epoch": 33.333333333333336,
1703
+ "grad_norm": 4718.3798828125,
1704
+ "learning_rate": 1.7241379310344828e-05,
1705
+ "loss": 0.0003,
1706
+ "step": 5000
1707
+ },
1708
+ {
1709
+ "epoch": 33.5,
1710
+ "grad_norm": 3190.914306640625,
1711
+ "learning_rate": 1.706896551724138e-05,
1712
+ "loss": 0.0003,
1713
+ "step": 5025
1714
+ },
1715
+ {
1716
+ "epoch": 33.666666666666664,
1717
+ "grad_norm": 5478.87158203125,
1718
+ "learning_rate": 1.6896551724137932e-05,
1719
+ "loss": 0.0004,
1720
+ "step": 5050
1721
+ },
1722
+ {
1723
+ "epoch": 33.833333333333336,
1724
+ "grad_norm": 5177.54931640625,
1725
+ "learning_rate": 1.6724137931034485e-05,
1726
+ "loss": 0.0003,
1727
+ "step": 5075
1728
+ },
1729
+ {
1730
+ "epoch": 34.0,
1731
+ "grad_norm": 10662.73046875,
1732
+ "learning_rate": 1.6551724137931037e-05,
1733
+ "loss": 0.0002,
1734
+ "step": 5100
1735
+ },
1736
+ {
1737
+ "epoch": 34.0,
1738
+ "eval_loss": 0.005342215299606323,
1739
+ "eval_rmse": 0.07309045642614365,
1740
+ "eval_runtime": 24.4257,
1741
+ "eval_samples_per_second": 34.636,
1742
+ "eval_steps_per_second": 1.105,
1743
+ "step": 5100
1744
+ },
1745
+ {
1746
+ "epoch": 34.166666666666664,
1747
+ "grad_norm": 2308.01123046875,
1748
+ "learning_rate": 1.6379310344827585e-05,
1749
+ "loss": 0.0003,
1750
+ "step": 5125
1751
+ },
1752
+ {
1753
+ "epoch": 34.333333333333336,
1754
+ "grad_norm": 2815.79638671875,
1755
+ "learning_rate": 1.6206896551724137e-05,
1756
+ "loss": 0.0003,
1757
+ "step": 5150
1758
+ },
1759
+ {
1760
+ "epoch": 34.5,
1761
+ "grad_norm": 4326.0478515625,
1762
+ "learning_rate": 1.603448275862069e-05,
1763
+ "loss": 0.0002,
1764
+ "step": 5175
1765
+ },
1766
+ {
1767
+ "epoch": 34.666666666666664,
1768
+ "grad_norm": 6309.9462890625,
1769
+ "learning_rate": 1.586206896551724e-05,
1770
+ "loss": 0.0003,
1771
+ "step": 5200
1772
+ },
1773
+ {
1774
+ "epoch": 34.833333333333336,
1775
+ "grad_norm": 1817.662353515625,
1776
+ "learning_rate": 1.5689655172413794e-05,
1777
+ "loss": 0.0002,
1778
+ "step": 5225
1779
+ },
1780
+ {
1781
+ "epoch": 35.0,
1782
+ "grad_norm": 3567.881103515625,
1783
+ "learning_rate": 1.5517241379310346e-05,
1784
+ "loss": 0.0003,
1785
+ "step": 5250
1786
+ },
1787
+ {
1788
+ "epoch": 35.0,
1789
+ "eval_loss": 0.005233472678810358,
1790
+ "eval_rmse": 0.07234274595975876,
1791
+ "eval_runtime": 24.1269,
1792
+ "eval_samples_per_second": 35.065,
1793
+ "eval_steps_per_second": 1.119,
1794
+ "step": 5250
1795
+ },
1796
+ {
1797
+ "epoch": 35.166666666666664,
1798
+ "grad_norm": 3930.6884765625,
1799
+ "learning_rate": 1.5344827586206898e-05,
1800
+ "loss": 0.0003,
1801
+ "step": 5275
1802
+ },
1803
+ {
1804
+ "epoch": 35.333333333333336,
1805
+ "grad_norm": 4008.536865234375,
1806
+ "learning_rate": 1.5172413793103448e-05,
1807
+ "loss": 0.0003,
1808
+ "step": 5300
1809
+ },
1810
+ {
1811
+ "epoch": 35.5,
1812
+ "grad_norm": 2320.7138671875,
1813
+ "learning_rate": 1.5e-05,
1814
+ "loss": 0.0003,
1815
+ "step": 5325
1816
+ },
1817
+ {
1818
+ "epoch": 35.666666666666664,
1819
+ "grad_norm": 5395.9560546875,
1820
+ "learning_rate": 1.482758620689655e-05,
1821
+ "loss": 0.0003,
1822
+ "step": 5350
1823
+ },
1824
+ {
1825
+ "epoch": 35.833333333333336,
1826
+ "grad_norm": 3271.279052734375,
1827
+ "learning_rate": 1.4655172413793103e-05,
1828
+ "loss": 0.0003,
1829
+ "step": 5375
1830
+ },
1831
+ {
1832
+ "epoch": 36.0,
1833
+ "grad_norm": 7306.166015625,
1834
+ "learning_rate": 1.4482758620689657e-05,
1835
+ "loss": 0.0002,
1836
+ "step": 5400
1837
+ },
1838
+ {
1839
+ "epoch": 36.0,
1840
+ "eval_loss": 0.005008559208363295,
1841
+ "eval_rmse": 0.07077117264270782,
1842
+ "eval_runtime": 23.9539,
1843
+ "eval_samples_per_second": 35.318,
1844
+ "eval_steps_per_second": 1.127,
1845
+ "step": 5400
1846
+ },
1847
+ {
1848
+ "epoch": 36.166666666666664,
1849
+ "grad_norm": 2410.515625,
1850
+ "learning_rate": 1.4310344827586209e-05,
1851
+ "loss": 0.0003,
1852
+ "step": 5425
1853
+ },
1854
+ {
1855
+ "epoch": 36.333333333333336,
1856
+ "grad_norm": 3116.67822265625,
1857
+ "learning_rate": 1.4137931034482759e-05,
1858
+ "loss": 0.0002,
1859
+ "step": 5450
1860
+ },
1861
+ {
1862
+ "epoch": 36.5,
1863
+ "grad_norm": 2509.718994140625,
1864
+ "learning_rate": 1.3965517241379311e-05,
1865
+ "loss": 0.0003,
1866
+ "step": 5475
1867
+ },
1868
+ {
1869
+ "epoch": 36.666666666666664,
1870
+ "grad_norm": 4319.36669921875,
1871
+ "learning_rate": 1.3793103448275863e-05,
1872
+ "loss": 0.0003,
1873
+ "step": 5500
1874
+ },
1875
+ {
1876
+ "epoch": 36.833333333333336,
1877
+ "grad_norm": 5166.88720703125,
1878
+ "learning_rate": 1.3620689655172414e-05,
1879
+ "loss": 0.0003,
1880
+ "step": 5525
1881
+ },
1882
+ {
1883
+ "epoch": 37.0,
1884
+ "grad_norm": 3035.32275390625,
1885
+ "learning_rate": 1.3448275862068966e-05,
1886
+ "loss": 0.0002,
1887
+ "step": 5550
1888
+ },
1889
+ {
1890
+ "epoch": 37.0,
1891
+ "eval_loss": 0.004944357089698315,
1892
+ "eval_rmse": 0.0703161209821701,
1893
+ "eval_runtime": 24.563,
1894
+ "eval_samples_per_second": 34.442,
1895
+ "eval_steps_per_second": 1.099,
1896
+ "step": 5550
1897
+ },
1898
+ {
1899
+ "epoch": 37.166666666666664,
1900
+ "grad_norm": 4661.7880859375,
1901
+ "learning_rate": 1.3275862068965516e-05,
1902
+ "loss": 0.0002,
1903
+ "step": 5575
1904
+ },
1905
+ {
1906
+ "epoch": 37.333333333333336,
1907
+ "grad_norm": 3572.86083984375,
1908
+ "learning_rate": 1.310344827586207e-05,
1909
+ "loss": 0.0002,
1910
+ "step": 5600
1911
+ },
1912
+ {
1913
+ "epoch": 37.5,
1914
+ "grad_norm": 2449.630126953125,
1915
+ "learning_rate": 1.2931034482758622e-05,
1916
+ "loss": 0.0002,
1917
+ "step": 5625
1918
+ },
1919
+ {
1920
+ "epoch": 37.666666666666664,
1921
+ "grad_norm": 7162.35400390625,
1922
+ "learning_rate": 1.2758620689655174e-05,
1923
+ "loss": 0.0002,
1924
+ "step": 5650
1925
+ },
1926
+ {
1927
+ "epoch": 37.833333333333336,
1928
+ "grad_norm": 7194.30908203125,
1929
+ "learning_rate": 1.2586206896551725e-05,
1930
+ "loss": 0.0002,
1931
+ "step": 5675
1932
+ },
1933
+ {
1934
+ "epoch": 38.0,
1935
+ "grad_norm": 3310.67236328125,
1936
+ "learning_rate": 1.2413793103448277e-05,
1937
+ "loss": 0.0002,
1938
+ "step": 5700
1939
+ },
1940
+ {
1941
+ "epoch": 38.0,
1942
+ "eval_loss": 0.005015978589653969,
1943
+ "eval_rmse": 0.07082357257604599,
1944
+ "eval_runtime": 24.649,
1945
+ "eval_samples_per_second": 34.322,
1946
+ "eval_steps_per_second": 1.095,
1947
+ "step": 5700
1948
+ },
1949
+ {
1950
+ "epoch": 38.166666666666664,
1951
+ "grad_norm": 4332.0615234375,
1952
+ "learning_rate": 1.2241379310344827e-05,
1953
+ "loss": 0.0002,
1954
+ "step": 5725
1955
+ },
1956
+ {
1957
+ "epoch": 38.333333333333336,
1958
+ "grad_norm": 4779.07568359375,
1959
+ "learning_rate": 1.206896551724138e-05,
1960
+ "loss": 0.0002,
1961
+ "step": 5750
1962
+ },
1963
+ {
1964
+ "epoch": 38.5,
1965
+ "grad_norm": 3394.655029296875,
1966
+ "learning_rate": 1.1896551724137931e-05,
1967
+ "loss": 0.0002,
1968
+ "step": 5775
1969
+ },
1970
+ {
1971
+ "epoch": 38.666666666666664,
1972
+ "grad_norm": 1213.259521484375,
1973
+ "learning_rate": 1.1724137931034483e-05,
1974
+ "loss": 0.0002,
1975
+ "step": 5800
1976
+ },
1977
+ {
1978
+ "epoch": 38.833333333333336,
1979
+ "grad_norm": 7526.7451171875,
1980
+ "learning_rate": 1.1551724137931034e-05,
1981
+ "loss": 0.0002,
1982
+ "step": 5825
1983
+ },
1984
+ {
1985
+ "epoch": 39.0,
1986
+ "grad_norm": 9150.9912109375,
1987
+ "learning_rate": 1.1379310344827587e-05,
1988
+ "loss": 0.0002,
1989
+ "step": 5850
1990
+ },
1991
+ {
1992
+ "epoch": 39.0,
1993
+ "eval_loss": 0.004906541667878628,
1994
+ "eval_rmse": 0.07004670798778534,
1995
+ "eval_runtime": 24.1426,
1996
+ "eval_samples_per_second": 35.042,
1997
+ "eval_steps_per_second": 1.118,
1998
+ "step": 5850
1999
+ },
2000
+ {
2001
+ "epoch": 39.166666666666664,
2002
+ "grad_norm": 5821.2470703125,
2003
+ "learning_rate": 1.1206896551724138e-05,
2004
+ "loss": 0.0002,
2005
+ "step": 5875
2006
+ },
2007
+ {
2008
+ "epoch": 39.333333333333336,
2009
+ "grad_norm": 4532.37890625,
2010
+ "learning_rate": 1.103448275862069e-05,
2011
+ "loss": 0.0002,
2012
+ "step": 5900
2013
+ },
2014
+ {
2015
+ "epoch": 39.5,
2016
+ "grad_norm": 5742.3427734375,
2017
+ "learning_rate": 1.0862068965517242e-05,
2018
+ "loss": 0.0002,
2019
+ "step": 5925
2020
+ },
2021
+ {
2022
+ "epoch": 39.666666666666664,
2023
+ "grad_norm": 1430.531005859375,
2024
+ "learning_rate": 1.0689655172413794e-05,
2025
+ "loss": 0.0002,
2026
+ "step": 5950
2027
+ },
2028
+ {
2029
+ "epoch": 39.833333333333336,
2030
+ "grad_norm": 4371.09765625,
2031
+ "learning_rate": 1.0517241379310346e-05,
2032
+ "loss": 0.0002,
2033
+ "step": 5975
2034
+ },
2035
+ {
2036
+ "epoch": 40.0,
2037
+ "grad_norm": 3642.697998046875,
2038
+ "learning_rate": 1.0344827586206897e-05,
2039
+ "loss": 0.0002,
2040
+ "step": 6000
2041
+ },
2042
+ {
2043
+ "epoch": 40.0,
2044
+ "eval_loss": 0.004872768651694059,
2045
+ "eval_rmse": 0.06980521976947784,
2046
+ "eval_runtime": 23.9307,
2047
+ "eval_samples_per_second": 35.352,
2048
+ "eval_steps_per_second": 1.128,
2049
+ "step": 6000
2050
+ },
2051
+ {
2052
+ "epoch": 40.166666666666664,
2053
+ "grad_norm": 5250.0,
2054
+ "learning_rate": 1.0172413793103449e-05,
2055
+ "loss": 0.0002,
2056
+ "step": 6025
2057
+ },
2058
+ {
2059
+ "epoch": 40.333333333333336,
2060
+ "grad_norm": 1985.86083984375,
2061
+ "learning_rate": 1e-05,
2062
+ "loss": 0.0002,
2063
+ "step": 6050
2064
+ },
2065
+ {
2066
+ "epoch": 40.5,
2067
+ "grad_norm": 4391.5673828125,
2068
+ "learning_rate": 9.827586206896553e-06,
2069
+ "loss": 0.0002,
2070
+ "step": 6075
2071
+ },
2072
+ {
2073
+ "epoch": 40.666666666666664,
2074
+ "grad_norm": 4576.029296875,
2075
+ "learning_rate": 9.655172413793103e-06,
2076
+ "loss": 0.0002,
2077
+ "step": 6100
2078
+ },
2079
+ {
2080
+ "epoch": 40.833333333333336,
2081
+ "grad_norm": 5284.35107421875,
2082
+ "learning_rate": 9.482758620689655e-06,
2083
+ "loss": 0.0002,
2084
+ "step": 6125
2085
+ },
2086
+ {
2087
+ "epoch": 41.0,
2088
+ "grad_norm": 3708.590576171875,
2089
+ "learning_rate": 9.310344827586207e-06,
2090
+ "loss": 0.0002,
2091
+ "step": 6150
2092
+ },
2093
+ {
2094
+ "epoch": 41.0,
2095
+ "eval_loss": 0.004881918430328369,
2096
+ "eval_rmse": 0.069870725274086,
2097
+ "eval_runtime": 24.6924,
2098
+ "eval_samples_per_second": 34.262,
2099
+ "eval_steps_per_second": 1.093,
2100
+ "step": 6150
2101
+ },
2102
+ {
2103
+ "epoch": 41.166666666666664,
2104
+ "grad_norm": 1864.5494384765625,
2105
+ "learning_rate": 9.13793103448276e-06,
2106
+ "loss": 0.0002,
2107
+ "step": 6175
2108
+ },
2109
+ {
2110
+ "epoch": 41.333333333333336,
2111
+ "grad_norm": 3076.697998046875,
2112
+ "learning_rate": 8.96551724137931e-06,
2113
+ "loss": 0.0002,
2114
+ "step": 6200
2115
+ },
2116
+ {
2117
+ "epoch": 41.5,
2118
+ "grad_norm": 2170.48486328125,
2119
+ "learning_rate": 8.793103448275862e-06,
2120
+ "loss": 0.0002,
2121
+ "step": 6225
2122
+ },
2123
+ {
2124
+ "epoch": 41.666666666666664,
2125
+ "grad_norm": 3419.19384765625,
2126
+ "learning_rate": 8.620689655172414e-06,
2127
+ "loss": 0.0002,
2128
+ "step": 6250
2129
+ },
2130
+ {
2131
+ "epoch": 41.833333333333336,
2132
+ "grad_norm": 5411.42236328125,
2133
+ "learning_rate": 8.448275862068966e-06,
2134
+ "loss": 0.0002,
2135
+ "step": 6275
2136
+ },
2137
+ {
2138
+ "epoch": 42.0,
2139
+ "grad_norm": 3653.36865234375,
2140
+ "learning_rate": 8.275862068965518e-06,
2141
+ "loss": 0.0002,
2142
+ "step": 6300
2143
+ },
2144
+ {
2145
+ "epoch": 42.0,
2146
+ "eval_loss": 0.004911797121167183,
2147
+ "eval_rmse": 0.07008421421051025,
2148
+ "eval_runtime": 24.3533,
2149
+ "eval_samples_per_second": 34.739,
2150
+ "eval_steps_per_second": 1.109,
2151
+ "step": 6300
2152
+ },
2153
+ {
2154
+ "epoch": 42.166666666666664,
2155
+ "grad_norm": 3295.633056640625,
2156
+ "learning_rate": 8.103448275862069e-06,
2157
+ "loss": 0.0001,
2158
+ "step": 6325
2159
+ },
2160
+ {
2161
+ "epoch": 42.333333333333336,
2162
+ "grad_norm": 3717.45849609375,
2163
+ "learning_rate": 7.93103448275862e-06,
2164
+ "loss": 0.0002,
2165
+ "step": 6350
2166
+ },
2167
+ {
2168
+ "epoch": 42.5,
2169
+ "grad_norm": 2262.6142578125,
2170
+ "learning_rate": 7.758620689655173e-06,
2171
+ "loss": 0.0001,
2172
+ "step": 6375
2173
+ },
2174
+ {
2175
+ "epoch": 42.666666666666664,
2176
+ "grad_norm": 1310.09912109375,
2177
+ "learning_rate": 7.586206896551724e-06,
2178
+ "loss": 0.0002,
2179
+ "step": 6400
2180
+ },
2181
+ {
2182
+ "epoch": 42.833333333333336,
2183
+ "grad_norm": 3895.883544921875,
2184
+ "learning_rate": 7.413793103448275e-06,
2185
+ "loss": 0.0001,
2186
+ "step": 6425
2187
+ },
2188
+ {
2189
+ "epoch": 43.0,
2190
+ "grad_norm": 3741.710205078125,
2191
+ "learning_rate": 7.241379310344828e-06,
2192
+ "loss": 0.0001,
2193
+ "step": 6450
2194
+ },
2195
+ {
2196
+ "epoch": 43.0,
2197
+ "eval_loss": 0.0048644402995705605,
2198
+ "eval_rmse": 0.06974554061889648,
2199
+ "eval_runtime": 24.2068,
2200
+ "eval_samples_per_second": 34.949,
2201
+ "eval_steps_per_second": 1.115,
2202
+ "step": 6450
2203
+ },
2204
+ {
2205
+ "epoch": 43.166666666666664,
2206
+ "grad_norm": 1377.0496826171875,
2207
+ "learning_rate": 7.0689655172413796e-06,
2208
+ "loss": 0.0001,
2209
+ "step": 6475
2210
+ },
2211
+ {
2212
+ "epoch": 43.333333333333336,
2213
+ "grad_norm": 2979.349365234375,
2214
+ "learning_rate": 6.896551724137932e-06,
2215
+ "loss": 0.0001,
2216
+ "step": 6500
2217
+ },
2218
+ {
2219
+ "epoch": 43.5,
2220
+ "grad_norm": 1298.4322509765625,
2221
+ "learning_rate": 6.724137931034483e-06,
2222
+ "loss": 0.0001,
2223
+ "step": 6525
2224
+ },
2225
+ {
2226
+ "epoch": 43.666666666666664,
2227
+ "grad_norm": 2018.940673828125,
2228
+ "learning_rate": 6.551724137931035e-06,
2229
+ "loss": 0.0001,
2230
+ "step": 6550
2231
+ },
2232
+ {
2233
+ "epoch": 43.833333333333336,
2234
+ "grad_norm": 1853.4677734375,
2235
+ "learning_rate": 6.379310344827587e-06,
2236
+ "loss": 0.0002,
2237
+ "step": 6575
2238
+ },
2239
+ {
2240
+ "epoch": 44.0,
2241
+ "grad_norm": 7740.021484375,
2242
+ "learning_rate": 6.206896551724138e-06,
2243
+ "loss": 0.0002,
2244
+ "step": 6600
2245
+ },
2246
+ {
2247
+ "epoch": 44.0,
2248
+ "eval_loss": 0.004866042174398899,
2249
+ "eval_rmse": 0.06975702196359634,
2250
+ "eval_runtime": 24.1955,
2251
+ "eval_samples_per_second": 34.965,
2252
+ "eval_steps_per_second": 1.116,
2253
+ "step": 6600
2254
+ },
2255
+ {
2256
+ "epoch": 44.166666666666664,
2257
+ "grad_norm": 1772.85400390625,
2258
+ "learning_rate": 6.03448275862069e-06,
2259
+ "loss": 0.0001,
2260
+ "step": 6625
2261
+ },
2262
+ {
2263
+ "epoch": 44.333333333333336,
2264
+ "grad_norm": 2806.0537109375,
2265
+ "learning_rate": 5.862068965517242e-06,
2266
+ "loss": 0.0001,
2267
+ "step": 6650
2268
+ },
2269
+ {
2270
+ "epoch": 44.5,
2271
+ "grad_norm": 1677.330078125,
2272
+ "learning_rate": 5.689655172413794e-06,
2273
+ "loss": 0.0001,
2274
+ "step": 6675
2275
+ },
2276
+ {
2277
+ "epoch": 44.666666666666664,
2278
+ "grad_norm": 2859.73095703125,
2279
+ "learning_rate": 5.517241379310345e-06,
2280
+ "loss": 0.0001,
2281
+ "step": 6700
2282
+ },
2283
+ {
2284
+ "epoch": 44.833333333333336,
2285
+ "grad_norm": 2286.294921875,
2286
+ "learning_rate": 5.344827586206897e-06,
2287
+ "loss": 0.0001,
2288
+ "step": 6725
2289
+ },
2290
+ {
2291
+ "epoch": 45.0,
2292
+ "grad_norm": 2282.572021484375,
2293
+ "learning_rate": 5.172413793103448e-06,
2294
+ "loss": 0.0001,
2295
+ "step": 6750
2296
+ },
2297
+ {
2298
+ "epoch": 45.0,
2299
+ "eval_loss": 0.00484111625701189,
2300
+ "eval_rmse": 0.0695781260728836,
2301
+ "eval_runtime": 25.1872,
2302
+ "eval_samples_per_second": 33.589,
2303
+ "eval_steps_per_second": 1.072,
2304
+ "step": 6750
2305
+ },
2306
+ {
2307
+ "epoch": 45.166666666666664,
2308
+ "grad_norm": 1199.2476806640625,
2309
+ "learning_rate": 5e-06,
2310
+ "loss": 0.0001,
2311
+ "step": 6775
2312
+ },
2313
+ {
2314
+ "epoch": 45.333333333333336,
2315
+ "grad_norm": 4216.11572265625,
2316
+ "learning_rate": 4.827586206896552e-06,
2317
+ "loss": 0.0001,
2318
+ "step": 6800
2319
+ },
2320
+ {
2321
+ "epoch": 45.5,
2322
+ "grad_norm": 3172.265380859375,
2323
+ "learning_rate": 4.655172413793104e-06,
2324
+ "loss": 0.0001,
2325
+ "step": 6825
2326
+ },
2327
+ {
2328
+ "epoch": 45.666666666666664,
2329
+ "grad_norm": 2178.9580078125,
2330
+ "learning_rate": 4.482758620689655e-06,
2331
+ "loss": 0.0001,
2332
+ "step": 6850
2333
+ },
2334
+ {
2335
+ "epoch": 45.833333333333336,
2336
+ "grad_norm": 2676.595947265625,
2337
+ "learning_rate": 4.310344827586207e-06,
2338
+ "loss": 0.0001,
2339
+ "step": 6875
2340
+ },
2341
+ {
2342
+ "epoch": 46.0,
2343
+ "grad_norm": 2955.51806640625,
2344
+ "learning_rate": 4.137931034482759e-06,
2345
+ "loss": 0.0001,
2346
+ "step": 6900
2347
+ },
2348
+ {
2349
+ "epoch": 46.0,
2350
+ "eval_loss": 0.0047905659303069115,
2351
+ "eval_rmse": 0.06921391934156418,
2352
+ "eval_runtime": 24.7777,
2353
+ "eval_samples_per_second": 34.144,
2354
+ "eval_steps_per_second": 1.09,
2355
+ "step": 6900
2356
+ },
2357
+ {
2358
+ "epoch": 46.166666666666664,
2359
+ "grad_norm": 1705.5765380859375,
2360
+ "learning_rate": 3.96551724137931e-06,
2361
+ "loss": 0.0001,
2362
+ "step": 6925
2363
+ },
2364
+ {
2365
+ "epoch": 46.333333333333336,
2366
+ "grad_norm": 1702.0909423828125,
2367
+ "learning_rate": 3.793103448275862e-06,
2368
+ "loss": 0.0001,
2369
+ "step": 6950
2370
+ },
2371
+ {
2372
+ "epoch": 46.5,
2373
+ "grad_norm": 3313.3212890625,
2374
+ "learning_rate": 3.620689655172414e-06,
2375
+ "loss": 0.0001,
2376
+ "step": 6975
2377
+ },
2378
+ {
2379
+ "epoch": 46.666666666666664,
2380
+ "grad_norm": 2680.958251953125,
2381
+ "learning_rate": 3.448275862068966e-06,
2382
+ "loss": 0.0001,
2383
+ "step": 7000
2384
+ },
2385
+ {
2386
+ "epoch": 46.833333333333336,
2387
+ "grad_norm": 495.0559997558594,
2388
+ "learning_rate": 3.2758620689655175e-06,
2389
+ "loss": 0.0001,
2390
+ "step": 7025
2391
+ },
2392
+ {
2393
+ "epoch": 47.0,
2394
+ "grad_norm": 4104.341796875,
2395
+ "learning_rate": 3.103448275862069e-06,
2396
+ "loss": 0.0001,
2397
+ "step": 7050
2398
+ },
2399
+ {
2400
+ "epoch": 47.0,
2401
+ "eval_loss": 0.004818546585738659,
2402
+ "eval_rmse": 0.06941574811935425,
2403
+ "eval_runtime": 24.9976,
2404
+ "eval_samples_per_second": 33.843,
2405
+ "eval_steps_per_second": 1.08,
2406
+ "step": 7050
2407
+ },
2408
+ {
2409
+ "epoch": 47.166666666666664,
2410
+ "grad_norm": 1351.109130859375,
2411
+ "learning_rate": 2.931034482758621e-06,
2412
+ "loss": 0.0001,
2413
+ "step": 7075
2414
+ },
2415
+ {
2416
+ "epoch": 47.333333333333336,
2417
+ "grad_norm": 3643.360107421875,
2418
+ "learning_rate": 2.7586206896551725e-06,
2419
+ "loss": 0.0001,
2420
+ "step": 7100
2421
+ },
2422
+ {
2423
+ "epoch": 47.5,
2424
+ "grad_norm": 3840.823974609375,
2425
+ "learning_rate": 2.586206896551724e-06,
2426
+ "loss": 0.0001,
2427
+ "step": 7125
2428
+ },
2429
+ {
2430
+ "epoch": 47.666666666666664,
2431
+ "grad_norm": 605.887451171875,
2432
+ "learning_rate": 2.413793103448276e-06,
2433
+ "loss": 0.0001,
2434
+ "step": 7150
2435
+ },
2436
+ {
2437
+ "epoch": 47.833333333333336,
2438
+ "grad_norm": 3222.42822265625,
2439
+ "learning_rate": 2.2413793103448275e-06,
2440
+ "loss": 0.0001,
2441
+ "step": 7175
2442
+ },
2443
+ {
2444
+ "epoch": 48.0,
2445
+ "grad_norm": 2107.290283203125,
2446
+ "learning_rate": 2.0689655172413796e-06,
2447
+ "loss": 0.0001,
2448
+ "step": 7200
2449
+ },
2450
+ {
2451
+ "epoch": 48.0,
2452
+ "eval_loss": 0.004817850887775421,
2453
+ "eval_rmse": 0.06941074132919312,
2454
+ "eval_runtime": 24.6293,
2455
+ "eval_samples_per_second": 34.349,
2456
+ "eval_steps_per_second": 1.096,
2457
+ "step": 7200
2458
+ },
2459
+ {
2460
+ "epoch": 48.166666666666664,
2461
+ "grad_norm": 2339.809326171875,
2462
+ "learning_rate": 1.896551724137931e-06,
2463
+ "loss": 0.0001,
2464
+ "step": 7225
2465
+ },
2466
+ {
2467
+ "epoch": 48.333333333333336,
2468
+ "grad_norm": 1776.428466796875,
2469
+ "learning_rate": 1.724137931034483e-06,
2470
+ "loss": 0.0001,
2471
+ "step": 7250
2472
+ },
2473
+ {
2474
+ "epoch": 48.5,
2475
+ "grad_norm": 1188.1318359375,
2476
+ "learning_rate": 1.5517241379310346e-06,
2477
+ "loss": 0.0001,
2478
+ "step": 7275
2479
+ },
2480
+ {
2481
+ "epoch": 48.666666666666664,
2482
+ "grad_norm": 1058.152099609375,
2483
+ "learning_rate": 1.3793103448275862e-06,
2484
+ "loss": 0.0001,
2485
+ "step": 7300
2486
+ },
2487
+ {
2488
+ "epoch": 48.833333333333336,
2489
+ "grad_norm": 787.6583251953125,
2490
+ "learning_rate": 1.206896551724138e-06,
2491
+ "loss": 0.0001,
2492
+ "step": 7325
2493
+ },
2494
+ {
2495
+ "epoch": 49.0,
2496
+ "grad_norm": 2516.050048828125,
2497
+ "learning_rate": 1.0344827586206898e-06,
2498
+ "loss": 0.0001,
2499
+ "step": 7350
2500
+ },
2501
+ {
2502
+ "epoch": 49.0,
2503
+ "eval_loss": 0.004793087020516396,
2504
+ "eval_rmse": 0.06923212110996246,
2505
+ "eval_runtime": 24.0402,
2506
+ "eval_samples_per_second": 35.191,
2507
+ "eval_steps_per_second": 1.123,
2508
+ "step": 7350
2509
+ },
2510
+ {
2511
+ "epoch": 49.166666666666664,
2512
+ "grad_norm": 779.75244140625,
2513
+ "learning_rate": 8.620689655172415e-07,
2514
+ "loss": 0.0001,
2515
+ "step": 7375
2516
+ },
2517
+ {
2518
+ "epoch": 49.333333333333336,
2519
+ "grad_norm": 578.4296875,
2520
+ "learning_rate": 6.896551724137931e-07,
2521
+ "loss": 0.0001,
2522
+ "step": 7400
2523
+ },
2524
+ {
2525
+ "epoch": 49.5,
2526
+ "grad_norm": 2092.16259765625,
2527
+ "learning_rate": 5.172413793103449e-07,
2528
+ "loss": 0.0001,
2529
+ "step": 7425
2530
+ },
2531
+ {
2532
+ "epoch": 49.666666666666664,
2533
+ "grad_norm": 1592.06787109375,
2534
+ "learning_rate": 3.4482758620689656e-07,
2535
+ "loss": 0.0001,
2536
+ "step": 7450
2537
+ },
2538
+ {
2539
+ "epoch": 49.833333333333336,
2540
+ "grad_norm": 2670.34326171875,
2541
+ "learning_rate": 1.7241379310344828e-07,
2542
+ "loss": 0.0001,
2543
+ "step": 7475
2544
+ },
2545
+ {
2546
+ "epoch": 50.0,
2547
+ "grad_norm": 914.4434204101562,
2548
+ "learning_rate": 0.0,
2549
+ "loss": 0.0001,
2550
+ "step": 7500
2551
+ },
2552
+ {
2553
+ "epoch": 50.0,
2554
+ "eval_loss": 0.004804946947842836,
2555
+ "eval_rmse": 0.06931772083044052,
2556
+ "eval_runtime": 24.8499,
2557
+ "eval_samples_per_second": 34.044,
2558
+ "eval_steps_per_second": 1.087,
2559
+ "step": 7500
2560
+ },
2561
+ {
2562
+ "epoch": 50.0,
2563
+ "step": 7500,
2564
  "total_flos": 0.0,
2565
+ "train_loss": 0.0016370025988823424,
2566
+ "train_runtime": 16468.788,
2567
+ "train_samples_per_second": 14.537,
2568
+ "train_steps_per_second": 0.455
2569
  }
2570
  ],
2571
  "logging_steps": 25,
2572
+ "max_steps": 7500,
2573
  "num_input_tokens_seen": 0,
2574
+ "num_train_epochs": 50,
2575
  "save_steps": 500,
2576
  "stateful_callbacks": {
2577
  "TrainerControl": {