ljttw commited on
Commit
964d75d
·
verified ·
1 Parent(s): de67498

Model save

Browse files
Files changed (3) hide show
  1. all_results.json +4 -4
  2. train_results.json +4 -4
  3. trainer_state.json +507 -507
all_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "epoch": 2.9987959060806744,
3
  "total_flos": 4.152545054111269e+19,
4
- "train_loss": 0.05819672941988573,
5
- "train_runtime": 6053.7503,
6
- "train_samples_per_second": 52.671,
7
- "train_steps_per_second": 0.411
8
  }
 
1
  {
2
  "epoch": 2.9987959060806744,
3
  "total_flos": 4.152545054111269e+19,
4
+ "train_loss": 0.0599212793472511,
5
+ "train_runtime": 7516.3059,
6
+ "train_samples_per_second": 42.422,
7
+ "train_steps_per_second": 0.331
8
  }
train_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "epoch": 2.9987959060806744,
3
  "total_flos": 4.152545054111269e+19,
4
- "train_loss": 0.05819672941988573,
5
- "train_runtime": 6053.7503,
6
- "train_samples_per_second": 52.671,
7
- "train_steps_per_second": 0.411
8
  }
 
1
  {
2
  "epoch": 2.9987959060806744,
3
  "total_flos": 4.152545054111269e+19,
4
+ "train_loss": 0.0599212793472511,
5
+ "train_runtime": 7516.3059,
6
+ "train_samples_per_second": 42.422,
7
+ "train_steps_per_second": 0.331
8
  }
trainer_state.json CHANGED
@@ -1,5 +1,5 @@
1
  {
2
- "best_metric": 0.9948107465549906,
3
  "best_model_checkpoint": "convnext-base-224-finetuned-eurosat/checkpoint-2490",
4
  "epoch": 2.9987959060806744,
5
  "eval_steps": 500,
@@ -10,1782 +10,1782 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.012040939193257074,
13
- "grad_norm": 14.643075942993164,
14
  "learning_rate": 2.0080321285140564e-06,
15
- "loss": 1.4308,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.024081878386514148,
20
- "grad_norm": 13.680133819580078,
21
  "learning_rate": 4.016064257028113e-06,
22
- "loss": 1.3994,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.036122817579771226,
27
- "grad_norm": 19.79886817932129,
28
  "learning_rate": 6.024096385542169e-06,
29
- "loss": 1.338,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.048163756773028296,
34
- "grad_norm": 16.858301162719727,
35
  "learning_rate": 8.032128514056226e-06,
36
- "loss": 1.2521,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.060204695966285374,
41
- "grad_norm": 13.908726692199707,
42
  "learning_rate": 1.0040160642570281e-05,
43
- "loss": 1.1221,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.07224563515954245,
48
- "grad_norm": 21.977474212646484,
49
  "learning_rate": 1.2048192771084338e-05,
50
- "loss": 0.9512,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.08428657435279951,
55
- "grad_norm": 17.320178985595703,
56
  "learning_rate": 1.4056224899598394e-05,
57
- "loss": 0.7717,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.09632751354605659,
62
- "grad_norm": 12.808456420898438,
63
  "learning_rate": 1.606425702811245e-05,
64
- "loss": 0.597,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.10836845273931367,
69
- "grad_norm": 12.416606903076172,
70
  "learning_rate": 1.8072289156626505e-05,
71
- "loss": 0.4373,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.12040939193257075,
76
- "grad_norm": 11.89809513092041,
77
  "learning_rate": 2.0080321285140562e-05,
78
- "loss": 0.347,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.13245033112582782,
83
- "grad_norm": 20.761890411376953,
84
  "learning_rate": 2.208835341365462e-05,
85
- "loss": 0.2527,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.1444912703190849,
90
- "grad_norm": 26.88390350341797,
91
  "learning_rate": 2.4096385542168677e-05,
92
- "loss": 0.1933,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.15653220951234195,
97
- "grad_norm": 21.959823608398438,
98
  "learning_rate": 2.6104417670682734e-05,
99
- "loss": 0.1726,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.16857314870559903,
104
- "grad_norm": 34.98974609375,
105
  "learning_rate": 2.8112449799196788e-05,
106
- "loss": 0.1758,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.1806140878988561,
111
- "grad_norm": 15.278114318847656,
112
  "learning_rate": 3.012048192771085e-05,
113
- "loss": 0.1277,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.19265502709211318,
118
- "grad_norm": 68.78533172607422,
119
  "learning_rate": 3.21285140562249e-05,
120
- "loss": 0.1371,
121
  "step": 160
122
  },
123
  {
124
  "epoch": 0.20469596628537026,
125
- "grad_norm": 17.30523109436035,
126
  "learning_rate": 3.413654618473896e-05,
127
- "loss": 0.1391,
128
  "step": 170
129
  },
130
  {
131
  "epoch": 0.21673690547862734,
132
- "grad_norm": 18.58247184753418,
133
  "learning_rate": 3.614457831325301e-05,
134
- "loss": 0.1112,
135
  "step": 180
136
  },
137
  {
138
  "epoch": 0.22877784467188442,
139
- "grad_norm": 20.406381607055664,
140
  "learning_rate": 3.815261044176707e-05,
141
- "loss": 0.0882,
142
  "step": 190
143
  },
144
  {
145
  "epoch": 0.2408187838651415,
146
- "grad_norm": 27.328937530517578,
147
  "learning_rate": 4.0160642570281125e-05,
148
- "loss": 0.0827,
149
  "step": 200
150
  },
151
  {
152
  "epoch": 0.25285972305839854,
153
- "grad_norm": 7.420236587524414,
154
  "learning_rate": 4.2168674698795186e-05,
155
- "loss": 0.0782,
156
  "step": 210
157
  },
158
  {
159
  "epoch": 0.26490066225165565,
160
- "grad_norm": 30.249544143676758,
161
  "learning_rate": 4.417670682730924e-05,
162
- "loss": 0.0747,
163
  "step": 220
164
  },
165
  {
166
  "epoch": 0.2769416014449127,
167
- "grad_norm": 6.613826274871826,
168
  "learning_rate": 4.61847389558233e-05,
169
- "loss": 0.0831,
170
  "step": 230
171
  },
172
  {
173
  "epoch": 0.2889825406381698,
174
- "grad_norm": 17.4040584564209,
175
  "learning_rate": 4.8192771084337354e-05,
176
- "loss": 0.0731,
177
  "step": 240
178
  },
179
  {
180
  "epoch": 0.30102347983142685,
181
- "grad_norm": 3.861469268798828,
182
  "learning_rate": 4.9977688531905406e-05,
183
- "loss": 0.0561,
184
  "step": 250
185
  },
186
  {
187
  "epoch": 0.3130644190246839,
188
- "grad_norm": 7.319100856781006,
189
  "learning_rate": 4.97545738509594e-05,
190
- "loss": 0.0505,
191
  "step": 260
192
  },
193
  {
194
  "epoch": 0.325105358217941,
195
- "grad_norm": 17.325563430786133,
196
  "learning_rate": 4.953145917001339e-05,
197
- "loss": 0.0519,
198
  "step": 270
199
  },
200
  {
201
  "epoch": 0.33714629741119806,
202
- "grad_norm": 18.715402603149414,
203
  "learning_rate": 4.930834448906738e-05,
204
- "loss": 0.0637,
205
  "step": 280
206
  },
207
  {
208
  "epoch": 0.34918723660445516,
209
- "grad_norm": 7.095179080963135,
210
  "learning_rate": 4.908522980812137e-05,
211
- "loss": 0.0624,
212
  "step": 290
213
  },
214
  {
215
  "epoch": 0.3612281757977122,
216
- "grad_norm": 7.166253089904785,
217
  "learning_rate": 4.886211512717537e-05,
218
- "loss": 0.0681,
219
  "step": 300
220
  },
221
  {
222
  "epoch": 0.3732691149909693,
223
- "grad_norm": 14.443611145019531,
224
  "learning_rate": 4.8639000446229364e-05,
225
- "loss": 0.0425,
226
  "step": 310
227
  },
228
  {
229
  "epoch": 0.38531005418422637,
230
- "grad_norm": 9.1868257522583,
231
  "learning_rate": 4.8415885765283355e-05,
232
- "loss": 0.0565,
233
  "step": 320
234
  },
235
  {
236
  "epoch": 0.3973509933774834,
237
- "grad_norm": 11.00070571899414,
238
  "learning_rate": 4.8192771084337354e-05,
239
- "loss": 0.0598,
240
  "step": 330
241
  },
242
  {
243
  "epoch": 0.4093919325707405,
244
- "grad_norm": 5.017125129699707,
245
  "learning_rate": 4.7969656403391346e-05,
246
- "loss": 0.0623,
247
  "step": 340
248
  },
249
  {
250
  "epoch": 0.4214328717639976,
251
- "grad_norm": 10.400481224060059,
252
  "learning_rate": 4.774654172244534e-05,
253
- "loss": 0.0259,
254
  "step": 350
255
  },
256
  {
257
  "epoch": 0.4334738109572547,
258
- "grad_norm": 20.244483947753906,
259
  "learning_rate": 4.7523427041499336e-05,
260
- "loss": 0.051,
261
  "step": 360
262
  },
263
  {
264
  "epoch": 0.44551475015051173,
265
- "grad_norm": 19.375219345092773,
266
  "learning_rate": 4.730031236055333e-05,
267
- "loss": 0.0321,
268
  "step": 370
269
  },
270
  {
271
  "epoch": 0.45755568934376883,
272
- "grad_norm": 9.210841178894043,
273
  "learning_rate": 4.707719767960732e-05,
274
- "loss": 0.0312,
275
  "step": 380
276
  },
277
  {
278
  "epoch": 0.4695966285370259,
279
- "grad_norm": 11.146401405334473,
280
  "learning_rate": 4.685408299866131e-05,
281
- "loss": 0.0399,
282
  "step": 390
283
  },
284
  {
285
  "epoch": 0.481637567730283,
286
- "grad_norm": 7.5413994789123535,
287
  "learning_rate": 4.663096831771531e-05,
288
- "loss": 0.0472,
289
  "step": 400
290
  },
291
  {
292
  "epoch": 0.49367850692354004,
293
- "grad_norm": 6.88725471496582,
294
  "learning_rate": 4.64078536367693e-05,
295
- "loss": 0.046,
296
  "step": 410
297
  },
298
  {
299
  "epoch": 0.5057194461167971,
300
- "grad_norm": 14.230225563049316,
301
  "learning_rate": 4.61847389558233e-05,
302
  "loss": 0.0419,
303
  "step": 420
304
  },
305
  {
306
  "epoch": 0.5177603853100542,
307
- "grad_norm": 8.377012252807617,
308
  "learning_rate": 4.596162427487729e-05,
309
- "loss": 0.0524,
310
  "step": 430
311
  },
312
  {
313
  "epoch": 0.5298013245033113,
314
- "grad_norm": 0.7863742709159851,
315
  "learning_rate": 4.5738509593931284e-05,
316
- "loss": 0.0229,
317
  "step": 440
318
  },
319
  {
320
  "epoch": 0.5418422636965683,
321
- "grad_norm": 4.985135555267334,
322
  "learning_rate": 4.5515394912985275e-05,
323
- "loss": 0.0464,
324
  "step": 450
325
  },
326
  {
327
  "epoch": 0.5538832028898254,
328
- "grad_norm": 10.999000549316406,
329
  "learning_rate": 4.529228023203927e-05,
330
- "loss": 0.029,
331
  "step": 460
332
  },
333
  {
334
  "epoch": 0.5659241420830825,
335
- "grad_norm": 16.4847412109375,
336
  "learning_rate": 4.506916555109326e-05,
337
- "loss": 0.0334,
338
  "step": 470
339
  },
340
  {
341
  "epoch": 0.5779650812763396,
342
- "grad_norm": 12.632153511047363,
343
  "learning_rate": 4.484605087014726e-05,
344
- "loss": 0.0354,
345
  "step": 480
346
  },
347
  {
348
  "epoch": 0.5900060204695966,
349
- "grad_norm": 13.491677284240723,
350
  "learning_rate": 4.4622936189201256e-05,
351
- "loss": 0.0226,
352
  "step": 490
353
  },
354
  {
355
  "epoch": 0.6020469596628537,
356
- "grad_norm": 3.246889352798462,
357
  "learning_rate": 4.439982150825525e-05,
358
- "loss": 0.0217,
359
  "step": 500
360
  },
361
  {
362
  "epoch": 0.6140878988561108,
363
- "grad_norm": 0.35594967007637024,
364
  "learning_rate": 4.417670682730924e-05,
365
- "loss": 0.0405,
366
  "step": 510
367
  },
368
  {
369
  "epoch": 0.6261288380493678,
370
- "grad_norm": 4.427694797515869,
371
  "learning_rate": 4.395359214636323e-05,
372
- "loss": 0.0207,
373
  "step": 520
374
  },
375
  {
376
  "epoch": 0.6381697772426249,
377
- "grad_norm": 10.66477108001709,
378
  "learning_rate": 4.373047746541722e-05,
379
- "loss": 0.0227,
380
  "step": 530
381
  },
382
  {
383
  "epoch": 0.650210716435882,
384
- "grad_norm": 15.648704528808594,
385
  "learning_rate": 4.350736278447122e-05,
386
- "loss": 0.027,
387
  "step": 540
388
  },
389
  {
390
  "epoch": 0.6622516556291391,
391
- "grad_norm": 0.560919463634491,
392
  "learning_rate": 4.328424810352521e-05,
393
- "loss": 0.0143,
394
  "step": 550
395
  },
396
  {
397
  "epoch": 0.6742925948223961,
398
- "grad_norm": 11.590463638305664,
399
  "learning_rate": 4.306113342257921e-05,
400
- "loss": 0.0272,
401
  "step": 560
402
  },
403
  {
404
  "epoch": 0.6863335340156532,
405
- "grad_norm": 3.3958561420440674,
406
  "learning_rate": 4.2838018741633203e-05,
407
- "loss": 0.0403,
408
  "step": 570
409
  },
410
  {
411
  "epoch": 0.6983744732089103,
412
- "grad_norm": 17.12464714050293,
413
  "learning_rate": 4.2614904060687195e-05,
414
- "loss": 0.0277,
415
  "step": 580
416
  },
417
  {
418
  "epoch": 0.7104154124021673,
419
- "grad_norm": 5.0445876121521,
420
  "learning_rate": 4.239178937974119e-05,
421
- "loss": 0.0172,
422
  "step": 590
423
  },
424
  {
425
  "epoch": 0.7224563515954244,
426
- "grad_norm": 12.882268905639648,
427
  "learning_rate": 4.2168674698795186e-05,
428
- "loss": 0.034,
429
  "step": 600
430
  },
431
  {
432
  "epoch": 0.7344972907886815,
433
- "grad_norm": 14.19309139251709,
434
  "learning_rate": 4.194556001784918e-05,
435
- "loss": 0.0339,
436
  "step": 610
437
  },
438
  {
439
  "epoch": 0.7465382299819386,
440
- "grad_norm": 7.258231163024902,
441
  "learning_rate": 4.172244533690317e-05,
442
- "loss": 0.0193,
443
  "step": 620
444
  },
445
  {
446
  "epoch": 0.7585791691751956,
447
- "grad_norm": 2.1384546756744385,
448
  "learning_rate": 4.149933065595716e-05,
449
- "loss": 0.0179,
450
  "step": 630
451
  },
452
  {
453
  "epoch": 0.7706201083684527,
454
- "grad_norm": 2.1396892070770264,
455
  "learning_rate": 4.127621597501116e-05,
456
- "loss": 0.0259,
457
  "step": 640
458
  },
459
  {
460
  "epoch": 0.7826610475617098,
461
- "grad_norm": 2.213364839553833,
462
  "learning_rate": 4.105310129406515e-05,
463
- "loss": 0.0198,
464
  "step": 650
465
  },
466
  {
467
  "epoch": 0.7947019867549668,
468
- "grad_norm": 9.647805213928223,
469
  "learning_rate": 4.082998661311915e-05,
470
- "loss": 0.0429,
471
  "step": 660
472
  },
473
  {
474
  "epoch": 0.8067429259482239,
475
- "grad_norm": 13.320932388305664,
476
  "learning_rate": 4.060687193217314e-05,
477
- "loss": 0.022,
478
  "step": 670
479
  },
480
  {
481
  "epoch": 0.818783865141481,
482
- "grad_norm": 6.148782253265381,
483
  "learning_rate": 4.038375725122713e-05,
484
- "loss": 0.0111,
485
  "step": 680
486
  },
487
  {
488
  "epoch": 0.8308248043347382,
489
- "grad_norm": 0.37077805399894714,
490
  "learning_rate": 4.0160642570281125e-05,
491
- "loss": 0.0233,
492
  "step": 690
493
  },
494
  {
495
  "epoch": 0.8428657435279951,
496
- "grad_norm": 9.790139198303223,
497
  "learning_rate": 3.993752788933512e-05,
498
- "loss": 0.0232,
499
  "step": 700
500
  },
501
  {
502
  "epoch": 0.8549066827212523,
503
- "grad_norm": 15.844186782836914,
504
  "learning_rate": 3.9714413208389115e-05,
505
- "loss": 0.0181,
506
  "step": 710
507
  },
508
  {
509
  "epoch": 0.8669476219145094,
510
- "grad_norm": 5.37238883972168,
511
  "learning_rate": 3.949129852744311e-05,
512
- "loss": 0.0195,
513
  "step": 720
514
  },
515
  {
516
  "epoch": 0.8789885611077664,
517
- "grad_norm": 19.885295867919922,
518
  "learning_rate": 3.9268183846497105e-05,
519
- "loss": 0.0282,
520
  "step": 730
521
  },
522
  {
523
  "epoch": 0.8910295003010235,
524
- "grad_norm": 14.080533981323242,
525
  "learning_rate": 3.90450691655511e-05,
526
- "loss": 0.0101,
527
  "step": 740
528
  },
529
  {
530
  "epoch": 0.9030704394942806,
531
- "grad_norm": 1.8638286590576172,
532
  "learning_rate": 3.882195448460509e-05,
533
- "loss": 0.0135,
534
  "step": 750
535
  },
536
  {
537
  "epoch": 0.9151113786875377,
538
- "grad_norm": 0.49987268447875977,
539
  "learning_rate": 3.859883980365908e-05,
540
- "loss": 0.0281,
541
  "step": 760
542
  },
543
  {
544
  "epoch": 0.9271523178807947,
545
- "grad_norm": 7.230884552001953,
546
  "learning_rate": 3.837572512271307e-05,
547
- "loss": 0.0119,
548
  "step": 770
549
  },
550
  {
551
  "epoch": 0.9391932570740518,
552
- "grad_norm": 15.956979751586914,
553
  "learning_rate": 3.815261044176707e-05,
554
- "loss": 0.0307,
555
  "step": 780
556
  },
557
  {
558
  "epoch": 0.9512341962673089,
559
- "grad_norm": 6.89923095703125,
560
  "learning_rate": 3.792949576082106e-05,
561
- "loss": 0.0299,
562
  "step": 790
563
  },
564
  {
565
  "epoch": 0.963275135460566,
566
- "grad_norm": 3.6012470722198486,
567
  "learning_rate": 3.770638107987506e-05,
568
- "loss": 0.0187,
569
  "step": 800
570
  },
571
  {
572
  "epoch": 0.975316074653823,
573
- "grad_norm": 0.42434361577033997,
574
  "learning_rate": 3.748326639892905e-05,
575
- "loss": 0.0056,
576
  "step": 810
577
  },
578
  {
579
  "epoch": 0.9873570138470801,
580
- "grad_norm": 10.235840797424316,
581
  "learning_rate": 3.7260151717983045e-05,
582
- "loss": 0.022,
583
  "step": 820
584
  },
585
  {
586
  "epoch": 0.9993979530403372,
587
- "grad_norm": 14.793251037597656,
588
  "learning_rate": 3.7037037037037037e-05,
589
- "loss": 0.0219,
590
  "step": 830
591
  },
592
  {
593
  "epoch": 0.9993979530403372,
594
- "eval_f1": 0.9941767167416564,
595
- "eval_loss": 0.012211144901812077,
596
- "eval_runtime": 107.6031,
597
- "eval_samples_per_second": 109.755,
598
- "eval_steps_per_second": 3.439,
599
  "step": 830
600
  },
601
  {
602
  "epoch": 1.0117399157134257,
603
- "grad_norm": 0.2734871506690979,
604
  "learning_rate": 3.6813922356091035e-05,
605
- "loss": 0.0317,
606
  "step": 840
607
  },
608
  {
609
  "epoch": 1.0237808549066827,
610
- "grad_norm": 1.6646366119384766,
611
  "learning_rate": 3.659080767514503e-05,
612
- "loss": 0.0058,
613
  "step": 850
614
  },
615
  {
616
  "epoch": 1.03582179409994,
617
- "grad_norm": 6.263219833374023,
618
  "learning_rate": 3.636769299419902e-05,
619
- "loss": 0.0108,
620
  "step": 860
621
  },
622
  {
623
  "epoch": 1.047862733293197,
624
- "grad_norm": 13.928460121154785,
625
  "learning_rate": 3.614457831325301e-05,
626
- "loss": 0.0148,
627
  "step": 870
628
  },
629
  {
630
  "epoch": 1.059903672486454,
631
- "grad_norm": 0.08599582314491272,
632
  "learning_rate": 3.592146363230701e-05,
633
- "loss": 0.0074,
634
  "step": 880
635
  },
636
  {
637
  "epoch": 1.0719446116797111,
638
- "grad_norm": 0.2059994339942932,
639
  "learning_rate": 3.5698348951361e-05,
640
- "loss": 0.0036,
641
  "step": 890
642
  },
643
  {
644
  "epoch": 1.083985550872968,
645
- "grad_norm": 5.329049587249756,
646
  "learning_rate": 3.5475234270415e-05,
647
- "loss": 0.0053,
648
  "step": 900
649
  },
650
  {
651
  "epoch": 1.096026490066225,
652
- "grad_norm": 1.9016759395599365,
653
  "learning_rate": 3.525211958946899e-05,
654
- "loss": 0.0096,
655
  "step": 910
656
  },
657
  {
658
  "epoch": 1.1080674292594823,
659
- "grad_norm": 18.670433044433594,
660
  "learning_rate": 3.502900490852298e-05,
661
- "loss": 0.0125,
662
  "step": 920
663
  },
664
  {
665
  "epoch": 1.1201083684527393,
666
- "grad_norm": 0.5670663714408875,
667
  "learning_rate": 3.4805890227576974e-05,
668
- "loss": 0.0228,
669
  "step": 930
670
  },
671
  {
672
  "epoch": 1.1321493076459963,
673
- "grad_norm": 0.1877487599849701,
674
  "learning_rate": 3.4582775546630966e-05,
675
- "loss": 0.0143,
676
  "step": 940
677
  },
678
  {
679
  "epoch": 1.1441902468392535,
680
- "grad_norm": 0.13180898129940033,
681
  "learning_rate": 3.4359660865684965e-05,
682
- "loss": 0.0072,
683
  "step": 950
684
  },
685
  {
686
  "epoch": 1.1562311860325105,
687
- "grad_norm": 1.8746509552001953,
688
  "learning_rate": 3.413654618473896e-05,
689
- "loss": 0.0071,
690
  "step": 960
691
  },
692
  {
693
  "epoch": 1.1682721252257675,
694
- "grad_norm": 0.07824055105447769,
695
  "learning_rate": 3.3913431503792955e-05,
696
- "loss": 0.0099,
697
  "step": 970
698
  },
699
  {
700
  "epoch": 1.1803130644190247,
701
- "grad_norm": 0.26168355345726013,
702
  "learning_rate": 3.369031682284695e-05,
703
- "loss": 0.0193,
704
  "step": 980
705
  },
706
  {
707
  "epoch": 1.1923540036122817,
708
- "grad_norm": 27.489240646362305,
709
  "learning_rate": 3.346720214190094e-05,
710
- "loss": 0.0142,
711
  "step": 990
712
  },
713
  {
714
  "epoch": 1.2043949428055387,
715
- "grad_norm": 15.5933198928833,
716
  "learning_rate": 3.324408746095493e-05,
717
- "loss": 0.0132,
718
  "step": 1000
719
  },
720
  {
721
  "epoch": 1.216435881998796,
722
- "grad_norm": 0.03655429556965828,
723
  "learning_rate": 3.302097278000892e-05,
724
- "loss": 0.0113,
725
  "step": 1010
726
  },
727
  {
728
  "epoch": 1.228476821192053,
729
- "grad_norm": 0.0989295095205307,
730
  "learning_rate": 3.279785809906292e-05,
731
- "loss": 0.0093,
732
  "step": 1020
733
  },
734
  {
735
  "epoch": 1.2405177603853101,
736
- "grad_norm": 9.063276290893555,
737
  "learning_rate": 3.257474341811691e-05,
738
- "loss": 0.0077,
739
  "step": 1030
740
  },
741
  {
742
  "epoch": 1.2525586995785671,
743
- "grad_norm": 0.42270582914352417,
744
  "learning_rate": 3.235162873717091e-05,
745
- "loss": 0.006,
746
  "step": 1040
747
  },
748
  {
749
  "epoch": 1.2645996387718241,
750
- "grad_norm": 0.026505226269364357,
751
  "learning_rate": 3.21285140562249e-05,
752
- "loss": 0.0131,
753
  "step": 1050
754
  },
755
  {
756
  "epoch": 1.2766405779650813,
757
- "grad_norm": 7.347019672393799,
758
  "learning_rate": 3.1905399375278894e-05,
759
- "loss": 0.0077,
760
  "step": 1060
761
  },
762
  {
763
  "epoch": 1.2886815171583383,
764
- "grad_norm": 0.46574658155441284,
765
  "learning_rate": 3.1682284694332886e-05,
766
- "loss": 0.0032,
767
  "step": 1070
768
  },
769
  {
770
  "epoch": 1.3007224563515956,
771
- "grad_norm": 0.4452888071537018,
772
  "learning_rate": 3.1459170013386885e-05,
773
- "loss": 0.0017,
774
  "step": 1080
775
  },
776
  {
777
  "epoch": 1.3127633955448526,
778
- "grad_norm": 0.03053126111626625,
779
  "learning_rate": 3.1236055332440876e-05,
780
- "loss": 0.0183,
781
  "step": 1090
782
  },
783
  {
784
  "epoch": 1.3248043347381095,
785
- "grad_norm": 0.01922285184264183,
786
  "learning_rate": 3.101294065149487e-05,
787
- "loss": 0.0082,
788
  "step": 1100
789
  },
790
  {
791
  "epoch": 1.3368452739313668,
792
- "grad_norm": 8.291805267333984,
793
  "learning_rate": 3.078982597054887e-05,
794
- "loss": 0.0056,
795
  "step": 1110
796
  },
797
  {
798
  "epoch": 1.3488862131246238,
799
- "grad_norm": 0.8168500065803528,
800
  "learning_rate": 3.056671128960286e-05,
801
- "loss": 0.0079,
802
  "step": 1120
803
  },
804
  {
805
  "epoch": 1.3609271523178808,
806
- "grad_norm": 0.8204330801963806,
807
  "learning_rate": 3.034359660865685e-05,
808
- "loss": 0.0292,
809
  "step": 1130
810
  },
811
  {
812
  "epoch": 1.372968091511138,
813
- "grad_norm": 0.0944126546382904,
814
  "learning_rate": 3.012048192771085e-05,
815
- "loss": 0.0137,
816
  "step": 1140
817
  },
818
  {
819
  "epoch": 1.385009030704395,
820
- "grad_norm": 22.353675842285156,
821
  "learning_rate": 2.989736724676484e-05,
822
- "loss": 0.0103,
823
  "step": 1150
824
  },
825
  {
826
  "epoch": 1.397049969897652,
827
- "grad_norm": 0.9541614651679993,
828
  "learning_rate": 2.9674252565818832e-05,
829
- "loss": 0.004,
830
  "step": 1160
831
  },
832
  {
833
  "epoch": 1.4090909090909092,
834
- "grad_norm": 0.01685040444135666,
835
  "learning_rate": 2.9451137884872827e-05,
836
- "loss": 0.0098,
837
  "step": 1170
838
  },
839
  {
840
  "epoch": 1.4211318482841662,
841
- "grad_norm": 0.028883345425128937,
842
  "learning_rate": 2.922802320392682e-05,
843
- "loss": 0.0188,
844
  "step": 1180
845
  },
846
  {
847
  "epoch": 1.4331727874774232,
848
- "grad_norm": 0.042280565947294235,
849
  "learning_rate": 2.900490852298081e-05,
850
- "loss": 0.0225,
851
  "step": 1190
852
  },
853
  {
854
  "epoch": 1.4452137266706804,
855
- "grad_norm": 0.6758914589881897,
856
  "learning_rate": 2.878179384203481e-05,
857
- "loss": 0.0088,
858
  "step": 1200
859
  },
860
  {
861
  "epoch": 1.4572546658639374,
862
- "grad_norm": 0.032702963799238205,
863
  "learning_rate": 2.85586791610888e-05,
864
- "loss": 0.0127,
865
  "step": 1210
866
  },
867
  {
868
  "epoch": 1.4692956050571944,
869
- "grad_norm": 8.852455139160156,
870
  "learning_rate": 2.8335564480142796e-05,
871
- "loss": 0.0205,
872
  "step": 1220
873
  },
874
  {
875
  "epoch": 1.4813365442504516,
876
- "grad_norm": 0.17334896326065063,
877
  "learning_rate": 2.8112449799196788e-05,
878
- "loss": 0.0009,
879
  "step": 1230
880
  },
881
  {
882
  "epoch": 1.4933774834437086,
883
- "grad_norm": 0.6626876592636108,
884
  "learning_rate": 2.788933511825078e-05,
885
- "loss": 0.0147,
886
  "step": 1240
887
  },
888
  {
889
  "epoch": 1.5054184226369656,
890
- "grad_norm": 15.536624908447266,
891
  "learning_rate": 2.7666220437304775e-05,
892
- "loss": 0.0147,
893
  "step": 1250
894
  },
895
  {
896
  "epoch": 1.5174593618302228,
897
- "grad_norm": 0.8571311235427856,
898
  "learning_rate": 2.7443105756358774e-05,
899
- "loss": 0.0052,
900
  "step": 1260
901
  },
902
  {
903
  "epoch": 1.5295003010234798,
904
- "grad_norm": 20.779983520507812,
905
  "learning_rate": 2.7219991075412765e-05,
906
- "loss": 0.0077,
907
  "step": 1270
908
  },
909
  {
910
  "epoch": 1.5415412402167368,
911
- "grad_norm": 0.022782055661082268,
912
  "learning_rate": 2.6996876394466757e-05,
913
- "loss": 0.0028,
914
  "step": 1280
915
  },
916
  {
917
  "epoch": 1.553582179409994,
918
- "grad_norm": 0.04790806025266647,
919
  "learning_rate": 2.6773761713520752e-05,
920
- "loss": 0.0025,
921
  "step": 1290
922
  },
923
  {
924
  "epoch": 1.5656231186032512,
925
- "grad_norm": 0.48444584012031555,
926
  "learning_rate": 2.6550647032574744e-05,
927
- "loss": 0.0211,
928
  "step": 1300
929
  },
930
  {
931
  "epoch": 1.577664057796508,
932
- "grad_norm": 0.025251317769289017,
933
  "learning_rate": 2.6327532351628736e-05,
934
- "loss": 0.0064,
935
  "step": 1310
936
  },
937
  {
938
  "epoch": 1.5897049969897652,
939
- "grad_norm": 29.587995529174805,
940
  "learning_rate": 2.6104417670682734e-05,
941
- "loss": 0.0016,
942
  "step": 1320
943
  },
944
  {
945
  "epoch": 1.6017459361830224,
946
- "grad_norm": 0.678594708442688,
947
  "learning_rate": 2.5881302989736726e-05,
948
- "loss": 0.0092,
949
  "step": 1330
950
  },
951
  {
952
  "epoch": 1.6137868753762792,
953
- "grad_norm": 7.527316093444824,
954
  "learning_rate": 2.565818830879072e-05,
955
- "loss": 0.002,
956
  "step": 1340
957
  },
958
  {
959
  "epoch": 1.6258278145695364,
960
- "grad_norm": 15.365883827209473,
961
  "learning_rate": 2.5435073627844713e-05,
962
- "loss": 0.01,
963
  "step": 1350
964
  },
965
  {
966
  "epoch": 1.6378687537627936,
967
- "grad_norm": 11.4562349319458,
968
  "learning_rate": 2.5211958946898705e-05,
969
- "loss": 0.0078,
970
  "step": 1360
971
  },
972
  {
973
  "epoch": 1.6499096929560506,
974
- "grad_norm": 1.4225062131881714,
975
  "learning_rate": 2.4988844265952703e-05,
976
- "loss": 0.0116,
977
  "step": 1370
978
  },
979
  {
980
  "epoch": 1.6619506321493076,
981
- "grad_norm": 18.761125564575195,
982
  "learning_rate": 2.4765729585006695e-05,
983
- "loss": 0.0122,
984
  "step": 1380
985
  },
986
  {
987
  "epoch": 1.6739915713425648,
988
- "grad_norm": 0.042121145874261856,
989
  "learning_rate": 2.4542614904060687e-05,
990
- "loss": 0.0036,
991
  "step": 1390
992
  },
993
  {
994
  "epoch": 1.6860325105358218,
995
- "grad_norm": 0.7333714365959167,
996
  "learning_rate": 2.4319500223114682e-05,
997
- "loss": 0.0052,
998
  "step": 1400
999
  },
1000
  {
1001
  "epoch": 1.6980734497290788,
1002
- "grad_norm": 0.4470759928226471,
1003
  "learning_rate": 2.4096385542168677e-05,
1004
- "loss": 0.0118,
1005
  "step": 1410
1006
  },
1007
  {
1008
  "epoch": 1.710114388922336,
1009
- "grad_norm": 0.04939042404294014,
1010
  "learning_rate": 2.387327086122267e-05,
1011
- "loss": 0.0067,
1012
  "step": 1420
1013
  },
1014
  {
1015
  "epoch": 1.722155328115593,
1016
- "grad_norm": 5.569286823272705,
1017
  "learning_rate": 2.3650156180276664e-05,
1018
- "loss": 0.0349,
1019
  "step": 1430
1020
  },
1021
  {
1022
  "epoch": 1.73419626730885,
1023
- "grad_norm": 12.6468505859375,
1024
  "learning_rate": 2.3427041499330656e-05,
1025
- "loss": 0.0095,
1026
  "step": 1440
1027
  },
1028
  {
1029
  "epoch": 1.7462372065021072,
1030
- "grad_norm": 0.034750111401081085,
1031
  "learning_rate": 2.320392681838465e-05,
1032
- "loss": 0.0097,
1033
  "step": 1450
1034
  },
1035
  {
1036
  "epoch": 1.7582781456953642,
1037
- "grad_norm": 0.970057487487793,
1038
  "learning_rate": 2.2980812137438646e-05,
1039
- "loss": 0.0042,
1040
  "step": 1460
1041
  },
1042
  {
1043
  "epoch": 1.7703190848886212,
1044
- "grad_norm": 1.737916350364685,
1045
  "learning_rate": 2.2757697456492638e-05,
1046
- "loss": 0.0119,
1047
  "step": 1470
1048
  },
1049
  {
1050
  "epoch": 1.7823600240818784,
1051
- "grad_norm": 0.40598204731941223,
1052
  "learning_rate": 2.253458277554663e-05,
1053
- "loss": 0.007,
1054
  "step": 1480
1055
  },
1056
  {
1057
  "epoch": 1.7944009632751354,
1058
- "grad_norm": 32.843143463134766,
1059
  "learning_rate": 2.2311468094600628e-05,
1060
- "loss": 0.004,
1061
  "step": 1490
1062
  },
1063
  {
1064
  "epoch": 1.8064419024683924,
1065
- "grad_norm": 0.09000721573829651,
1066
  "learning_rate": 2.208835341365462e-05,
1067
- "loss": 0.0045,
1068
  "step": 1500
1069
  },
1070
  {
1071
  "epoch": 1.8184828416616496,
1072
- "grad_norm": 0.016685089096426964,
1073
  "learning_rate": 2.186523873270861e-05,
1074
- "loss": 0.0015,
1075
  "step": 1510
1076
  },
1077
  {
1078
  "epoch": 1.8305237808549066,
1079
- "grad_norm": 0.013028348796069622,
1080
  "learning_rate": 2.1642124051762607e-05,
1081
- "loss": 0.0075,
1082
  "step": 1520
1083
  },
1084
  {
1085
  "epoch": 1.8425647200481636,
1086
- "grad_norm": 4.790024757385254,
1087
  "learning_rate": 2.1419009370816602e-05,
1088
- "loss": 0.0101,
1089
  "step": 1530
1090
  },
1091
  {
1092
  "epoch": 1.8546056592414208,
1093
- "grad_norm": 9.446985244750977,
1094
  "learning_rate": 2.1195894689870593e-05,
1095
- "loss": 0.0166,
1096
  "step": 1540
1097
  },
1098
  {
1099
  "epoch": 1.866646598434678,
1100
- "grad_norm": 15.988990783691406,
1101
  "learning_rate": 2.097278000892459e-05,
1102
- "loss": 0.0029,
1103
  "step": 1550
1104
  },
1105
  {
1106
  "epoch": 1.8786875376279348,
1107
- "grad_norm": 0.04741289094090462,
1108
  "learning_rate": 2.074966532797858e-05,
1109
- "loss": 0.0041,
1110
  "step": 1560
1111
  },
1112
  {
1113
  "epoch": 1.890728476821192,
1114
- "grad_norm": 1.0360485315322876,
1115
  "learning_rate": 2.0526550647032576e-05,
1116
- "loss": 0.0131,
1117
  "step": 1570
1118
  },
1119
  {
1120
  "epoch": 1.9027694160144493,
1121
- "grad_norm": 12.175363540649414,
1122
  "learning_rate": 2.030343596608657e-05,
1123
- "loss": 0.009,
1124
  "step": 1580
1125
  },
1126
  {
1127
  "epoch": 1.914810355207706,
1128
- "grad_norm": 1.8163396120071411,
1129
  "learning_rate": 2.0080321285140562e-05,
1130
- "loss": 0.0082,
1131
  "step": 1590
1132
  },
1133
  {
1134
  "epoch": 1.9268512944009633,
1135
- "grad_norm": 1.1811190843582153,
1136
  "learning_rate": 1.9857206604194558e-05,
1137
- "loss": 0.0128,
1138
  "step": 1600
1139
  },
1140
  {
1141
  "epoch": 1.9388922335942205,
1142
- "grad_norm": 1.4999727010726929,
1143
  "learning_rate": 1.9634091923248553e-05,
1144
- "loss": 0.0108,
1145
  "step": 1610
1146
  },
1147
  {
1148
  "epoch": 1.9509331727874775,
1149
- "grad_norm": 0.02650211751461029,
1150
  "learning_rate": 1.9410977242302544e-05,
1151
- "loss": 0.0035,
1152
  "step": 1620
1153
  },
1154
  {
1155
  "epoch": 1.9629741119807345,
1156
- "grad_norm": 1.4226313829421997,
1157
  "learning_rate": 1.9187862561356536e-05,
1158
- "loss": 0.0191,
1159
  "step": 1630
1160
  },
1161
  {
1162
  "epoch": 1.9750150511739917,
1163
- "grad_norm": 0.030506979674100876,
1164
  "learning_rate": 1.896474788041053e-05,
1165
  "loss": 0.0009,
1166
  "step": 1640
1167
  },
1168
  {
1169
  "epoch": 1.9870559903672487,
1170
- "grad_norm": 0.035177238285541534,
1171
  "learning_rate": 1.8741633199464527e-05,
1172
- "loss": 0.0141,
1173
  "step": 1650
1174
  },
1175
  {
1176
  "epoch": 1.9990969295605057,
1177
- "grad_norm": 3.573192834854126,
1178
  "learning_rate": 1.8518518518518518e-05,
1179
- "loss": 0.0145,
1180
  "step": 1660
1181
  },
1182
  {
1183
  "epoch": 1.9990969295605057,
1184
- "eval_f1": 0.9946425546192459,
1185
- "eval_loss": 0.008867617696523666,
1186
- "eval_runtime": 108.4658,
1187
- "eval_samples_per_second": 108.882,
1188
- "eval_steps_per_second": 3.411,
1189
  "step": 1660
1190
  },
1191
  {
1192
  "epoch": 2.011438892233594,
1193
- "grad_norm": 0.10145142674446106,
1194
  "learning_rate": 1.8295403837572513e-05,
1195
- "loss": 0.0072,
1196
  "step": 1670
1197
  },
1198
  {
1199
  "epoch": 2.0234798314268514,
1200
- "grad_norm": 0.0519409105181694,
1201
  "learning_rate": 1.8072289156626505e-05,
1202
- "loss": 0.0087,
1203
  "step": 1680
1204
  },
1205
  {
1206
  "epoch": 2.035520770620108,
1207
- "grad_norm": 0.0766972079873085,
1208
  "learning_rate": 1.78491744756805e-05,
1209
  "loss": 0.0006,
1210
  "step": 1690
1211
  },
1212
  {
1213
  "epoch": 2.0475617098133654,
1214
- "grad_norm": 0.764567494392395,
1215
  "learning_rate": 1.7626059794734495e-05,
1216
- "loss": 0.0055,
1217
  "step": 1700
1218
  },
1219
  {
1220
  "epoch": 2.0596026490066226,
1221
- "grad_norm": 3.932276964187622,
1222
  "learning_rate": 1.7402945113788487e-05,
1223
- "loss": 0.0119,
1224
  "step": 1710
1225
  },
1226
  {
1227
  "epoch": 2.07164358819988,
1228
- "grad_norm": 1.2542475461959839,
1229
  "learning_rate": 1.7179830432842482e-05,
1230
- "loss": 0.0041,
1231
  "step": 1720
1232
  },
1233
  {
1234
  "epoch": 2.0836845273931366,
1235
- "grad_norm": 0.028969695791602135,
1236
  "learning_rate": 1.6956715751896478e-05,
1237
- "loss": 0.0083,
1238
  "step": 1730
1239
  },
1240
  {
1241
  "epoch": 2.095725466586394,
1242
- "grad_norm": 7.430561542510986,
1243
  "learning_rate": 1.673360107095047e-05,
1244
- "loss": 0.0149,
1245
  "step": 1740
1246
  },
1247
  {
1248
  "epoch": 2.107766405779651,
1249
- "grad_norm": 0.057673774659633636,
1250
  "learning_rate": 1.651048639000446e-05,
1251
- "loss": 0.0014,
1252
  "step": 1750
1253
  },
1254
  {
1255
  "epoch": 2.119807344972908,
1256
- "grad_norm": 0.02054547891020775,
1257
  "learning_rate": 1.6287371709058456e-05,
1258
- "loss": 0.0012,
1259
  "step": 1760
1260
  },
1261
  {
1262
  "epoch": 2.131848284166165,
1263
- "grad_norm": 0.030434923246502876,
1264
  "learning_rate": 1.606425702811245e-05,
1265
- "loss": 0.0113,
1266
  "step": 1770
1267
  },
1268
  {
1269
  "epoch": 2.1438892233594222,
1270
- "grad_norm": 0.016015587374567986,
1271
  "learning_rate": 1.5841142347166443e-05,
1272
- "loss": 0.0003,
1273
  "step": 1780
1274
  },
1275
  {
1276
  "epoch": 2.155930162552679,
1277
- "grad_norm": 0.6460728049278259,
1278
  "learning_rate": 1.5618027666220438e-05,
1279
- "loss": 0.0175,
1280
  "step": 1790
1281
  },
1282
  {
1283
  "epoch": 2.167971101745936,
1284
- "grad_norm": 0.05660252273082733,
1285
  "learning_rate": 1.5394912985274433e-05,
1286
  "loss": 0.0026,
1287
  "step": 1800
1288
  },
1289
  {
1290
  "epoch": 2.1800120409391934,
1291
- "grad_norm": 0.7767325043678284,
1292
  "learning_rate": 1.5171798304328425e-05,
1293
- "loss": 0.0004,
1294
  "step": 1810
1295
  },
1296
  {
1297
  "epoch": 2.19205298013245,
1298
- "grad_norm": 0.01565532386302948,
1299
  "learning_rate": 1.494868362338242e-05,
1300
- "loss": 0.0009,
1301
  "step": 1820
1302
  },
1303
  {
1304
  "epoch": 2.2040939193257074,
1305
- "grad_norm": 0.07455216348171234,
1306
  "learning_rate": 1.4725568942436414e-05,
1307
- "loss": 0.0003,
1308
  "step": 1830
1309
  },
1310
  {
1311
  "epoch": 2.2161348585189646,
1312
- "grad_norm": 0.01474799681454897,
1313
  "learning_rate": 1.4502454261490405e-05,
1314
- "loss": 0.0102,
1315
  "step": 1840
1316
  },
1317
  {
1318
  "epoch": 2.2281757977122214,
1319
- "grad_norm": 2.596896171569824,
1320
  "learning_rate": 1.42793395805444e-05,
1321
- "loss": 0.0072,
1322
  "step": 1850
1323
  },
1324
  {
1325
  "epoch": 2.2402167369054786,
1326
- "grad_norm": 0.07300672680139542,
1327
  "learning_rate": 1.4056224899598394e-05,
1328
- "loss": 0.0057,
1329
  "step": 1860
1330
  },
1331
  {
1332
  "epoch": 2.252257676098736,
1333
- "grad_norm": 0.02680467627942562,
1334
  "learning_rate": 1.3833110218652387e-05,
1335
- "loss": 0.0003,
1336
  "step": 1870
1337
  },
1338
  {
1339
  "epoch": 2.2642986152919926,
1340
- "grad_norm": 0.489324152469635,
1341
  "learning_rate": 1.3609995537706383e-05,
1342
- "loss": 0.0007,
1343
  "step": 1880
1344
  },
1345
  {
1346
  "epoch": 2.27633955448525,
1347
- "grad_norm": 0.019087281078100204,
1348
  "learning_rate": 1.3386880856760376e-05,
1349
- "loss": 0.0005,
1350
  "step": 1890
1351
  },
1352
  {
1353
  "epoch": 2.288380493678507,
1354
- "grad_norm": 0.20010869204998016,
1355
  "learning_rate": 1.3163766175814368e-05,
1356
- "loss": 0.0051,
1357
  "step": 1900
1358
  },
1359
  {
1360
  "epoch": 2.300421432871764,
1361
- "grad_norm": 1.1036587953567505,
1362
  "learning_rate": 1.2940651494868363e-05,
1363
- "loss": 0.0073,
1364
  "step": 1910
1365
  },
1366
  {
1367
  "epoch": 2.312462372065021,
1368
- "grad_norm": 0.03441654518246651,
1369
  "learning_rate": 1.2717536813922356e-05,
1370
- "loss": 0.0016,
1371
  "step": 1920
1372
  },
1373
  {
1374
  "epoch": 2.3245033112582782,
1375
- "grad_norm": 0.29569727182388306,
1376
  "learning_rate": 1.2494422132976352e-05,
1377
- "loss": 0.0004,
1378
  "step": 1930
1379
  },
1380
  {
1381
  "epoch": 2.336544250451535,
1382
- "grad_norm": 0.014553075656294823,
1383
  "learning_rate": 1.2271307452030343e-05,
1384
  "loss": 0.0005,
1385
  "step": 1940
1386
  },
1387
  {
1388
  "epoch": 2.3485851896447922,
1389
- "grad_norm": 0.012233784422278404,
1390
  "learning_rate": 1.2048192771084338e-05,
1391
- "loss": 0.0042,
1392
  "step": 1950
1393
  },
1394
  {
1395
  "epoch": 2.3606261288380495,
1396
- "grad_norm": 0.04088492691516876,
1397
  "learning_rate": 1.1825078090138332e-05,
1398
- "loss": 0.0105,
1399
  "step": 1960
1400
  },
1401
  {
1402
  "epoch": 2.3726670680313067,
1403
- "grad_norm": 0.08669020235538483,
1404
  "learning_rate": 1.1601963409192325e-05,
1405
- "loss": 0.0073,
1406
  "step": 1970
1407
  },
1408
  {
1409
  "epoch": 2.3847080072245634,
1410
- "grad_norm": 0.04787085950374603,
1411
  "learning_rate": 1.1378848728246319e-05,
1412
- "loss": 0.0022,
1413
  "step": 1980
1414
  },
1415
  {
1416
  "epoch": 2.3967489464178207,
1417
- "grad_norm": 0.018111156299710274,
1418
  "learning_rate": 1.1155734047300314e-05,
1419
  "loss": 0.0004,
1420
  "step": 1990
1421
  },
1422
  {
1423
  "epoch": 2.4087898856110774,
1424
- "grad_norm": 0.10384394973516464,
1425
  "learning_rate": 1.0932619366354306e-05,
1426
- "loss": 0.0107,
1427
  "step": 2000
1428
  },
1429
  {
1430
  "epoch": 2.4208308248043346,
1431
- "grad_norm": 0.020993240177631378,
1432
  "learning_rate": 1.0709504685408301e-05,
1433
- "loss": 0.0009,
1434
  "step": 2010
1435
  },
1436
  {
1437
  "epoch": 2.432871763997592,
1438
- "grad_norm": 6.286465167999268,
1439
  "learning_rate": 1.0486390004462294e-05,
1440
- "loss": 0.0055,
1441
  "step": 2020
1442
  },
1443
  {
1444
  "epoch": 2.444912703190849,
1445
- "grad_norm": 0.16340582072734833,
1446
  "learning_rate": 1.0263275323516288e-05,
1447
- "loss": 0.0059,
1448
  "step": 2030
1449
  },
1450
  {
1451
  "epoch": 2.456953642384106,
1452
- "grad_norm": 0.015615738928318024,
1453
  "learning_rate": 1.0040160642570281e-05,
1454
- "loss": 0.0071,
1455
  "step": 2040
1456
  },
1457
  {
1458
  "epoch": 2.468994581577363,
1459
- "grad_norm": 0.015223161317408085,
1460
  "learning_rate": 9.817045961624276e-06,
1461
- "loss": 0.001,
1462
  "step": 2050
1463
  },
1464
  {
1465
  "epoch": 2.4810355207706203,
1466
- "grad_norm": 0.04220983758568764,
1467
  "learning_rate": 9.593931280678268e-06,
1468
- "loss": 0.0003,
1469
  "step": 2060
1470
  },
1471
  {
1472
  "epoch": 2.493076459963877,
1473
- "grad_norm": 0.013744501397013664,
1474
  "learning_rate": 9.370816599732263e-06,
1475
- "loss": 0.0005,
1476
  "step": 2070
1477
  },
1478
  {
1479
  "epoch": 2.5051173991571343,
1480
- "grad_norm": 0.021128827705979347,
1481
  "learning_rate": 9.147701918786257e-06,
1482
- "loss": 0.0046,
1483
  "step": 2080
1484
  },
1485
  {
1486
  "epoch": 2.5171583383503915,
1487
- "grad_norm": 25.261341094970703,
1488
  "learning_rate": 8.92458723784025e-06,
1489
- "loss": 0.0015,
1490
  "step": 2090
1491
  },
1492
  {
1493
  "epoch": 2.5291992775436483,
1494
- "grad_norm": 27.442256927490234,
1495
  "learning_rate": 8.701472556894244e-06,
1496
- "loss": 0.0052,
1497
  "step": 2100
1498
  },
1499
  {
1500
  "epoch": 2.5412402167369055,
1501
- "grad_norm": 0.03090606816112995,
1502
  "learning_rate": 8.478357875948239e-06,
1503
- "loss": 0.0003,
1504
  "step": 2110
1505
  },
1506
  {
1507
  "epoch": 2.5532811559301627,
1508
- "grad_norm": 0.028400469571352005,
1509
  "learning_rate": 8.25524319500223e-06,
1510
- "loss": 0.0009,
1511
  "step": 2120
1512
  },
1513
  {
1514
  "epoch": 2.5653220951234195,
1515
- "grad_norm": 0.01129979733377695,
1516
  "learning_rate": 8.032128514056226e-06,
1517
- "loss": 0.0026,
1518
  "step": 2130
1519
  },
1520
  {
1521
  "epoch": 2.5773630343166767,
1522
- "grad_norm": 0.011010928079485893,
1523
  "learning_rate": 7.809013833110219e-06,
1524
- "loss": 0.005,
1525
  "step": 2140
1526
  },
1527
  {
1528
  "epoch": 2.589403973509934,
1529
- "grad_norm": 0.016233067959547043,
1530
  "learning_rate": 7.5858991521642126e-06,
1531
- "loss": 0.0002,
1532
  "step": 2150
1533
  },
1534
  {
1535
  "epoch": 2.601444912703191,
1536
- "grad_norm": 0.011614818125963211,
1537
  "learning_rate": 7.362784471218207e-06,
1538
- "loss": 0.0066,
1539
  "step": 2160
1540
  },
1541
  {
1542
  "epoch": 2.613485851896448,
1543
- "grad_norm": 0.009341931901872158,
1544
  "learning_rate": 7.1396697902722e-06,
1545
- "loss": 0.0014,
1546
  "step": 2170
1547
  },
1548
  {
1549
  "epoch": 2.625526791089705,
1550
- "grad_norm": 0.009875635616481304,
1551
  "learning_rate": 6.916555109326194e-06,
1552
- "loss": 0.0017,
1553
  "step": 2180
1554
  },
1555
  {
1556
  "epoch": 2.637567730282962,
1557
- "grad_norm": 4.177189350128174,
1558
  "learning_rate": 6.693440428380188e-06,
1559
  "loss": 0.0124,
1560
  "step": 2190
1561
  },
1562
  {
1563
  "epoch": 2.649608669476219,
1564
- "grad_norm": 0.49204662442207336,
1565
  "learning_rate": 6.4703257474341815e-06,
1566
- "loss": 0.0009,
1567
  "step": 2200
1568
  },
1569
  {
1570
  "epoch": 2.6616496086694763,
1571
- "grad_norm": 0.022006221115589142,
1572
  "learning_rate": 6.247211066488176e-06,
1573
- "loss": 0.0084,
1574
  "step": 2210
1575
  },
1576
  {
1577
  "epoch": 2.6736905478627335,
1578
- "grad_norm": 0.0962655320763588,
1579
  "learning_rate": 6.024096385542169e-06,
1580
- "loss": 0.0073,
1581
  "step": 2220
1582
  },
1583
  {
1584
  "epoch": 2.6857314870559903,
1585
- "grad_norm": 0.7483286261558533,
1586
  "learning_rate": 5.800981704596163e-06,
1587
- "loss": 0.0003,
1588
  "step": 2230
1589
  },
1590
  {
1591
  "epoch": 2.6977724262492475,
1592
- "grad_norm": 0.08093533664941788,
1593
  "learning_rate": 5.577867023650157e-06,
1594
- "loss": 0.0063,
1595
  "step": 2240
1596
  },
1597
  {
1598
  "epoch": 2.7098133654425043,
1599
- "grad_norm": 0.017655853182077408,
1600
  "learning_rate": 5.3547523427041504e-06,
1601
- "loss": 0.0002,
1602
  "step": 2250
1603
  },
1604
  {
1605
  "epoch": 2.7218543046357615,
1606
- "grad_norm": 0.011604108847677708,
1607
  "learning_rate": 5.131637661758144e-06,
1608
- "loss": 0.0002,
1609
  "step": 2260
1610
  },
1611
  {
1612
  "epoch": 2.7338952438290187,
1613
- "grad_norm": 0.09758894145488739,
1614
  "learning_rate": 4.908522980812138e-06,
1615
- "loss": 0.0002,
1616
  "step": 2270
1617
  },
1618
  {
1619
  "epoch": 2.745936183022276,
1620
- "grad_norm": 22.756349563598633,
1621
  "learning_rate": 4.685408299866132e-06,
1622
- "loss": 0.0024,
1623
  "step": 2280
1624
  },
1625
  {
1626
  "epoch": 2.7579771222155327,
1627
- "grad_norm": 1.9275836944580078,
1628
  "learning_rate": 4.462293618920125e-06,
1629
- "loss": 0.0045,
1630
  "step": 2290
1631
  },
1632
  {
1633
  "epoch": 2.77001806140879,
1634
- "grad_norm": 40.43008041381836,
1635
  "learning_rate": 4.239178937974119e-06,
1636
- "loss": 0.0035,
1637
  "step": 2300
1638
  },
1639
  {
1640
  "epoch": 2.7820590006020467,
1641
- "grad_norm": 0.009210176765918732,
1642
  "learning_rate": 4.016064257028113e-06,
1643
- "loss": 0.0008,
1644
  "step": 2310
1645
  },
1646
  {
1647
  "epoch": 2.794099939795304,
1648
- "grad_norm": 0.008633752353489399,
1649
  "learning_rate": 3.7929495760821063e-06,
1650
  "loss": 0.0002,
1651
  "step": 2320
1652
  },
1653
  {
1654
  "epoch": 2.806140878988561,
1655
- "grad_norm": 0.008137097582221031,
1656
  "learning_rate": 3.5698348951361e-06,
1657
- "loss": 0.0002,
1658
  "step": 2330
1659
  },
1660
  {
1661
  "epoch": 2.8181818181818183,
1662
- "grad_norm": 0.011585449799895287,
1663
  "learning_rate": 3.346720214190094e-06,
1664
- "loss": 0.003,
1665
  "step": 2340
1666
  },
1667
  {
1668
  "epoch": 2.830222757375075,
1669
- "grad_norm": 0.00909222662448883,
1670
  "learning_rate": 3.123605533244088e-06,
1671
- "loss": 0.0002,
1672
  "step": 2350
1673
  },
1674
  {
1675
  "epoch": 2.8422636965683323,
1676
- "grad_norm": 1.3680801391601562,
1677
  "learning_rate": 2.9004908522980813e-06,
1678
  "loss": 0.0003,
1679
  "step": 2360
1680
  },
1681
  {
1682
  "epoch": 2.8543046357615895,
1683
- "grad_norm": 0.09263092279434204,
1684
  "learning_rate": 2.6773761713520752e-06,
1685
- "loss": 0.002,
1686
  "step": 2370
1687
  },
1688
  {
1689
  "epoch": 2.8663455749548463,
1690
- "grad_norm": 0.012016590684652328,
1691
  "learning_rate": 2.454261490406069e-06,
1692
- "loss": 0.0002,
1693
  "step": 2380
1694
  },
1695
  {
1696
  "epoch": 2.8783865141481035,
1697
- "grad_norm": 0.02138102613389492,
1698
  "learning_rate": 2.2311468094600625e-06,
1699
- "loss": 0.0002,
1700
  "step": 2390
1701
  },
1702
  {
1703
  "epoch": 2.8904274533413608,
1704
- "grad_norm": 0.00862041860818863,
1705
  "learning_rate": 2.0080321285140564e-06,
1706
  "loss": 0.0002,
1707
  "step": 2400
1708
  },
1709
  {
1710
  "epoch": 2.902468392534618,
1711
- "grad_norm": 0.008481325581669807,
1712
  "learning_rate": 1.78491744756805e-06,
1713
  "loss": 0.0002,
1714
  "step": 2410
1715
  },
1716
  {
1717
  "epoch": 2.9145093317278747,
1718
- "grad_norm": 0.01207977719604969,
1719
  "learning_rate": 1.561802766622044e-06,
1720
- "loss": 0.0002,
1721
  "step": 2420
1722
  },
1723
  {
1724
  "epoch": 2.926550270921132,
1725
- "grad_norm": 0.03627391904592514,
1726
  "learning_rate": 1.3386880856760376e-06,
1727
- "loss": 0.0002,
1728
  "step": 2430
1729
  },
1730
  {
1731
  "epoch": 2.9385912101143887,
1732
- "grad_norm": 0.01422710157930851,
1733
  "learning_rate": 1.1155734047300313e-06,
1734
- "loss": 0.0002,
1735
  "step": 2440
1736
  },
1737
  {
1738
  "epoch": 2.950632149307646,
1739
- "grad_norm": 0.007475409656763077,
1740
  "learning_rate": 8.92458723784025e-07,
1741
- "loss": 0.0004,
1742
  "step": 2450
1743
  },
1744
  {
1745
  "epoch": 2.962673088500903,
1746
- "grad_norm": 0.13591405749320984,
1747
  "learning_rate": 6.693440428380188e-07,
1748
- "loss": 0.0002,
1749
  "step": 2460
1750
  },
1751
  {
1752
  "epoch": 2.9747140276941604,
1753
- "grad_norm": 0.13127803802490234,
1754
  "learning_rate": 4.462293618920125e-07,
1755
- "loss": 0.002,
1756
  "step": 2470
1757
  },
1758
  {
1759
  "epoch": 2.986754966887417,
1760
- "grad_norm": 0.010220134630799294,
1761
  "learning_rate": 2.2311468094600626e-07,
1762
- "loss": 0.0002,
1763
  "step": 2480
1764
  },
1765
  {
1766
  "epoch": 2.9987959060806744,
1767
- "grad_norm": 0.008627759292721748,
1768
  "learning_rate": 0.0,
1769
- "loss": 0.0002,
1770
  "step": 2490
1771
  },
1772
  {
1773
  "epoch": 2.9987959060806744,
1774
- "eval_f1": 0.9948107465549906,
1775
- "eval_loss": 0.008508403785526752,
1776
- "eval_runtime": 109.2642,
1777
- "eval_samples_per_second": 108.087,
1778
- "eval_steps_per_second": 3.386,
1779
  "step": 2490
1780
  },
1781
  {
1782
  "epoch": 2.9987959060806744,
1783
  "step": 2490,
1784
  "total_flos": 4.152545054111269e+19,
1785
- "train_loss": 0.05819672941988573,
1786
- "train_runtime": 6053.7503,
1787
- "train_samples_per_second": 52.671,
1788
- "train_steps_per_second": 0.411
1789
  }
1790
  ],
1791
  "logging_steps": 10,
 
1
  {
2
+ "best_metric": 0.994895873653879,
3
  "best_model_checkpoint": "convnext-base-224-finetuned-eurosat/checkpoint-2490",
4
  "epoch": 2.9987959060806744,
5
  "eval_steps": 500,
 
10
  "log_history": [
11
  {
12
  "epoch": 0.012040939193257074,
13
+ "grad_norm": 13.194865226745605,
14
  "learning_rate": 2.0080321285140564e-06,
15
+ "loss": 1.3766,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.024081878386514148,
20
+ "grad_norm": 10.99959945678711,
21
  "learning_rate": 4.016064257028113e-06,
22
+ "loss": 1.3446,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.036122817579771226,
27
+ "grad_norm": 10.659394264221191,
28
  "learning_rate": 6.024096385542169e-06,
29
+ "loss": 1.285,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.048163756773028296,
34
+ "grad_norm": 14.758916854858398,
35
  "learning_rate": 8.032128514056226e-06,
36
+ "loss": 1.2002,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.060204695966285374,
41
+ "grad_norm": 16.772724151611328,
42
  "learning_rate": 1.0040160642570281e-05,
43
+ "loss": 1.0747,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.07224563515954245,
48
+ "grad_norm": 21.30389404296875,
49
  "learning_rate": 1.2048192771084338e-05,
50
+ "loss": 0.9052,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.08428657435279951,
55
+ "grad_norm": 26.00191879272461,
56
  "learning_rate": 1.4056224899598394e-05,
57
+ "loss": 0.7216,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.09632751354605659,
62
+ "grad_norm": 20.422157287597656,
63
  "learning_rate": 1.606425702811245e-05,
64
+ "loss": 0.5357,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.10836845273931367,
69
+ "grad_norm": 21.17734718322754,
70
  "learning_rate": 1.8072289156626505e-05,
71
+ "loss": 0.414,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.12040939193257075,
76
+ "grad_norm": 24.643775939941406,
77
  "learning_rate": 2.0080321285140562e-05,
78
+ "loss": 0.3476,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.13245033112582782,
83
+ "grad_norm": 34.078800201416016,
84
  "learning_rate": 2.208835341365462e-05,
85
+ "loss": 0.266,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.1444912703190849,
90
+ "grad_norm": 60.97035598754883,
91
  "learning_rate": 2.4096385542168677e-05,
92
+ "loss": 0.2241,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.15653220951234195,
97
+ "grad_norm": 39.30607223510742,
98
  "learning_rate": 2.6104417670682734e-05,
99
+ "loss": 0.1988,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.16857314870559903,
104
+ "grad_norm": 34.965641021728516,
105
  "learning_rate": 2.8112449799196788e-05,
106
+ "loss": 0.1989,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.1806140878988561,
111
+ "grad_norm": 26.677417755126953,
112
  "learning_rate": 3.012048192771085e-05,
113
+ "loss": 0.1652,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.19265502709211318,
118
+ "grad_norm": 21.16180992126465,
119
  "learning_rate": 3.21285140562249e-05,
120
+ "loss": 0.1566,
121
  "step": 160
122
  },
123
  {
124
  "epoch": 0.20469596628537026,
125
+ "grad_norm": 35.19940948486328,
126
  "learning_rate": 3.413654618473896e-05,
127
+ "loss": 0.1497,
128
  "step": 170
129
  },
130
  {
131
  "epoch": 0.21673690547862734,
132
+ "grad_norm": 19.098440170288086,
133
  "learning_rate": 3.614457831325301e-05,
134
+ "loss": 0.1356,
135
  "step": 180
136
  },
137
  {
138
  "epoch": 0.22877784467188442,
139
+ "grad_norm": 42.77901077270508,
140
  "learning_rate": 3.815261044176707e-05,
141
+ "loss": 0.1172,
142
  "step": 190
143
  },
144
  {
145
  "epoch": 0.2408187838651415,
146
+ "grad_norm": 11.036260604858398,
147
  "learning_rate": 4.0160642570281125e-05,
148
+ "loss": 0.0962,
149
  "step": 200
150
  },
151
  {
152
  "epoch": 0.25285972305839854,
153
+ "grad_norm": 23.800642013549805,
154
  "learning_rate": 4.2168674698795186e-05,
155
+ "loss": 0.0878,
156
  "step": 210
157
  },
158
  {
159
  "epoch": 0.26490066225165565,
160
+ "grad_norm": 16.770301818847656,
161
  "learning_rate": 4.417670682730924e-05,
162
+ "loss": 0.084,
163
  "step": 220
164
  },
165
  {
166
  "epoch": 0.2769416014449127,
167
+ "grad_norm": 14.868804931640625,
168
  "learning_rate": 4.61847389558233e-05,
169
+ "loss": 0.107,
170
  "step": 230
171
  },
172
  {
173
  "epoch": 0.2889825406381698,
174
+ "grad_norm": 10.135931015014648,
175
  "learning_rate": 4.8192771084337354e-05,
176
+ "loss": 0.0823,
177
  "step": 240
178
  },
179
  {
180
  "epoch": 0.30102347983142685,
181
+ "grad_norm": 29.757469177246094,
182
  "learning_rate": 4.9977688531905406e-05,
183
+ "loss": 0.07,
184
  "step": 250
185
  },
186
  {
187
  "epoch": 0.3130644190246839,
188
+ "grad_norm": 8.043286323547363,
189
  "learning_rate": 4.97545738509594e-05,
190
+ "loss": 0.0655,
191
  "step": 260
192
  },
193
  {
194
  "epoch": 0.325105358217941,
195
+ "grad_norm": 11.818015098571777,
196
  "learning_rate": 4.953145917001339e-05,
197
+ "loss": 0.0571,
198
  "step": 270
199
  },
200
  {
201
  "epoch": 0.33714629741119806,
202
+ "grad_norm": 24.017484664916992,
203
  "learning_rate": 4.930834448906738e-05,
204
+ "loss": 0.0673,
205
  "step": 280
206
  },
207
  {
208
  "epoch": 0.34918723660445516,
209
+ "grad_norm": 9.49643325805664,
210
  "learning_rate": 4.908522980812137e-05,
211
+ "loss": 0.0683,
212
  "step": 290
213
  },
214
  {
215
  "epoch": 0.3612281757977122,
216
+ "grad_norm": 22.132099151611328,
217
  "learning_rate": 4.886211512717537e-05,
218
+ "loss": 0.0735,
219
  "step": 300
220
  },
221
  {
222
  "epoch": 0.3732691149909693,
223
+ "grad_norm": 17.463157653808594,
224
  "learning_rate": 4.8639000446229364e-05,
225
+ "loss": 0.0448,
226
  "step": 310
227
  },
228
  {
229
  "epoch": 0.38531005418422637,
230
+ "grad_norm": 11.628926277160645,
231
  "learning_rate": 4.8415885765283355e-05,
232
+ "loss": 0.0638,
233
  "step": 320
234
  },
235
  {
236
  "epoch": 0.3973509933774834,
237
+ "grad_norm": 17.63985252380371,
238
  "learning_rate": 4.8192771084337354e-05,
239
+ "loss": 0.0587,
240
  "step": 330
241
  },
242
  {
243
  "epoch": 0.4093919325707405,
244
+ "grad_norm": 12.73922061920166,
245
  "learning_rate": 4.7969656403391346e-05,
246
+ "loss": 0.072,
247
  "step": 340
248
  },
249
  {
250
  "epoch": 0.4214328717639976,
251
+ "grad_norm": 9.357921600341797,
252
  "learning_rate": 4.774654172244534e-05,
253
+ "loss": 0.0305,
254
  "step": 350
255
  },
256
  {
257
  "epoch": 0.4334738109572547,
258
+ "grad_norm": 10.350850105285645,
259
  "learning_rate": 4.7523427041499336e-05,
260
+ "loss": 0.0435,
261
  "step": 360
262
  },
263
  {
264
  "epoch": 0.44551475015051173,
265
+ "grad_norm": 18.032106399536133,
266
  "learning_rate": 4.730031236055333e-05,
267
+ "loss": 0.0353,
268
  "step": 370
269
  },
270
  {
271
  "epoch": 0.45755568934376883,
272
+ "grad_norm": 18.358362197875977,
273
  "learning_rate": 4.707719767960732e-05,
274
+ "loss": 0.0396,
275
  "step": 380
276
  },
277
  {
278
  "epoch": 0.4695966285370259,
279
+ "grad_norm": 22.580930709838867,
280
  "learning_rate": 4.685408299866131e-05,
281
+ "loss": 0.0569,
282
  "step": 390
283
  },
284
  {
285
  "epoch": 0.481637567730283,
286
+ "grad_norm": 12.24130916595459,
287
  "learning_rate": 4.663096831771531e-05,
288
+ "loss": 0.0703,
289
  "step": 400
290
  },
291
  {
292
  "epoch": 0.49367850692354004,
293
+ "grad_norm": 18.149843215942383,
294
  "learning_rate": 4.64078536367693e-05,
295
+ "loss": 0.052,
296
  "step": 410
297
  },
298
  {
299
  "epoch": 0.5057194461167971,
300
+ "grad_norm": 7.217360496520996,
301
  "learning_rate": 4.61847389558233e-05,
302
  "loss": 0.0419,
303
  "step": 420
304
  },
305
  {
306
  "epoch": 0.5177603853100542,
307
+ "grad_norm": 15.023098945617676,
308
  "learning_rate": 4.596162427487729e-05,
309
+ "loss": 0.0603,
310
  "step": 430
311
  },
312
  {
313
  "epoch": 0.5298013245033113,
314
+ "grad_norm": 2.35644268989563,
315
  "learning_rate": 4.5738509593931284e-05,
316
+ "loss": 0.0275,
317
  "step": 440
318
  },
319
  {
320
  "epoch": 0.5418422636965683,
321
+ "grad_norm": 8.228934288024902,
322
  "learning_rate": 4.5515394912985275e-05,
323
+ "loss": 0.0383,
324
  "step": 450
325
  },
326
  {
327
  "epoch": 0.5538832028898254,
328
+ "grad_norm": 9.796806335449219,
329
  "learning_rate": 4.529228023203927e-05,
330
+ "loss": 0.0334,
331
  "step": 460
332
  },
333
  {
334
  "epoch": 0.5659241420830825,
335
+ "grad_norm": 16.539167404174805,
336
  "learning_rate": 4.506916555109326e-05,
337
+ "loss": 0.0323,
338
  "step": 470
339
  },
340
  {
341
  "epoch": 0.5779650812763396,
342
+ "grad_norm": 19.142715454101562,
343
  "learning_rate": 4.484605087014726e-05,
344
+ "loss": 0.0362,
345
  "step": 480
346
  },
347
  {
348
  "epoch": 0.5900060204695966,
349
+ "grad_norm": 2.512476682662964,
350
  "learning_rate": 4.4622936189201256e-05,
351
+ "loss": 0.0232,
352
  "step": 490
353
  },
354
  {
355
  "epoch": 0.6020469596628537,
356
+ "grad_norm": 23.41269302368164,
357
  "learning_rate": 4.439982150825525e-05,
358
+ "loss": 0.036,
359
  "step": 500
360
  },
361
  {
362
  "epoch": 0.6140878988561108,
363
+ "grad_norm": 7.777035713195801,
364
  "learning_rate": 4.417670682730924e-05,
365
+ "loss": 0.0397,
366
  "step": 510
367
  },
368
  {
369
  "epoch": 0.6261288380493678,
370
+ "grad_norm": 3.8365113735198975,
371
  "learning_rate": 4.395359214636323e-05,
372
+ "loss": 0.0224,
373
  "step": 520
374
  },
375
  {
376
  "epoch": 0.6381697772426249,
377
+ "grad_norm": 2.88848876953125,
378
  "learning_rate": 4.373047746541722e-05,
379
+ "loss": 0.0105,
380
  "step": 530
381
  },
382
  {
383
  "epoch": 0.650210716435882,
384
+ "grad_norm": 4.8202972412109375,
385
  "learning_rate": 4.350736278447122e-05,
386
+ "loss": 0.033,
387
  "step": 540
388
  },
389
  {
390
  "epoch": 0.6622516556291391,
391
+ "grad_norm": 14.322851181030273,
392
  "learning_rate": 4.328424810352521e-05,
393
+ "loss": 0.0323,
394
  "step": 550
395
  },
396
  {
397
  "epoch": 0.6742925948223961,
398
+ "grad_norm": 7.548096179962158,
399
  "learning_rate": 4.306113342257921e-05,
400
+ "loss": 0.0301,
401
  "step": 560
402
  },
403
  {
404
  "epoch": 0.6863335340156532,
405
+ "grad_norm": 14.765242576599121,
406
  "learning_rate": 4.2838018741633203e-05,
407
+ "loss": 0.0446,
408
  "step": 570
409
  },
410
  {
411
  "epoch": 0.6983744732089103,
412
+ "grad_norm": 3.6058449745178223,
413
  "learning_rate": 4.2614904060687195e-05,
414
+ "loss": 0.0334,
415
  "step": 580
416
  },
417
  {
418
  "epoch": 0.7104154124021673,
419
+ "grad_norm": 3.7084667682647705,
420
  "learning_rate": 4.239178937974119e-05,
421
+ "loss": 0.0211,
422
  "step": 590
423
  },
424
  {
425
  "epoch": 0.7224563515954244,
426
+ "grad_norm": 26.29864501953125,
427
  "learning_rate": 4.2168674698795186e-05,
428
+ "loss": 0.0444,
429
  "step": 600
430
  },
431
  {
432
  "epoch": 0.7344972907886815,
433
+ "grad_norm": 16.656940460205078,
434
  "learning_rate": 4.194556001784918e-05,
435
+ "loss": 0.03,
436
  "step": 610
437
  },
438
  {
439
  "epoch": 0.7465382299819386,
440
+ "grad_norm": 14.499817848205566,
441
  "learning_rate": 4.172244533690317e-05,
442
+ "loss": 0.0285,
443
  "step": 620
444
  },
445
  {
446
  "epoch": 0.7585791691751956,
447
+ "grad_norm": 18.41780662536621,
448
  "learning_rate": 4.149933065595716e-05,
449
+ "loss": 0.0256,
450
  "step": 630
451
  },
452
  {
453
  "epoch": 0.7706201083684527,
454
+ "grad_norm": 9.299426078796387,
455
  "learning_rate": 4.127621597501116e-05,
456
+ "loss": 0.0228,
457
  "step": 640
458
  },
459
  {
460
  "epoch": 0.7826610475617098,
461
+ "grad_norm": 12.47787857055664,
462
  "learning_rate": 4.105310129406515e-05,
463
+ "loss": 0.0255,
464
  "step": 650
465
  },
466
  {
467
  "epoch": 0.7947019867549668,
468
+ "grad_norm": 4.619048595428467,
469
  "learning_rate": 4.082998661311915e-05,
470
+ "loss": 0.0467,
471
  "step": 660
472
  },
473
  {
474
  "epoch": 0.8067429259482239,
475
+ "grad_norm": 2.003941059112549,
476
  "learning_rate": 4.060687193217314e-05,
477
+ "loss": 0.015,
478
  "step": 670
479
  },
480
  {
481
  "epoch": 0.818783865141481,
482
+ "grad_norm": 5.838876724243164,
483
  "learning_rate": 4.038375725122713e-05,
484
+ "loss": 0.0192,
485
  "step": 680
486
  },
487
  {
488
  "epoch": 0.8308248043347382,
489
+ "grad_norm": 11.127952575683594,
490
  "learning_rate": 4.0160642570281125e-05,
491
+ "loss": 0.0324,
492
  "step": 690
493
  },
494
  {
495
  "epoch": 0.8428657435279951,
496
+ "grad_norm": 7.260125160217285,
497
  "learning_rate": 3.993752788933512e-05,
498
+ "loss": 0.0282,
499
  "step": 700
500
  },
501
  {
502
  "epoch": 0.8549066827212523,
503
+ "grad_norm": 8.641480445861816,
504
  "learning_rate": 3.9714413208389115e-05,
505
+ "loss": 0.0465,
506
  "step": 710
507
  },
508
  {
509
  "epoch": 0.8669476219145094,
510
+ "grad_norm": 20.085968017578125,
511
  "learning_rate": 3.949129852744311e-05,
512
+ "loss": 0.0284,
513
  "step": 720
514
  },
515
  {
516
  "epoch": 0.8789885611077664,
517
+ "grad_norm": 10.058391571044922,
518
  "learning_rate": 3.9268183846497105e-05,
519
+ "loss": 0.0324,
520
  "step": 730
521
  },
522
  {
523
  "epoch": 0.8910295003010235,
524
+ "grad_norm": 3.2667603492736816,
525
  "learning_rate": 3.90450691655511e-05,
526
+ "loss": 0.0185,
527
  "step": 740
528
  },
529
  {
530
  "epoch": 0.9030704394942806,
531
+ "grad_norm": 14.557952880859375,
532
  "learning_rate": 3.882195448460509e-05,
533
+ "loss": 0.0126,
534
  "step": 750
535
  },
536
  {
537
  "epoch": 0.9151113786875377,
538
+ "grad_norm": 8.564680099487305,
539
  "learning_rate": 3.859883980365908e-05,
540
+ "loss": 0.0261,
541
  "step": 760
542
  },
543
  {
544
  "epoch": 0.9271523178807947,
545
+ "grad_norm": 4.106870174407959,
546
  "learning_rate": 3.837572512271307e-05,
547
+ "loss": 0.0207,
548
  "step": 770
549
  },
550
  {
551
  "epoch": 0.9391932570740518,
552
+ "grad_norm": 7.618483543395996,
553
  "learning_rate": 3.815261044176707e-05,
554
+ "loss": 0.0385,
555
  "step": 780
556
  },
557
  {
558
  "epoch": 0.9512341962673089,
559
+ "grad_norm": 14.047365188598633,
560
  "learning_rate": 3.792949576082106e-05,
561
+ "loss": 0.0331,
562
  "step": 790
563
  },
564
  {
565
  "epoch": 0.963275135460566,
566
+ "grad_norm": 0.3435573875904083,
567
  "learning_rate": 3.770638107987506e-05,
568
+ "loss": 0.0169,
569
  "step": 800
570
  },
571
  {
572
  "epoch": 0.975316074653823,
573
+ "grad_norm": 0.7744494080543518,
574
  "learning_rate": 3.748326639892905e-05,
575
+ "loss": 0.0154,
576
  "step": 810
577
  },
578
  {
579
  "epoch": 0.9873570138470801,
580
+ "grad_norm": 5.615227699279785,
581
  "learning_rate": 3.7260151717983045e-05,
582
+ "loss": 0.0194,
583
  "step": 820
584
  },
585
  {
586
  "epoch": 0.9993979530403372,
587
+ "grad_norm": 6.243287563323975,
588
  "learning_rate": 3.7037037037037037e-05,
589
+ "loss": 0.0242,
590
  "step": 830
591
  },
592
  {
593
  "epoch": 0.9993979530403372,
594
+ "eval_f1": 0.9902855517157121,
595
+ "eval_loss": 0.01683718152344227,
596
+ "eval_runtime": 158.7916,
597
+ "eval_samples_per_second": 74.374,
598
+ "eval_steps_per_second": 2.33,
599
  "step": 830
600
  },
601
  {
602
  "epoch": 1.0117399157134257,
603
+ "grad_norm": 5.433340072631836,
604
  "learning_rate": 3.6813922356091035e-05,
605
+ "loss": 0.02,
606
  "step": 840
607
  },
608
  {
609
  "epoch": 1.0237808549066827,
610
+ "grad_norm": 0.711068332195282,
611
  "learning_rate": 3.659080767514503e-05,
612
+ "loss": 0.0041,
613
  "step": 850
614
  },
615
  {
616
  "epoch": 1.03582179409994,
617
+ "grad_norm": 0.14189627766609192,
618
  "learning_rate": 3.636769299419902e-05,
619
+ "loss": 0.0139,
620
  "step": 860
621
  },
622
  {
623
  "epoch": 1.047862733293197,
624
+ "grad_norm": 11.135564804077148,
625
  "learning_rate": 3.614457831325301e-05,
626
+ "loss": 0.0175,
627
  "step": 870
628
  },
629
  {
630
  "epoch": 1.059903672486454,
631
+ "grad_norm": 0.0977085754275322,
632
  "learning_rate": 3.592146363230701e-05,
633
+ "loss": 0.0075,
634
  "step": 880
635
  },
636
  {
637
  "epoch": 1.0719446116797111,
638
+ "grad_norm": 0.896812915802002,
639
  "learning_rate": 3.5698348951361e-05,
640
+ "loss": 0.0083,
641
  "step": 890
642
  },
643
  {
644
  "epoch": 1.083985550872968,
645
+ "grad_norm": 4.47445011138916,
646
  "learning_rate": 3.5475234270415e-05,
647
+ "loss": 0.0058,
648
  "step": 900
649
  },
650
  {
651
  "epoch": 1.096026490066225,
652
+ "grad_norm": 6.7714457511901855,
653
  "learning_rate": 3.525211958946899e-05,
654
+ "loss": 0.0126,
655
  "step": 910
656
  },
657
  {
658
  "epoch": 1.1080674292594823,
659
+ "grad_norm": 23.34847068786621,
660
  "learning_rate": 3.502900490852298e-05,
661
+ "loss": 0.0161,
662
  "step": 920
663
  },
664
  {
665
  "epoch": 1.1201083684527393,
666
+ "grad_norm": 0.047478608787059784,
667
  "learning_rate": 3.4805890227576974e-05,
668
+ "loss": 0.0203,
669
  "step": 930
670
  },
671
  {
672
  "epoch": 1.1321493076459963,
673
+ "grad_norm": 0.1649002730846405,
674
  "learning_rate": 3.4582775546630966e-05,
675
+ "loss": 0.0177,
676
  "step": 940
677
  },
678
  {
679
  "epoch": 1.1441902468392535,
680
+ "grad_norm": 15.473665237426758,
681
  "learning_rate": 3.4359660865684965e-05,
682
+ "loss": 0.0108,
683
  "step": 950
684
  },
685
  {
686
  "epoch": 1.1562311860325105,
687
+ "grad_norm": 15.388993263244629,
688
  "learning_rate": 3.413654618473896e-05,
689
+ "loss": 0.0111,
690
  "step": 960
691
  },
692
  {
693
  "epoch": 1.1682721252257675,
694
+ "grad_norm": 0.5350409746170044,
695
  "learning_rate": 3.3913431503792955e-05,
696
+ "loss": 0.0104,
697
  "step": 970
698
  },
699
  {
700
  "epoch": 1.1803130644190247,
701
+ "grad_norm": 0.1209443062543869,
702
  "learning_rate": 3.369031682284695e-05,
703
+ "loss": 0.0154,
704
  "step": 980
705
  },
706
  {
707
  "epoch": 1.1923540036122817,
708
+ "grad_norm": 5.60445499420166,
709
  "learning_rate": 3.346720214190094e-05,
710
+ "loss": 0.0132,
711
  "step": 990
712
  },
713
  {
714
  "epoch": 1.2043949428055387,
715
+ "grad_norm": 2.625100612640381,
716
  "learning_rate": 3.324408746095493e-05,
717
+ "loss": 0.0127,
718
  "step": 1000
719
  },
720
  {
721
  "epoch": 1.216435881998796,
722
+ "grad_norm": 3.1627309322357178,
723
  "learning_rate": 3.302097278000892e-05,
724
+ "loss": 0.0043,
725
  "step": 1010
726
  },
727
  {
728
  "epoch": 1.228476821192053,
729
+ "grad_norm": 0.24617458879947662,
730
  "learning_rate": 3.279785809906292e-05,
731
+ "loss": 0.0078,
732
  "step": 1020
733
  },
734
  {
735
  "epoch": 1.2405177603853101,
736
+ "grad_norm": 0.4519745111465454,
737
  "learning_rate": 3.257474341811691e-05,
738
+ "loss": 0.0051,
739
  "step": 1030
740
  },
741
  {
742
  "epoch": 1.2525586995785671,
743
+ "grad_norm": 0.5981425642967224,
744
  "learning_rate": 3.235162873717091e-05,
745
+ "loss": 0.0064,
746
  "step": 1040
747
  },
748
  {
749
  "epoch": 1.2645996387718241,
750
+ "grad_norm": 0.020264046266674995,
751
  "learning_rate": 3.21285140562249e-05,
752
+ "loss": 0.0173,
753
  "step": 1050
754
  },
755
  {
756
  "epoch": 1.2766405779650813,
757
+ "grad_norm": 21.119285583496094,
758
  "learning_rate": 3.1905399375278894e-05,
759
+ "loss": 0.01,
760
  "step": 1060
761
  },
762
  {
763
  "epoch": 1.2886815171583383,
764
+ "grad_norm": 15.559020042419434,
765
  "learning_rate": 3.1682284694332886e-05,
766
+ "loss": 0.0163,
767
  "step": 1070
768
  },
769
  {
770
  "epoch": 1.3007224563515956,
771
+ "grad_norm": 0.3815273642539978,
772
  "learning_rate": 3.1459170013386885e-05,
773
+ "loss": 0.0064,
774
  "step": 1080
775
  },
776
  {
777
  "epoch": 1.3127633955448526,
778
+ "grad_norm": 24.21092414855957,
779
  "learning_rate": 3.1236055332440876e-05,
780
+ "loss": 0.0135,
781
  "step": 1090
782
  },
783
  {
784
  "epoch": 1.3248043347381095,
785
+ "grad_norm": 0.1006922796368599,
786
  "learning_rate": 3.101294065149487e-05,
787
+ "loss": 0.0314,
788
  "step": 1100
789
  },
790
  {
791
  "epoch": 1.3368452739313668,
792
+ "grad_norm": 13.257355690002441,
793
  "learning_rate": 3.078982597054887e-05,
794
+ "loss": 0.0077,
795
  "step": 1110
796
  },
797
  {
798
  "epoch": 1.3488862131246238,
799
+ "grad_norm": 0.17610830068588257,
800
  "learning_rate": 3.056671128960286e-05,
801
+ "loss": 0.0169,
802
  "step": 1120
803
  },
804
  {
805
  "epoch": 1.3609271523178808,
806
+ "grad_norm": 10.659666061401367,
807
  "learning_rate": 3.034359660865685e-05,
808
+ "loss": 0.0372,
809
  "step": 1130
810
  },
811
  {
812
  "epoch": 1.372968091511138,
813
+ "grad_norm": 13.006769180297852,
814
  "learning_rate": 3.012048192771085e-05,
815
+ "loss": 0.0261,
816
  "step": 1140
817
  },
818
  {
819
  "epoch": 1.385009030704395,
820
+ "grad_norm": 3.6800951957702637,
821
  "learning_rate": 2.989736724676484e-05,
822
+ "loss": 0.0072,
823
  "step": 1150
824
  },
825
  {
826
  "epoch": 1.397049969897652,
827
+ "grad_norm": 0.10272738337516785,
828
  "learning_rate": 2.9674252565818832e-05,
829
+ "loss": 0.0115,
830
  "step": 1160
831
  },
832
  {
833
  "epoch": 1.4090909090909092,
834
+ "grad_norm": 0.10577847063541412,
835
  "learning_rate": 2.9451137884872827e-05,
836
+ "loss": 0.0095,
837
  "step": 1170
838
  },
839
  {
840
  "epoch": 1.4211318482841662,
841
+ "grad_norm": 0.6034663915634155,
842
  "learning_rate": 2.922802320392682e-05,
843
+ "loss": 0.0183,
844
  "step": 1180
845
  },
846
  {
847
  "epoch": 1.4331727874774232,
848
+ "grad_norm": 0.03119043819606304,
849
  "learning_rate": 2.900490852298081e-05,
850
+ "loss": 0.0209,
851
  "step": 1190
852
  },
853
  {
854
  "epoch": 1.4452137266706804,
855
+ "grad_norm": 0.04898101091384888,
856
  "learning_rate": 2.878179384203481e-05,
857
+ "loss": 0.0142,
858
  "step": 1200
859
  },
860
  {
861
  "epoch": 1.4572546658639374,
862
+ "grad_norm": 0.08179830759763718,
863
  "learning_rate": 2.85586791610888e-05,
864
+ "loss": 0.0185,
865
  "step": 1210
866
  },
867
  {
868
  "epoch": 1.4692956050571944,
869
+ "grad_norm": 0.37462204694747925,
870
  "learning_rate": 2.8335564480142796e-05,
871
+ "loss": 0.0137,
872
  "step": 1220
873
  },
874
  {
875
  "epoch": 1.4813365442504516,
876
+ "grad_norm": 8.365055084228516,
877
  "learning_rate": 2.8112449799196788e-05,
878
+ "loss": 0.0043,
879
  "step": 1230
880
  },
881
  {
882
  "epoch": 1.4933774834437086,
883
+ "grad_norm": 0.1767185479402542,
884
  "learning_rate": 2.788933511825078e-05,
885
+ "loss": 0.0133,
886
  "step": 1240
887
  },
888
  {
889
  "epoch": 1.5054184226369656,
890
+ "grad_norm": 10.049013137817383,
891
  "learning_rate": 2.7666220437304775e-05,
892
+ "loss": 0.0204,
893
  "step": 1250
894
  },
895
  {
896
  "epoch": 1.5174593618302228,
897
+ "grad_norm": 9.319756507873535,
898
  "learning_rate": 2.7443105756358774e-05,
899
+ "loss": 0.0099,
900
  "step": 1260
901
  },
902
  {
903
  "epoch": 1.5295003010234798,
904
+ "grad_norm": 0.5939036011695862,
905
  "learning_rate": 2.7219991075412765e-05,
906
+ "loss": 0.0192,
907
  "step": 1270
908
  },
909
  {
910
  "epoch": 1.5415412402167368,
911
+ "grad_norm": 0.03510546311736107,
912
  "learning_rate": 2.6996876394466757e-05,
913
+ "loss": 0.0065,
914
  "step": 1280
915
  },
916
  {
917
  "epoch": 1.553582179409994,
918
+ "grad_norm": 0.03960377350449562,
919
  "learning_rate": 2.6773761713520752e-05,
920
+ "loss": 0.0085,
921
  "step": 1290
922
  },
923
  {
924
  "epoch": 1.5656231186032512,
925
+ "grad_norm": 11.613543510437012,
926
  "learning_rate": 2.6550647032574744e-05,
927
+ "loss": 0.0146,
928
  "step": 1300
929
  },
930
  {
931
  "epoch": 1.577664057796508,
932
+ "grad_norm": 2.0522215366363525,
933
  "learning_rate": 2.6327532351628736e-05,
934
+ "loss": 0.0014,
935
  "step": 1310
936
  },
937
  {
938
  "epoch": 1.5897049969897652,
939
+ "grad_norm": 32.89421844482422,
940
  "learning_rate": 2.6104417670682734e-05,
941
+ "loss": 0.01,
942
  "step": 1320
943
  },
944
  {
945
  "epoch": 1.6017459361830224,
946
+ "grad_norm": 0.1284407079219818,
947
  "learning_rate": 2.5881302989736726e-05,
948
+ "loss": 0.0118,
949
  "step": 1330
950
  },
951
  {
952
  "epoch": 1.6137868753762792,
953
+ "grad_norm": 7.301222324371338,
954
  "learning_rate": 2.565818830879072e-05,
955
+ "loss": 0.0146,
956
  "step": 1340
957
  },
958
  {
959
  "epoch": 1.6258278145695364,
960
+ "grad_norm": 3.3705849647521973,
961
  "learning_rate": 2.5435073627844713e-05,
962
+ "loss": 0.0113,
963
  "step": 1350
964
  },
965
  {
966
  "epoch": 1.6378687537627936,
967
+ "grad_norm": 4.357827663421631,
968
  "learning_rate": 2.5211958946898705e-05,
969
+ "loss": 0.0056,
970
  "step": 1360
971
  },
972
  {
973
  "epoch": 1.6499096929560506,
974
+ "grad_norm": 5.27785587310791,
975
  "learning_rate": 2.4988844265952703e-05,
976
+ "loss": 0.0153,
977
  "step": 1370
978
  },
979
  {
980
  "epoch": 1.6619506321493076,
981
+ "grad_norm": 6.584476470947266,
982
  "learning_rate": 2.4765729585006695e-05,
983
+ "loss": 0.0234,
984
  "step": 1380
985
  },
986
  {
987
  "epoch": 1.6739915713425648,
988
+ "grad_norm": 0.07857084274291992,
989
  "learning_rate": 2.4542614904060687e-05,
990
+ "loss": 0.0097,
991
  "step": 1390
992
  },
993
  {
994
  "epoch": 1.6860325105358218,
995
+ "grad_norm": 8.162418365478516,
996
  "learning_rate": 2.4319500223114682e-05,
997
+ "loss": 0.0134,
998
  "step": 1400
999
  },
1000
  {
1001
  "epoch": 1.6980734497290788,
1002
+ "grad_norm": 0.4992442727088928,
1003
  "learning_rate": 2.4096385542168677e-05,
1004
+ "loss": 0.0144,
1005
  "step": 1410
1006
  },
1007
  {
1008
  "epoch": 1.710114388922336,
1009
+ "grad_norm": 0.058108534663915634,
1010
  "learning_rate": 2.387327086122267e-05,
1011
+ "loss": 0.0105,
1012
  "step": 1420
1013
  },
1014
  {
1015
  "epoch": 1.722155328115593,
1016
+ "grad_norm": 3.4073092937469482,
1017
  "learning_rate": 2.3650156180276664e-05,
1018
+ "loss": 0.0327,
1019
  "step": 1430
1020
  },
1021
  {
1022
  "epoch": 1.73419626730885,
1023
+ "grad_norm": 6.666907787322998,
1024
  "learning_rate": 2.3427041499330656e-05,
1025
+ "loss": 0.0148,
1026
  "step": 1440
1027
  },
1028
  {
1029
  "epoch": 1.7462372065021072,
1030
+ "grad_norm": 0.18498630821704865,
1031
  "learning_rate": 2.320392681838465e-05,
1032
+ "loss": 0.0262,
1033
  "step": 1450
1034
  },
1035
  {
1036
  "epoch": 1.7582781456953642,
1037
+ "grad_norm": 11.826184272766113,
1038
  "learning_rate": 2.2980812137438646e-05,
1039
+ "loss": 0.0023,
1040
  "step": 1460
1041
  },
1042
  {
1043
  "epoch": 1.7703190848886212,
1044
+ "grad_norm": 30.59642791748047,
1045
  "learning_rate": 2.2757697456492638e-05,
1046
+ "loss": 0.0209,
1047
  "step": 1470
1048
  },
1049
  {
1050
  "epoch": 1.7823600240818784,
1051
+ "grad_norm": 0.48171374201774597,
1052
  "learning_rate": 2.253458277554663e-05,
1053
+ "loss": 0.0141,
1054
  "step": 1480
1055
  },
1056
  {
1057
  "epoch": 1.7944009632751354,
1058
+ "grad_norm": 0.16140851378440857,
1059
  "learning_rate": 2.2311468094600628e-05,
1060
+ "loss": 0.0038,
1061
  "step": 1490
1062
  },
1063
  {
1064
  "epoch": 1.8064419024683924,
1065
+ "grad_norm": 11.184020042419434,
1066
  "learning_rate": 2.208835341365462e-05,
1067
+ "loss": 0.0191,
1068
  "step": 1500
1069
  },
1070
  {
1071
  "epoch": 1.8184828416616496,
1072
+ "grad_norm": 0.04441598430275917,
1073
  "learning_rate": 2.186523873270861e-05,
1074
+ "loss": 0.0056,
1075
  "step": 1510
1076
  },
1077
  {
1078
  "epoch": 1.8305237808549066,
1079
+ "grad_norm": 0.02468044124543667,
1080
  "learning_rate": 2.1642124051762607e-05,
1081
+ "loss": 0.0019,
1082
  "step": 1520
1083
  },
1084
  {
1085
  "epoch": 1.8425647200481636,
1086
+ "grad_norm": 0.9031987190246582,
1087
  "learning_rate": 2.1419009370816602e-05,
1088
+ "loss": 0.0057,
1089
  "step": 1530
1090
  },
1091
  {
1092
  "epoch": 1.8546056592414208,
1093
+ "grad_norm": 24.169157028198242,
1094
  "learning_rate": 2.1195894689870593e-05,
1095
+ "loss": 0.023,
1096
  "step": 1540
1097
  },
1098
  {
1099
  "epoch": 1.866646598434678,
1100
+ "grad_norm": 5.31037712097168,
1101
  "learning_rate": 2.097278000892459e-05,
1102
+ "loss": 0.005,
1103
  "step": 1550
1104
  },
1105
  {
1106
  "epoch": 1.8786875376279348,
1107
+ "grad_norm": 28.011241912841797,
1108
  "learning_rate": 2.074966532797858e-05,
1109
+ "loss": 0.0032,
1110
  "step": 1560
1111
  },
1112
  {
1113
  "epoch": 1.890728476821192,
1114
+ "grad_norm": 20.326263427734375,
1115
  "learning_rate": 2.0526550647032576e-05,
1116
+ "loss": 0.0154,
1117
  "step": 1570
1118
  },
1119
  {
1120
  "epoch": 1.9027694160144493,
1121
+ "grad_norm": 16.641881942749023,
1122
  "learning_rate": 2.030343596608657e-05,
1123
+ "loss": 0.0165,
1124
  "step": 1580
1125
  },
1126
  {
1127
  "epoch": 1.914810355207706,
1128
+ "grad_norm": 20.551401138305664,
1129
  "learning_rate": 2.0080321285140562e-05,
1130
+ "loss": 0.0038,
1131
  "step": 1590
1132
  },
1133
  {
1134
  "epoch": 1.9268512944009633,
1135
+ "grad_norm": 3.062608480453491,
1136
  "learning_rate": 1.9857206604194558e-05,
1137
+ "loss": 0.005,
1138
  "step": 1600
1139
  },
1140
  {
1141
  "epoch": 1.9388922335942205,
1142
+ "grad_norm": 13.328275680541992,
1143
  "learning_rate": 1.9634091923248553e-05,
1144
+ "loss": 0.0199,
1145
  "step": 1610
1146
  },
1147
  {
1148
  "epoch": 1.9509331727874775,
1149
+ "grad_norm": 1.0551005601882935,
1150
  "learning_rate": 1.9410977242302544e-05,
1151
+ "loss": 0.011,
1152
  "step": 1620
1153
  },
1154
  {
1155
  "epoch": 1.9629741119807345,
1156
+ "grad_norm": 0.9096565842628479,
1157
  "learning_rate": 1.9187862561356536e-05,
1158
+ "loss": 0.0227,
1159
  "step": 1630
1160
  },
1161
  {
1162
  "epoch": 1.9750150511739917,
1163
+ "grad_norm": 0.07952883094549179,
1164
  "learning_rate": 1.896474788041053e-05,
1165
  "loss": 0.0009,
1166
  "step": 1640
1167
  },
1168
  {
1169
  "epoch": 1.9870559903672487,
1170
+ "grad_norm": 0.0597514845430851,
1171
  "learning_rate": 1.8741633199464527e-05,
1172
+ "loss": 0.0013,
1173
  "step": 1650
1174
  },
1175
  {
1176
  "epoch": 1.9990969295605057,
1177
+ "grad_norm": 4.350442886352539,
1178
  "learning_rate": 1.8518518518518518e-05,
1179
+ "loss": 0.0127,
1180
  "step": 1660
1181
  },
1182
  {
1183
  "epoch": 1.9990969295605057,
1184
+ "eval_f1": 0.9941047948626572,
1185
+ "eval_loss": 0.009086688049137592,
1186
+ "eval_runtime": 158.1432,
1187
+ "eval_samples_per_second": 74.679,
1188
+ "eval_steps_per_second": 2.34,
1189
  "step": 1660
1190
  },
1191
  {
1192
  "epoch": 2.011438892233594,
1193
+ "grad_norm": 0.3171527683734894,
1194
  "learning_rate": 1.8295403837572513e-05,
1195
+ "loss": 0.007,
1196
  "step": 1670
1197
  },
1198
  {
1199
  "epoch": 2.0234798314268514,
1200
+ "grad_norm": 0.17591948807239532,
1201
  "learning_rate": 1.8072289156626505e-05,
1202
+ "loss": 0.0034,
1203
  "step": 1680
1204
  },
1205
  {
1206
  "epoch": 2.035520770620108,
1207
+ "grad_norm": 0.019866205751895905,
1208
  "learning_rate": 1.78491744756805e-05,
1209
  "loss": 0.0006,
1210
  "step": 1690
1211
  },
1212
  {
1213
  "epoch": 2.0475617098133654,
1214
+ "grad_norm": 0.042357683181762695,
1215
  "learning_rate": 1.7626059794734495e-05,
1216
+ "loss": 0.0018,
1217
  "step": 1700
1218
  },
1219
  {
1220
  "epoch": 2.0596026490066226,
1221
+ "grad_norm": 6.617299556732178,
1222
  "learning_rate": 1.7402945113788487e-05,
1223
+ "loss": 0.0144,
1224
  "step": 1710
1225
  },
1226
  {
1227
  "epoch": 2.07164358819988,
1228
+ "grad_norm": 28.643131256103516,
1229
  "learning_rate": 1.7179830432842482e-05,
1230
+ "loss": 0.0073,
1231
  "step": 1720
1232
  },
1233
  {
1234
  "epoch": 2.0836845273931366,
1235
+ "grad_norm": 1.9134842157363892,
1236
  "learning_rate": 1.6956715751896478e-05,
1237
+ "loss": 0.016,
1238
  "step": 1730
1239
  },
1240
  {
1241
  "epoch": 2.095725466586394,
1242
+ "grad_norm": 0.40688356757164,
1243
  "learning_rate": 1.673360107095047e-05,
1244
+ "loss": 0.0092,
1245
  "step": 1740
1246
  },
1247
  {
1248
  "epoch": 2.107766405779651,
1249
+ "grad_norm": 1.3027302026748657,
1250
  "learning_rate": 1.651048639000446e-05,
1251
+ "loss": 0.0066,
1252
  "step": 1750
1253
  },
1254
  {
1255
  "epoch": 2.119807344972908,
1256
+ "grad_norm": 0.02679573744535446,
1257
  "learning_rate": 1.6287371709058456e-05,
1258
+ "loss": 0.0004,
1259
  "step": 1760
1260
  },
1261
  {
1262
  "epoch": 2.131848284166165,
1263
+ "grad_norm": 0.02949480153620243,
1264
  "learning_rate": 1.606425702811245e-05,
1265
+ "loss": 0.0133,
1266
  "step": 1770
1267
  },
1268
  {
1269
  "epoch": 2.1438892233594222,
1270
+ "grad_norm": 0.09444648772478104,
1271
  "learning_rate": 1.5841142347166443e-05,
1272
+ "loss": 0.001,
1273
  "step": 1780
1274
  },
1275
  {
1276
  "epoch": 2.155930162552679,
1277
+ "grad_norm": 11.101505279541016,
1278
  "learning_rate": 1.5618027666220438e-05,
1279
+ "loss": 0.0247,
1280
  "step": 1790
1281
  },
1282
  {
1283
  "epoch": 2.167971101745936,
1284
+ "grad_norm": 0.03616014122962952,
1285
  "learning_rate": 1.5394912985274433e-05,
1286
  "loss": 0.0026,
1287
  "step": 1800
1288
  },
1289
  {
1290
  "epoch": 2.1800120409391934,
1291
+ "grad_norm": 0.058971330523490906,
1292
  "learning_rate": 1.5171798304328425e-05,
1293
+ "loss": 0.0015,
1294
  "step": 1810
1295
  },
1296
  {
1297
  "epoch": 2.19205298013245,
1298
+ "grad_norm": 0.017834767699241638,
1299
  "learning_rate": 1.494868362338242e-05,
1300
+ "loss": 0.0013,
1301
  "step": 1820
1302
  },
1303
  {
1304
  "epoch": 2.2040939193257074,
1305
+ "grad_norm": 1.4042654037475586,
1306
  "learning_rate": 1.4725568942436414e-05,
1307
+ "loss": 0.0016,
1308
  "step": 1830
1309
  },
1310
  {
1311
  "epoch": 2.2161348585189646,
1312
+ "grad_norm": 20.515151977539062,
1313
  "learning_rate": 1.4502454261490405e-05,
1314
+ "loss": 0.017,
1315
  "step": 1840
1316
  },
1317
  {
1318
  "epoch": 2.2281757977122214,
1319
+ "grad_norm": 3.5099308490753174,
1320
  "learning_rate": 1.42793395805444e-05,
1321
+ "loss": 0.0067,
1322
  "step": 1850
1323
  },
1324
  {
1325
  "epoch": 2.2402167369054786,
1326
+ "grad_norm": 0.5224878787994385,
1327
  "learning_rate": 1.4056224899598394e-05,
1328
+ "loss": 0.0023,
1329
  "step": 1860
1330
  },
1331
  {
1332
  "epoch": 2.252257676098736,
1333
+ "grad_norm": 0.05775818973779678,
1334
  "learning_rate": 1.3833110218652387e-05,
1335
+ "loss": 0.0016,
1336
  "step": 1870
1337
  },
1338
  {
1339
  "epoch": 2.2642986152919926,
1340
+ "grad_norm": 0.032823625952005386,
1341
  "learning_rate": 1.3609995537706383e-05,
1342
+ "loss": 0.0029,
1343
  "step": 1880
1344
  },
1345
  {
1346
  "epoch": 2.27633955448525,
1347
+ "grad_norm": 0.02662728726863861,
1348
  "learning_rate": 1.3386880856760376e-05,
1349
+ "loss": 0.0014,
1350
  "step": 1890
1351
  },
1352
  {
1353
  "epoch": 2.288380493678507,
1354
+ "grad_norm": 7.03336763381958,
1355
  "learning_rate": 1.3163766175814368e-05,
1356
+ "loss": 0.0112,
1357
  "step": 1900
1358
  },
1359
  {
1360
  "epoch": 2.300421432871764,
1361
+ "grad_norm": 6.6170973777771,
1362
  "learning_rate": 1.2940651494868363e-05,
1363
+ "loss": 0.0075,
1364
  "step": 1910
1365
  },
1366
  {
1367
  "epoch": 2.312462372065021,
1368
+ "grad_norm": 0.025626573711633682,
1369
  "learning_rate": 1.2717536813922356e-05,
1370
+ "loss": 0.0014,
1371
  "step": 1920
1372
  },
1373
  {
1374
  "epoch": 2.3245033112582782,
1375
+ "grad_norm": 21.287378311157227,
1376
  "learning_rate": 1.2494422132976352e-05,
1377
+ "loss": 0.0047,
1378
  "step": 1930
1379
  },
1380
  {
1381
  "epoch": 2.336544250451535,
1382
+ "grad_norm": 0.013641959056258202,
1383
  "learning_rate": 1.2271307452030343e-05,
1384
  "loss": 0.0005,
1385
  "step": 1940
1386
  },
1387
  {
1388
  "epoch": 2.3485851896447922,
1389
+ "grad_norm": 0.01311859954148531,
1390
  "learning_rate": 1.2048192771084338e-05,
1391
+ "loss": 0.0006,
1392
  "step": 1950
1393
  },
1394
  {
1395
  "epoch": 2.3606261288380495,
1396
+ "grad_norm": 0.05053797364234924,
1397
  "learning_rate": 1.1825078090138332e-05,
1398
+ "loss": 0.0129,
1399
  "step": 1960
1400
  },
1401
  {
1402
  "epoch": 2.3726670680313067,
1403
+ "grad_norm": 0.41378432512283325,
1404
  "learning_rate": 1.1601963409192325e-05,
1405
+ "loss": 0.0076,
1406
  "step": 1970
1407
  },
1408
  {
1409
  "epoch": 2.3847080072245634,
1410
+ "grad_norm": 0.014416687190532684,
1411
  "learning_rate": 1.1378848728246319e-05,
1412
+ "loss": 0.0019,
1413
  "step": 1980
1414
  },
1415
  {
1416
  "epoch": 2.3967489464178207,
1417
+ "grad_norm": 0.07235641777515411,
1418
  "learning_rate": 1.1155734047300314e-05,
1419
  "loss": 0.0004,
1420
  "step": 1990
1421
  },
1422
  {
1423
  "epoch": 2.4087898856110774,
1424
+ "grad_norm": 0.10537643730640411,
1425
  "learning_rate": 1.0932619366354306e-05,
1426
+ "loss": 0.0088,
1427
  "step": 2000
1428
  },
1429
  {
1430
  "epoch": 2.4208308248043346,
1431
+ "grad_norm": 0.014000581577420235,
1432
  "learning_rate": 1.0709504685408301e-05,
1433
+ "loss": 0.0008,
1434
  "step": 2010
1435
  },
1436
  {
1437
  "epoch": 2.432871763997592,
1438
+ "grad_norm": 16.16079330444336,
1439
  "learning_rate": 1.0486390004462294e-05,
1440
+ "loss": 0.0026,
1441
  "step": 2020
1442
  },
1443
  {
1444
  "epoch": 2.444912703190849,
1445
+ "grad_norm": 1.1684482097625732,
1446
  "learning_rate": 1.0263275323516288e-05,
1447
+ "loss": 0.0041,
1448
  "step": 2030
1449
  },
1450
  {
1451
  "epoch": 2.456953642384106,
1452
+ "grad_norm": 0.016048986464738846,
1453
  "learning_rate": 1.0040160642570281e-05,
1454
+ "loss": 0.0075,
1455
  "step": 2040
1456
  },
1457
  {
1458
  "epoch": 2.468994581577363,
1459
+ "grad_norm": 0.017376257106661797,
1460
  "learning_rate": 9.817045961624276e-06,
1461
+ "loss": 0.0046,
1462
  "step": 2050
1463
  },
1464
  {
1465
  "epoch": 2.4810355207706203,
1466
+ "grad_norm": 0.016579024493694305,
1467
  "learning_rate": 9.593931280678268e-06,
1468
+ "loss": 0.0012,
1469
  "step": 2060
1470
  },
1471
  {
1472
  "epoch": 2.493076459963877,
1473
+ "grad_norm": 0.01798885501921177,
1474
  "learning_rate": 9.370816599732263e-06,
1475
+ "loss": 0.0021,
1476
  "step": 2070
1477
  },
1478
  {
1479
  "epoch": 2.5051173991571343,
1480
+ "grad_norm": 0.03361746296286583,
1481
  "learning_rate": 9.147701918786257e-06,
1482
+ "loss": 0.0003,
1483
  "step": 2080
1484
  },
1485
  {
1486
  "epoch": 2.5171583383503915,
1487
+ "grad_norm": 0.03460362181067467,
1488
  "learning_rate": 8.92458723784025e-06,
1489
+ "loss": 0.0021,
1490
  "step": 2090
1491
  },
1492
  {
1493
  "epoch": 2.5291992775436483,
1494
+ "grad_norm": 0.17655785381793976,
1495
  "learning_rate": 8.701472556894244e-06,
1496
+ "loss": 0.0088,
1497
  "step": 2100
1498
  },
1499
  {
1500
  "epoch": 2.5412402167369055,
1501
+ "grad_norm": 0.013977100141346455,
1502
  "learning_rate": 8.478357875948239e-06,
1503
+ "loss": 0.0008,
1504
  "step": 2110
1505
  },
1506
  {
1507
  "epoch": 2.5532811559301627,
1508
+ "grad_norm": 0.012227312661707401,
1509
  "learning_rate": 8.25524319500223e-06,
1510
+ "loss": 0.0045,
1511
  "step": 2120
1512
  },
1513
  {
1514
  "epoch": 2.5653220951234195,
1515
+ "grad_norm": 0.01880710944533348,
1516
  "learning_rate": 8.032128514056226e-06,
1517
+ "loss": 0.0055,
1518
  "step": 2130
1519
  },
1520
  {
1521
  "epoch": 2.5773630343166767,
1522
+ "grad_norm": 0.017849355936050415,
1523
  "learning_rate": 7.809013833110219e-06,
1524
+ "loss": 0.0014,
1525
  "step": 2140
1526
  },
1527
  {
1528
  "epoch": 2.589403973509934,
1529
+ "grad_norm": 0.030449502170085907,
1530
  "learning_rate": 7.5858991521642126e-06,
1531
+ "loss": 0.0003,
1532
  "step": 2150
1533
  },
1534
  {
1535
  "epoch": 2.601444912703191,
1536
+ "grad_norm": 0.016365479677915573,
1537
  "learning_rate": 7.362784471218207e-06,
1538
+ "loss": 0.0069,
1539
  "step": 2160
1540
  },
1541
  {
1542
  "epoch": 2.613485851896448,
1543
+ "grad_norm": 0.017494693398475647,
1544
  "learning_rate": 7.1396697902722e-06,
1545
+ "loss": 0.0003,
1546
  "step": 2170
1547
  },
1548
  {
1549
  "epoch": 2.625526791089705,
1550
+ "grad_norm": 0.01181891281157732,
1551
  "learning_rate": 6.916555109326194e-06,
1552
+ "loss": 0.001,
1553
  "step": 2180
1554
  },
1555
  {
1556
  "epoch": 2.637567730282962,
1557
+ "grad_norm": 2.1435914039611816,
1558
  "learning_rate": 6.693440428380188e-06,
1559
  "loss": 0.0124,
1560
  "step": 2190
1561
  },
1562
  {
1563
  "epoch": 2.649608669476219,
1564
+ "grad_norm": 0.03837867081165314,
1565
  "learning_rate": 6.4703257474341815e-06,
1566
+ "loss": 0.0003,
1567
  "step": 2200
1568
  },
1569
  {
1570
  "epoch": 2.6616496086694763,
1571
+ "grad_norm": 0.026179147884249687,
1572
  "learning_rate": 6.247211066488176e-06,
1573
+ "loss": 0.0029,
1574
  "step": 2210
1575
  },
1576
  {
1577
  "epoch": 2.6736905478627335,
1578
+ "grad_norm": 0.07299380749464035,
1579
  "learning_rate": 6.024096385542169e-06,
1580
+ "loss": 0.0131,
1581
  "step": 2220
1582
  },
1583
  {
1584
  "epoch": 2.6857314870559903,
1585
+ "grad_norm": 0.05025468394160271,
1586
  "learning_rate": 5.800981704596163e-06,
1587
+ "loss": 0.0006,
1588
  "step": 2230
1589
  },
1590
  {
1591
  "epoch": 2.6977724262492475,
1592
+ "grad_norm": 0.19755429029464722,
1593
  "learning_rate": 5.577867023650157e-06,
1594
+ "loss": 0.0164,
1595
  "step": 2240
1596
  },
1597
  {
1598
  "epoch": 2.7098133654425043,
1599
+ "grad_norm": 0.1809852570295334,
1600
  "learning_rate": 5.3547523427041504e-06,
1601
+ "loss": 0.0003,
1602
  "step": 2250
1603
  },
1604
  {
1605
  "epoch": 2.7218543046357615,
1606
+ "grad_norm": 0.1278763711452484,
1607
  "learning_rate": 5.131637661758144e-06,
1608
+ "loss": 0.0003,
1609
  "step": 2260
1610
  },
1611
  {
1612
  "epoch": 2.7338952438290187,
1613
+ "grad_norm": 0.491524338722229,
1614
  "learning_rate": 4.908522980812138e-06,
1615
+ "loss": 0.0003,
1616
  "step": 2270
1617
  },
1618
  {
1619
  "epoch": 2.745936183022276,
1620
+ "grad_norm": 13.114213943481445,
1621
  "learning_rate": 4.685408299866132e-06,
1622
+ "loss": 0.0011,
1623
  "step": 2280
1624
  },
1625
  {
1626
  "epoch": 2.7579771222155327,
1627
+ "grad_norm": 1.5844202041625977,
1628
  "learning_rate": 4.462293618920125e-06,
1629
+ "loss": 0.0068,
1630
  "step": 2290
1631
  },
1632
  {
1633
  "epoch": 2.77001806140879,
1634
+ "grad_norm": 0.4727950394153595,
1635
  "learning_rate": 4.239178937974119e-06,
1636
+ "loss": 0.0012,
1637
  "step": 2300
1638
  },
1639
  {
1640
  "epoch": 2.7820590006020467,
1641
+ "grad_norm": 0.00994125846773386,
1642
  "learning_rate": 4.016064257028113e-06,
1643
+ "loss": 0.0003,
1644
  "step": 2310
1645
  },
1646
  {
1647
  "epoch": 2.794099939795304,
1648
+ "grad_norm": 0.06683458387851715,
1649
  "learning_rate": 3.7929495760821063e-06,
1650
  "loss": 0.0002,
1651
  "step": 2320
1652
  },
1653
  {
1654
  "epoch": 2.806140878988561,
1655
+ "grad_norm": 0.40406838059425354,
1656
  "learning_rate": 3.5698348951361e-06,
1657
+ "loss": 0.0048,
1658
  "step": 2330
1659
  },
1660
  {
1661
  "epoch": 2.8181818181818183,
1662
+ "grad_norm": 2.3229804039001465,
1663
  "learning_rate": 3.346720214190094e-06,
1664
+ "loss": 0.0054,
1665
  "step": 2340
1666
  },
1667
  {
1668
  "epoch": 2.830222757375075,
1669
+ "grad_norm": 0.09825894981622696,
1670
  "learning_rate": 3.123605533244088e-06,
1671
+ "loss": 0.0003,
1672
  "step": 2350
1673
  },
1674
  {
1675
  "epoch": 2.8422636965683323,
1676
+ "grad_norm": 2.2067606449127197,
1677
  "learning_rate": 2.9004908522980813e-06,
1678
  "loss": 0.0003,
1679
  "step": 2360
1680
  },
1681
  {
1682
  "epoch": 2.8543046357615895,
1683
+ "grad_norm": 0.10803830623626709,
1684
  "learning_rate": 2.6773761713520752e-06,
1685
+ "loss": 0.0014,
1686
  "step": 2370
1687
  },
1688
  {
1689
  "epoch": 2.8663455749548463,
1690
+ "grad_norm": 0.15049925446510315,
1691
  "learning_rate": 2.454261490406069e-06,
1692
+ "loss": 0.0044,
1693
  "step": 2380
1694
  },
1695
  {
1696
  "epoch": 2.8783865141481035,
1697
+ "grad_norm": 0.012403941713273525,
1698
  "learning_rate": 2.2311468094600625e-06,
1699
+ "loss": 0.006,
1700
  "step": 2390
1701
  },
1702
  {
1703
  "epoch": 2.8904274533413608,
1704
+ "grad_norm": 0.02164722979068756,
1705
  "learning_rate": 2.0080321285140564e-06,
1706
  "loss": 0.0002,
1707
  "step": 2400
1708
  },
1709
  {
1710
  "epoch": 2.902468392534618,
1711
+ "grad_norm": 0.008666186593472958,
1712
  "learning_rate": 1.78491744756805e-06,
1713
  "loss": 0.0002,
1714
  "step": 2410
1715
  },
1716
  {
1717
  "epoch": 2.9145093317278747,
1718
+ "grad_norm": 0.07253342866897583,
1719
  "learning_rate": 1.561802766622044e-06,
1720
+ "loss": 0.0003,
1721
  "step": 2420
1722
  },
1723
  {
1724
  "epoch": 2.926550270921132,
1725
+ "grad_norm": 39.6471061706543,
1726
  "learning_rate": 1.3386880856760376e-06,
1727
+ "loss": 0.0028,
1728
  "step": 2430
1729
  },
1730
  {
1731
  "epoch": 2.9385912101143887,
1732
+ "grad_norm": 1.279341220855713,
1733
  "learning_rate": 1.1155734047300313e-06,
1734
+ "loss": 0.0035,
1735
  "step": 2440
1736
  },
1737
  {
1738
  "epoch": 2.950632149307646,
1739
+ "grad_norm": 0.010345235466957092,
1740
  "learning_rate": 8.92458723784025e-07,
1741
+ "loss": 0.0002,
1742
  "step": 2450
1743
  },
1744
  {
1745
  "epoch": 2.962673088500903,
1746
+ "grad_norm": 0.8630630970001221,
1747
  "learning_rate": 6.693440428380188e-07,
1748
+ "loss": 0.0047,
1749
  "step": 2460
1750
  },
1751
  {
1752
  "epoch": 2.9747140276941604,
1753
+ "grad_norm": 0.5396146178245544,
1754
  "learning_rate": 4.462293618920125e-07,
1755
+ "loss": 0.0058,
1756
  "step": 2470
1757
  },
1758
  {
1759
  "epoch": 2.986754966887417,
1760
+ "grad_norm": 0.009292367845773697,
1761
  "learning_rate": 2.2311468094600626e-07,
1762
+ "loss": 0.0059,
1763
  "step": 2480
1764
  },
1765
  {
1766
  "epoch": 2.9987959060806744,
1767
+ "grad_norm": 0.017796576023101807,
1768
  "learning_rate": 0.0,
1769
+ "loss": 0.0075,
1770
  "step": 2490
1771
  },
1772
  {
1773
  "epoch": 2.9987959060806744,
1774
+ "eval_f1": 0.994895873653879,
1775
+ "eval_loss": 0.008104476146399975,
1776
+ "eval_runtime": 158.5918,
1777
+ "eval_samples_per_second": 74.468,
1778
+ "eval_steps_per_second": 2.333,
1779
  "step": 2490
1780
  },
1781
  {
1782
  "epoch": 2.9987959060806744,
1783
  "step": 2490,
1784
  "total_flos": 4.152545054111269e+19,
1785
+ "train_loss": 0.0599212793472511,
1786
+ "train_runtime": 7516.3059,
1787
+ "train_samples_per_second": 42.422,
1788
+ "train_steps_per_second": 0.331
1789
  }
1790
  ],
1791
  "logging_steps": 10,