🍻 cheers

Browse files

Files changed (6) hide show

README.md +5 -4
all_results.json +14 -0
eval_results.json +9 -0
runs/Aug19_03-31-49_instance-camaras/events.out.tfevents.1755575582.instance-camaras +3 -0
train_results.json +8 -0
trainer_state.json +2612 -0

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: microsoft/swin-base-simmim-window6-192
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -17,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
 # swin-CEMEDE-og
-This model is a fine-tuned version of [microsoft/swin-base-simmim-window6-192](https://huggingface.co/microsoft/swin-base-simmim-window6-192) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.6222
-- Accuracy: 0.6914
-- F1: 0.6998
 ## Model description

 license: apache-2.0
 base_model: microsoft/swin-base-simmim-window6-192
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # swin-CEMEDE-og
+This model is a fine-tuned version of [microsoft/swin-base-simmim-window6-192](https://huggingface.co/microsoft/swin-base-simmim-window6-192) on the cemede dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.1858
+- Accuracy: 0.6981
+- F1: 0.6559
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 2.4615384615384617,
+    "eval_accuracy": 0.6980504041844984,
+    "eval_f1": 0.6558579987834274,
+    "eval_loss": 1.1857682466506958,
+    "eval_runtime": 16.2624,
+    "eval_samples_per_second": 129.317,
+    "eval_steps_per_second": 16.172,
+    "total_flos": 1.4730716562599117e+18,
+    "train_loss": 0.7703810732765123,
+    "train_runtime": 1237.8817,
+    "train_samples_per_second": 41.987,
+    "train_steps_per_second": 5.251
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.4615384615384617,
+    "eval_accuracy": 0.6980504041844984,
+    "eval_f1": 0.6558579987834274,
+    "eval_loss": 1.1857682466506958,
+    "eval_runtime": 16.2624,
+    "eval_samples_per_second": 129.317,
+    "eval_steps_per_second": 16.172
+}

runs/Aug19_03-31-49_instance-camaras/events.out.tfevents.1755575582.instance-camaras ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a258e28142947c28f137ff0297d860502f69ff67c8ab4f5f21240e837873572
+size 40

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.4615384615384617,
+    "total_flos": 1.4730716562599117e+18,
+    "train_loss": 0.7703810732765123,
+    "train_runtime": 1237.8817,
+    "train_samples_per_second": 41.987,
+    "train_steps_per_second": 5.251
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2612 @@

+{
+  "best_global_step": 2200,
+  "best_metric": 1.1857682466506958,
+  "best_model_checkpoint": "./swin-CEMEDE-og/checkpoint-2200",
+  "epoch": 2.4615384615384617,
+  "eval_steps": 100,
+  "global_step": 3200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.007692307692307693,
+      "grad_norm": 7.144713878631592,
+      "learning_rate": 0.0001997846153846154,
+      "loss": 3.0562,
+      "step": 10
+    },
+    {
+      "epoch": 0.015384615384615385,
+      "grad_norm": 5.92962121963501,
+      "learning_rate": 0.00019947692307692308,
+      "loss": 2.9181,
+      "step": 20
+    },
+    {
+      "epoch": 0.023076923076923078,
+      "grad_norm": 5.384518623352051,
+      "learning_rate": 0.00019916923076923078,
+      "loss": 2.5873,
+      "step": 30
+    },
+    {
+      "epoch": 0.03076923076923077,
+      "grad_norm": 7.259673595428467,
+      "learning_rate": 0.00019886153846153848,
+      "loss": 2.3762,
+      "step": 40
+    },
+    {
+      "epoch": 0.038461538461538464,
+      "grad_norm": 26.426013946533203,
+      "learning_rate": 0.00019855384615384615,
+      "loss": 2.2314,
+      "step": 50
+    },
+    {
+      "epoch": 0.046153846153846156,
+      "grad_norm": 8.41970443725586,
+      "learning_rate": 0.00019824615384615385,
+      "loss": 2.2786,
+      "step": 60
+    },
+    {
+      "epoch": 0.05384615384615385,
+      "grad_norm": 11.384262084960938,
+      "learning_rate": 0.00019793846153846154,
+      "loss": 2.0303,
+      "step": 70
+    },
+    {
+      "epoch": 0.06153846153846154,
+      "grad_norm": 18.49128532409668,
+      "learning_rate": 0.00019763076923076924,
+      "loss": 2.4008,
+      "step": 80
+    },
+    {
+      "epoch": 0.06923076923076923,
+      "grad_norm": 23.756940841674805,
+      "learning_rate": 0.0001973230769230769,
+      "loss": 2.303,
+      "step": 90
+    },
+    {
+      "epoch": 0.07692307692307693,
+      "grad_norm": 20.41860008239746,
+      "learning_rate": 0.00019701538461538464,
+      "loss": 1.8432,
+      "step": 100
+    },
+    {
+      "epoch": 0.07692307692307693,
+      "eval_accuracy": 0.2700903471231574,
+      "eval_f1": 0.0752665463620144,
+      "eval_loss": 2.366211175918579,
+      "eval_runtime": 17.3804,
+      "eval_samples_per_second": 120.998,
+      "eval_steps_per_second": 15.132,
+      "step": 100
+    },
+    {
+      "epoch": 0.08461538461538462,
+      "grad_norm": 7.769390106201172,
+      "learning_rate": 0.00019670769230769233,
+      "loss": 2.3191,
+      "step": 110
+    },
+    {
+      "epoch": 0.09230769230769231,
+      "grad_norm": 7.075199604034424,
+      "learning_rate": 0.0001964,
+      "loss": 2.1974,
+      "step": 120
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 6.722231864929199,
+      "learning_rate": 0.0001960923076923077,
+      "loss": 2.0883,
+      "step": 130
+    },
+    {
+      "epoch": 0.1076923076923077,
+      "grad_norm": 11.50701904296875,
+      "learning_rate": 0.0001957846153846154,
+      "loss": 2.0552,
+      "step": 140
+    },
+    {
+      "epoch": 0.11538461538461539,
+      "grad_norm": 9.796704292297363,
+      "learning_rate": 0.0001954769230769231,
+      "loss": 1.825,
+      "step": 150
+    },
+    {
+      "epoch": 0.12307692307692308,
+      "grad_norm": 12.021738052368164,
+      "learning_rate": 0.00019516923076923077,
+      "loss": 2.0594,
+      "step": 160
+    },
+    {
+      "epoch": 0.13076923076923078,
+      "grad_norm": 19.825368881225586,
+      "learning_rate": 0.00019486153846153846,
+      "loss": 2.1824,
+      "step": 170
+    },
+    {
+      "epoch": 0.13846153846153847,
+      "grad_norm": 10.117398262023926,
+      "learning_rate": 0.00019455384615384616,
+      "loss": 1.5826,
+      "step": 180
+    },
+    {
+      "epoch": 0.14615384615384616,
+      "grad_norm": 18.77071189880371,
+      "learning_rate": 0.00019424615384615386,
+      "loss": 1.8809,
+      "step": 190
+    },
+    {
+      "epoch": 0.15384615384615385,
+      "grad_norm": 10.90501594543457,
+      "learning_rate": 0.00019393846153846155,
+      "loss": 2.1796,
+      "step": 200
+    },
+    {
+      "epoch": 0.15384615384615385,
+      "eval_accuracy": 0.25297194484070373,
+      "eval_f1": 0.09419040994691133,
+      "eval_loss": 2.282301902770996,
+      "eval_runtime": 17.53,
+      "eval_samples_per_second": 119.966,
+      "eval_steps_per_second": 15.003,
+      "step": 200
+    },
+    {
+      "epoch": 0.16153846153846155,
+      "grad_norm": 6.463944435119629,
+      "learning_rate": 0.00019363076923076923,
+      "loss": 1.6016,
+      "step": 210
+    },
+    {
+      "epoch": 0.16923076923076924,
+      "grad_norm": 9.3544282913208,
+      "learning_rate": 0.00019332307692307695,
+      "loss": 1.8538,
+      "step": 220
+    },
+    {
+      "epoch": 0.17692307692307693,
+      "grad_norm": 6.241270542144775,
+      "learning_rate": 0.00019301538461538462,
+      "loss": 1.6121,
+      "step": 230
+    },
+    {
+      "epoch": 0.18461538461538463,
+      "grad_norm": 8.373316764831543,
+      "learning_rate": 0.00019270769230769232,
+      "loss": 1.7752,
+      "step": 240
+    },
+    {
+      "epoch": 0.19230769230769232,
+      "grad_norm": 11.301222801208496,
+      "learning_rate": 0.00019240000000000001,
+      "loss": 1.6415,
+      "step": 250
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 7.213001251220703,
+      "learning_rate": 0.0001920923076923077,
+      "loss": 1.5378,
+      "step": 260
+    },
+    {
+      "epoch": 0.2076923076923077,
+      "grad_norm": 8.698652267456055,
+      "learning_rate": 0.00019178461538461538,
+      "loss": 1.6107,
+      "step": 270
+    },
+    {
+      "epoch": 0.2153846153846154,
+      "grad_norm": 10.505064964294434,
+      "learning_rate": 0.00019147692307692308,
+      "loss": 1.6429,
+      "step": 280
+    },
+    {
+      "epoch": 0.2230769230769231,
+      "grad_norm": 5.8513994216918945,
+      "learning_rate": 0.00019116923076923078,
+      "loss": 2.1249,
+      "step": 290
+    },
+    {
+      "epoch": 0.23076923076923078,
+      "grad_norm": 7.619858741760254,
+      "learning_rate": 0.00019086153846153847,
+      "loss": 1.6271,
+      "step": 300
+    },
+    {
+      "epoch": 0.23076923076923078,
+      "eval_accuracy": 0.37327627199239183,
+      "eval_f1": 0.11465288061561454,
+      "eval_loss": 1.8295254707336426,
+      "eval_runtime": 17.4013,
+      "eval_samples_per_second": 120.853,
+      "eval_steps_per_second": 15.114,
+      "step": 300
+    },
+    {
+      "epoch": 0.23846153846153847,
+      "grad_norm": 7.406742095947266,
+      "learning_rate": 0.00019055384615384617,
+      "loss": 1.5597,
+      "step": 310
+    },
+    {
+      "epoch": 0.24615384615384617,
+      "grad_norm": 10.763725280761719,
+      "learning_rate": 0.00019024615384615384,
+      "loss": 1.7452,
+      "step": 320
+    },
+    {
+      "epoch": 0.25384615384615383,
+      "grad_norm": 14.472305297851562,
+      "learning_rate": 0.00018993846153846157,
+      "loss": 1.5783,
+      "step": 330
+    },
+    {
+      "epoch": 0.26153846153846155,
+      "grad_norm": 9.777316093444824,
+      "learning_rate": 0.00018963076923076924,
+      "loss": 1.7137,
+      "step": 340
+    },
+    {
+      "epoch": 0.2692307692307692,
+      "grad_norm": 16.123266220092773,
+      "learning_rate": 0.00018932307692307693,
+      "loss": 1.775,
+      "step": 350
+    },
+    {
+      "epoch": 0.27692307692307694,
+      "grad_norm": 12.052675247192383,
+      "learning_rate": 0.0001890153846153846,
+      "loss": 1.568,
+      "step": 360
+    },
+    {
+      "epoch": 0.2846153846153846,
+      "grad_norm": 14.738709449768066,
+      "learning_rate": 0.00018870769230769233,
+      "loss": 1.461,
+      "step": 370
+    },
+    {
+      "epoch": 0.2923076923076923,
+      "grad_norm": 13.176900863647461,
+      "learning_rate": 0.0001884,
+      "loss": 1.4941,
+      "step": 380
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 18.236370086669922,
+      "learning_rate": 0.0001880923076923077,
+      "loss": 1.5973,
+      "step": 390
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "grad_norm": 11.671727180480957,
+      "learning_rate": 0.0001877846153846154,
+      "loss": 1.4289,
+      "step": 400
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "eval_accuracy": 0.38516405135520687,
+      "eval_f1": 0.1993193400693047,
+      "eval_loss": 2.016322612762451,
+      "eval_runtime": 17.1557,
+      "eval_samples_per_second": 122.583,
+      "eval_steps_per_second": 15.33,
+      "step": 400
+    },
+    {
+      "epoch": 0.3153846153846154,
+      "grad_norm": 16.974281311035156,
+      "learning_rate": 0.0001874769230769231,
+      "loss": 1.4924,
+      "step": 410
+    },
+    {
+      "epoch": 0.3230769230769231,
+      "grad_norm": 6.016011714935303,
+      "learning_rate": 0.0001871692307692308,
+      "loss": 1.6328,
+      "step": 420
+    },
+    {
+      "epoch": 0.33076923076923076,
+      "grad_norm": 6.669319152832031,
+      "learning_rate": 0.00018686153846153846,
+      "loss": 1.4562,
+      "step": 430
+    },
+    {
+      "epoch": 0.3384615384615385,
+      "grad_norm": 11.591141700744629,
+      "learning_rate": 0.00018655384615384616,
+      "loss": 1.2004,
+      "step": 440
+    },
+    {
+      "epoch": 0.34615384615384615,
+      "grad_norm": 7.328090190887451,
+      "learning_rate": 0.00018624615384615385,
+      "loss": 1.1089,
+      "step": 450
+    },
+    {
+      "epoch": 0.35384615384615387,
+      "grad_norm": 15.245463371276855,
+      "learning_rate": 0.00018593846153846155,
+      "loss": 1.6371,
+      "step": 460
+    },
+    {
+      "epoch": 0.36153846153846153,
+      "grad_norm": 8.602375984191895,
+      "learning_rate": 0.00018563076923076922,
+      "loss": 1.3964,
+      "step": 470
+    },
+    {
+      "epoch": 0.36923076923076925,
+      "grad_norm": 12.814948081970215,
+      "learning_rate": 0.00018532307692307694,
+      "loss": 1.5817,
+      "step": 480
+    },
+    {
+      "epoch": 0.3769230769230769,
+      "grad_norm": 5.824203968048096,
+      "learning_rate": 0.00018501538461538464,
+      "loss": 1.3926,
+      "step": 490
+    },
+    {
+      "epoch": 0.38461538461538464,
+      "grad_norm": 36.3005485534668,
+      "learning_rate": 0.0001847076923076923,
+      "loss": 1.3642,
+      "step": 500
+    },
+    {
+      "epoch": 0.38461538461538464,
+      "eval_accuracy": 0.367094626723728,
+      "eval_f1": 0.20329775728578317,
+      "eval_loss": 2.1800456047058105,
+      "eval_runtime": 17.1824,
+      "eval_samples_per_second": 122.393,
+      "eval_steps_per_second": 15.306,
+      "step": 500
+    },
+    {
+      "epoch": 0.3923076923076923,
+      "grad_norm": 8.01819896697998,
+      "learning_rate": 0.0001844,
+      "loss": 1.2935,
+      "step": 510
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 8.656233787536621,
+      "learning_rate": 0.0001840923076923077,
+      "loss": 1.1997,
+      "step": 520
+    },
+    {
+      "epoch": 0.4076923076923077,
+      "grad_norm": 6.317253112792969,
+      "learning_rate": 0.0001837846153846154,
+      "loss": 1.0985,
+      "step": 530
+    },
+    {
+      "epoch": 0.4153846153846154,
+      "grad_norm": 7.962673187255859,
+      "learning_rate": 0.00018347692307692307,
+      "loss": 1.458,
+      "step": 540
+    },
+    {
+      "epoch": 0.4230769230769231,
+      "grad_norm": 10.992396354675293,
+      "learning_rate": 0.00018316923076923077,
+      "loss": 1.486,
+      "step": 550
+    },
+    {
+      "epoch": 0.4307692307692308,
+      "grad_norm": 14.568922996520996,
+      "learning_rate": 0.00018286153846153847,
+      "loss": 1.2398,
+      "step": 560
+    },
+    {
+      "epoch": 0.43846153846153846,
+      "grad_norm": 7.11242151260376,
+      "learning_rate": 0.00018255384615384617,
+      "loss": 1.1983,
+      "step": 570
+    },
+    {
+      "epoch": 0.4461538461538462,
+      "grad_norm": 6.080781936645508,
+      "learning_rate": 0.00018224615384615384,
+      "loss": 1.3684,
+      "step": 580
+    },
+    {
+      "epoch": 0.45384615384615384,
+      "grad_norm": 12.884486198425293,
+      "learning_rate": 0.00018193846153846153,
+      "loss": 1.5237,
+      "step": 590
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "grad_norm": 6.5119309425354,
+      "learning_rate": 0.00018163076923076926,
+      "loss": 1.1096,
+      "step": 600
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "eval_accuracy": 0.42320494531621494,
+      "eval_f1": 0.3145521897777244,
+      "eval_loss": 1.919480800628662,
+      "eval_runtime": 17.0222,
+      "eval_samples_per_second": 123.544,
+      "eval_steps_per_second": 15.45,
+      "step": 600
+    },
+    {
+      "epoch": 0.46923076923076923,
+      "grad_norm": 17.73822784423828,
+      "learning_rate": 0.00018132307692307693,
+      "loss": 0.9121,
+      "step": 610
+    },
+    {
+      "epoch": 0.47692307692307695,
+      "grad_norm": 11.554949760437012,
+      "learning_rate": 0.00018101538461538463,
+      "loss": 1.0344,
+      "step": 620
+    },
+    {
+      "epoch": 0.4846153846153846,
+      "grad_norm": 7.605045318603516,
+      "learning_rate": 0.00018070769230769232,
+      "loss": 1.5013,
+      "step": 630
+    },
+    {
+      "epoch": 0.49230769230769234,
+      "grad_norm": 21.52901840209961,
+      "learning_rate": 0.00018040000000000002,
+      "loss": 1.1534,
+      "step": 640
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 12.664295196533203,
+      "learning_rate": 0.0001800923076923077,
+      "loss": 1.4119,
+      "step": 650
+    },
+    {
+      "epoch": 0.5076923076923077,
+      "grad_norm": 11.862523078918457,
+      "learning_rate": 0.0001797846153846154,
+      "loss": 0.887,
+      "step": 660
+    },
+    {
+      "epoch": 0.5153846153846153,
+      "grad_norm": 13.69426441192627,
+      "learning_rate": 0.00017947692307692309,
+      "loss": 1.1037,
+      "step": 670
+    },
+    {
+      "epoch": 0.5230769230769231,
+      "grad_norm": 6.051742076873779,
+      "learning_rate": 0.00017916923076923078,
+      "loss": 1.1411,
+      "step": 680
+    },
+    {
+      "epoch": 0.5307692307692308,
+      "grad_norm": 13.97260570526123,
+      "learning_rate": 0.00017886153846153848,
+      "loss": 1.445,
+      "step": 690
+    },
+    {
+      "epoch": 0.5384615384615384,
+      "grad_norm": 9.275891304016113,
+      "learning_rate": 0.00017855384615384615,
+      "loss": 0.8354,
+      "step": 700
+    },
+    {
+      "epoch": 0.5384615384615384,
+      "eval_accuracy": 0.4194008559201141,
+      "eval_f1": 0.2766352793369704,
+      "eval_loss": 2.176583766937256,
+      "eval_runtime": 17.1383,
+      "eval_samples_per_second": 122.707,
+      "eval_steps_per_second": 15.346,
+      "step": 700
+    },
+    {
+      "epoch": 0.5461538461538461,
+      "grad_norm": 9.724885940551758,
+      "learning_rate": 0.00017824615384615388,
+      "loss": 1.1201,
+      "step": 710
+    },
+    {
+      "epoch": 0.5538461538461539,
+      "grad_norm": 16.569068908691406,
+      "learning_rate": 0.00017793846153846155,
+      "loss": 0.9748,
+      "step": 720
+    },
+    {
+      "epoch": 0.5615384615384615,
+      "grad_norm": 5.005148410797119,
+      "learning_rate": 0.00017763076923076924,
+      "loss": 1.028,
+      "step": 730
+    },
+    {
+      "epoch": 0.5692307692307692,
+      "grad_norm": 12.425468444824219,
+      "learning_rate": 0.0001773230769230769,
+      "loss": 0.9376,
+      "step": 740
+    },
+    {
+      "epoch": 0.5769230769230769,
+      "grad_norm": 18.23019790649414,
+      "learning_rate": 0.00017701538461538464,
+      "loss": 0.9154,
+      "step": 750
+    },
+    {
+      "epoch": 0.5846153846153846,
+      "grad_norm": 13.129063606262207,
+      "learning_rate": 0.0001767076923076923,
+      "loss": 1.0405,
+      "step": 760
+    },
+    {
+      "epoch": 0.5923076923076923,
+      "grad_norm": 22.279123306274414,
+      "learning_rate": 0.0001764,
+      "loss": 1.126,
+      "step": 770
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 30.904468536376953,
+      "learning_rate": 0.0001760923076923077,
+      "loss": 1.0548,
+      "step": 780
+    },
+    {
+      "epoch": 0.6076923076923076,
+      "grad_norm": 24.71080207824707,
+      "learning_rate": 0.0001757846153846154,
+      "loss": 1.0727,
+      "step": 790
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 11.904009819030762,
+      "learning_rate": 0.0001754769230769231,
+      "loss": 1.0878,
+      "step": 800
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "eval_accuracy": 0.4816928197812649,
+      "eval_f1": 0.3524875211866814,
+      "eval_loss": 1.8269426822662354,
+      "eval_runtime": 16.8898,
+      "eval_samples_per_second": 124.513,
+      "eval_steps_per_second": 15.572,
+      "step": 800
+    },
+    {
+      "epoch": 0.6230769230769231,
+      "grad_norm": 6.691661834716797,
+      "learning_rate": 0.00017516923076923077,
+      "loss": 0.9675,
+      "step": 810
+    },
+    {
+      "epoch": 0.6307692307692307,
+      "grad_norm": 10.574451446533203,
+      "learning_rate": 0.00017486153846153846,
+      "loss": 0.7767,
+      "step": 820
+    },
+    {
+      "epoch": 0.6384615384615384,
+      "grad_norm": 30.280406951904297,
+      "learning_rate": 0.00017455384615384616,
+      "loss": 0.9531,
+      "step": 830
+    },
+    {
+      "epoch": 0.6461538461538462,
+      "grad_norm": 7.445671558380127,
+      "learning_rate": 0.00017424615384615386,
+      "loss": 0.9121,
+      "step": 840
+    },
+    {
+      "epoch": 0.6538461538461539,
+      "grad_norm": 7.3660197257995605,
+      "learning_rate": 0.00017393846153846153,
+      "loss": 1.0982,
+      "step": 850
+    },
+    {
+      "epoch": 0.6615384615384615,
+      "grad_norm": 9.792448043823242,
+      "learning_rate": 0.00017363076923076925,
+      "loss": 1.2213,
+      "step": 860
+    },
+    {
+      "epoch": 0.6692307692307692,
+      "grad_norm": 5.618622303009033,
+      "learning_rate": 0.00017332307692307692,
+      "loss": 0.8793,
+      "step": 870
+    },
+    {
+      "epoch": 0.676923076923077,
+      "grad_norm": 22.627748489379883,
+      "learning_rate": 0.00017301538461538462,
+      "loss": 1.082,
+      "step": 880
+    },
+    {
+      "epoch": 0.6846153846153846,
+      "grad_norm": 9.48766040802002,
+      "learning_rate": 0.00017270769230769232,
+      "loss": 0.8621,
+      "step": 890
+    },
+    {
+      "epoch": 0.6923076923076923,
+      "grad_norm": 24.730266571044922,
+      "learning_rate": 0.00017240000000000002,
+      "loss": 0.914,
+      "step": 900
+    },
+    {
+      "epoch": 0.6923076923076923,
+      "eval_accuracy": 0.43271516880646693,
+      "eval_f1": 0.34628263675090787,
+      "eval_loss": 1.91328763961792,
+      "eval_runtime": 16.8584,
+      "eval_samples_per_second": 124.745,
+      "eval_steps_per_second": 15.6,
+      "step": 900
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 13.59035587310791,
+      "learning_rate": 0.00017209230769230771,
+      "loss": 1.1103,
+      "step": 910
+    },
+    {
+      "epoch": 0.7076923076923077,
+      "grad_norm": 9.603906631469727,
+      "learning_rate": 0.00017178461538461538,
+      "loss": 0.7811,
+      "step": 920
+    },
+    {
+      "epoch": 0.7153846153846154,
+      "grad_norm": 19.249000549316406,
+      "learning_rate": 0.00017147692307692308,
+      "loss": 0.9351,
+      "step": 930
+    },
+    {
+      "epoch": 0.7230769230769231,
+      "grad_norm": 13.113324165344238,
+      "learning_rate": 0.00017116923076923078,
+      "loss": 1.0619,
+      "step": 940
+    },
+    {
+      "epoch": 0.7307692307692307,
+      "grad_norm": 20.005496978759766,
+      "learning_rate": 0.00017086153846153848,
+      "loss": 1.2258,
+      "step": 950
+    },
+    {
+      "epoch": 0.7384615384615385,
+      "grad_norm": 12.253059387207031,
+      "learning_rate": 0.00017058461538461538,
+      "loss": 1.0816,
+      "step": 960
+    },
+    {
+      "epoch": 0.7461538461538462,
+      "grad_norm": 41.702003479003906,
+      "learning_rate": 0.00017027692307692308,
+      "loss": 1.0357,
+      "step": 970
+    },
+    {
+      "epoch": 0.7538461538461538,
+      "grad_norm": 4.093587875366211,
+      "learning_rate": 0.00016996923076923078,
+      "loss": 0.7962,
+      "step": 980
+    },
+    {
+      "epoch": 0.7615384615384615,
+      "grad_norm": 20.035123825073242,
+      "learning_rate": 0.00016966153846153847,
+      "loss": 0.8937,
+      "step": 990
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 8.77906608581543,
+      "learning_rate": 0.00016935384615384614,
+      "loss": 1.1427,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "eval_accuracy": 0.4631478839752734,
+      "eval_f1": 0.35377031489424154,
+      "eval_loss": 2.132183790206909,
+      "eval_runtime": 17.1092,
+      "eval_samples_per_second": 122.916,
+      "eval_steps_per_second": 15.372,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7769230769230769,
+      "grad_norm": 16.018142700195312,
+      "learning_rate": 0.00016904615384615384,
+      "loss": 0.934,
+      "step": 1010
+    },
+    {
+      "epoch": 0.7846153846153846,
+      "grad_norm": 8.596650123596191,
+      "learning_rate": 0.00016873846153846157,
+      "loss": 0.7443,
+      "step": 1020
+    },
+    {
+      "epoch": 0.7923076923076923,
+      "grad_norm": 13.7733154296875,
+      "learning_rate": 0.00016843076923076924,
+      "loss": 0.6869,
+      "step": 1030
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 6.614993095397949,
+      "learning_rate": 0.00016812307692307693,
+      "loss": 0.5686,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8076923076923077,
+      "grad_norm": 11.154041290283203,
+      "learning_rate": 0.00016781538461538463,
+      "loss": 0.8153,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8153846153846154,
+      "grad_norm": 15.175039291381836,
+      "learning_rate": 0.00016750769230769233,
+      "loss": 0.7427,
+      "step": 1060
+    },
+    {
+      "epoch": 0.823076923076923,
+      "grad_norm": 12.188551902770996,
+      "learning_rate": 0.0001672,
+      "loss": 0.9176,
+      "step": 1070
+    },
+    {
+      "epoch": 0.8307692307692308,
+      "grad_norm": 11.365070343017578,
+      "learning_rate": 0.0001668923076923077,
+      "loss": 0.7499,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8384615384615385,
+      "grad_norm": 8.947319984436035,
+      "learning_rate": 0.0001665846153846154,
+      "loss": 0.8608,
+      "step": 1090
+    },
+    {
+      "epoch": 0.8461538461538461,
+      "grad_norm": 10.087491989135742,
+      "learning_rate": 0.0001662769230769231,
+      "loss": 0.6925,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8461538461538461,
+      "eval_accuracy": 0.46742748454588684,
+      "eval_f1": 0.38404138635975005,
+      "eval_loss": 2.0176453590393066,
+      "eval_runtime": 17.0667,
+      "eval_samples_per_second": 123.222,
+      "eval_steps_per_second": 15.41,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8538461538461538,
+      "grad_norm": 15.46960163116455,
+      "learning_rate": 0.0001659692307692308,
+      "loss": 0.994,
+      "step": 1110
+    },
+    {
+      "epoch": 0.8615384615384616,
+      "grad_norm": 7.148074150085449,
+      "learning_rate": 0.00016566153846153846,
+      "loss": 0.8761,
+      "step": 1120
+    },
+    {
+      "epoch": 0.8692307692307693,
+      "grad_norm": 19.255523681640625,
+      "learning_rate": 0.00016535384615384618,
+      "loss": 0.7564,
+      "step": 1130
+    },
+    {
+      "epoch": 0.8769230769230769,
+      "grad_norm": 13.612154960632324,
+      "learning_rate": 0.00016504615384615385,
+      "loss": 0.8761,
+      "step": 1140
+    },
+    {
+      "epoch": 0.8846153846153846,
+      "grad_norm": 16.515607833862305,
+      "learning_rate": 0.00016473846153846155,
+      "loss": 0.851,
+      "step": 1150
+    },
+    {
+      "epoch": 0.8923076923076924,
+      "grad_norm": 3.3807168006896973,
+      "learning_rate": 0.00016443076923076922,
+      "loss": 0.7915,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 4.669132232666016,
+      "learning_rate": 0.00016412307692307694,
+      "loss": 0.7991,
+      "step": 1170
+    },
+    {
+      "epoch": 0.9076923076923077,
+      "grad_norm": 5.773404598236084,
+      "learning_rate": 0.00016381538461538461,
+      "loss": 0.9838,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9153846153846154,
+      "grad_norm": 6.2151713371276855,
+      "learning_rate": 0.0001635076923076923,
+      "loss": 0.7219,
+      "step": 1190
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 5.1845526695251465,
+      "learning_rate": 0.0001632,
+      "loss": 0.6051,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "eval_accuracy": 0.5387541607227769,
+      "eval_f1": 0.44318237972042884,
+      "eval_loss": 1.749355673789978,
+      "eval_runtime": 16.8588,
+      "eval_samples_per_second": 124.742,
+      "eval_steps_per_second": 15.6,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9307692307692308,
+      "grad_norm": 2.644609212875366,
+      "learning_rate": 0.0001628923076923077,
+      "loss": 0.8444,
+      "step": 1210
+    },
+    {
+      "epoch": 0.9384615384615385,
+      "grad_norm": 19.368057250976562,
+      "learning_rate": 0.0001625846153846154,
+      "loss": 1.0,
+      "step": 1220
+    },
+    {
+      "epoch": 0.9461538461538461,
+      "grad_norm": 4.127439498901367,
+      "learning_rate": 0.00016227692307692307,
+      "loss": 0.9056,
+      "step": 1230
+    },
+    {
+      "epoch": 0.9538461538461539,
+      "grad_norm": 11.336071014404297,
+      "learning_rate": 0.00016196923076923077,
+      "loss": 0.9195,
+      "step": 1240
+    },
+    {
+      "epoch": 0.9615384615384616,
+      "grad_norm": 11.028383255004883,
+      "learning_rate": 0.00016166153846153847,
+      "loss": 0.6968,
+      "step": 1250
+    },
+    {
+      "epoch": 0.9692307692307692,
+      "grad_norm": 24.071231842041016,
+      "learning_rate": 0.00016135384615384617,
+      "loss": 0.8775,
+      "step": 1260
+    },
+    {
+      "epoch": 0.9769230769230769,
+      "grad_norm": 6.071271896362305,
+      "learning_rate": 0.00016104615384615384,
+      "loss": 0.7622,
+      "step": 1270
+    },
+    {
+      "epoch": 0.9846153846153847,
+      "grad_norm": 5.132427215576172,
+      "learning_rate": 0.00016073846153846156,
+      "loss": 0.5779,
+      "step": 1280
+    },
+    {
+      "epoch": 0.9923076923076923,
+      "grad_norm": 2.5813121795654297,
+      "learning_rate": 0.00016043076923076923,
+      "loss": 0.6235,
+      "step": 1290
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 21.588083267211914,
+      "learning_rate": 0.00016012307692307693,
+      "loss": 0.5078,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5592011412268189,
+      "eval_f1": 0.4331656284152636,
+      "eval_loss": 1.7527055740356445,
+      "eval_runtime": 16.9587,
+      "eval_samples_per_second": 124.007,
+      "eval_steps_per_second": 15.508,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0076923076923077,
+      "grad_norm": 8.418657302856445,
+      "learning_rate": 0.00015981538461538463,
+      "loss": 0.7152,
+      "step": 1310
+    },
+    {
+      "epoch": 1.0153846153846153,
+      "grad_norm": 11.057409286499023,
+      "learning_rate": 0.00015950769230769232,
+      "loss": 0.8136,
+      "step": 1320
+    },
+    {
+      "epoch": 1.023076923076923,
+      "grad_norm": 13.094758987426758,
+      "learning_rate": 0.00015920000000000002,
+      "loss": 0.8875,
+      "step": 1330
+    },
+    {
+      "epoch": 1.0307692307692307,
+      "grad_norm": 2.214704990386963,
+      "learning_rate": 0.0001588923076923077,
+      "loss": 0.3971,
+      "step": 1340
+    },
+    {
+      "epoch": 1.0384615384615385,
+      "grad_norm": 5.733521938323975,
+      "learning_rate": 0.0001585846153846154,
+      "loss": 0.6687,
+      "step": 1350
+    },
+    {
+      "epoch": 1.0461538461538462,
+      "grad_norm": 3.178771734237671,
+      "learning_rate": 0.00015827692307692309,
+      "loss": 0.6676,
+      "step": 1360
+    },
+    {
+      "epoch": 1.0538461538461539,
+      "grad_norm": 2.0382332801818848,
+      "learning_rate": 0.00015796923076923078,
+      "loss": 0.359,
+      "step": 1370
+    },
+    {
+      "epoch": 1.0615384615384615,
+      "grad_norm": 5.142647743225098,
+      "learning_rate": 0.00015766153846153845,
+      "loss": 0.4274,
+      "step": 1380
+    },
+    {
+      "epoch": 1.0692307692307692,
+      "grad_norm": 1.5120126008987427,
+      "learning_rate": 0.00015735384615384615,
+      "loss": 0.5067,
+      "step": 1390
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "grad_norm": 5.24946403503418,
+      "learning_rate": 0.00015704615384615385,
+      "loss": 0.5576,
+      "step": 1400
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "eval_accuracy": 0.5744174988112221,
+      "eval_f1": 0.4794118900562854,
+      "eval_loss": 1.7491551637649536,
+      "eval_runtime": 16.4982,
+      "eval_samples_per_second": 127.468,
+      "eval_steps_per_second": 15.941,
+      "step": 1400
+    },
+    {
+      "epoch": 1.0846153846153845,
+      "grad_norm": 10.425132751464844,
+      "learning_rate": 0.00015673846153846155,
+      "loss": 0.8697,
+      "step": 1410
+    },
+    {
+      "epoch": 1.0923076923076924,
+      "grad_norm": 29.682703018188477,
+      "learning_rate": 0.00015643076923076924,
+      "loss": 0.9122,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 10.745546340942383,
+      "learning_rate": 0.00015612307692307694,
+      "loss": 0.7817,
+      "step": 1430
+    },
+    {
+      "epoch": 1.1076923076923078,
+      "grad_norm": 20.857337951660156,
+      "learning_rate": 0.00015581538461538464,
+      "loss": 0.9322,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1153846153846154,
+      "grad_norm": 4.892547130584717,
+      "learning_rate": 0.0001555076923076923,
+      "loss": 0.8185,
+      "step": 1450
+    },
+    {
+      "epoch": 1.123076923076923,
+      "grad_norm": 10.212249755859375,
+      "learning_rate": 0.0001552,
+      "loss": 0.7205,
+      "step": 1460
+    },
+    {
+      "epoch": 1.1307692307692307,
+      "grad_norm": 9.745187759399414,
+      "learning_rate": 0.0001548923076923077,
+      "loss": 0.5231,
+      "step": 1470
+    },
+    {
+      "epoch": 1.1384615384615384,
+      "grad_norm": 35.945106506347656,
+      "learning_rate": 0.0001545846153846154,
+      "loss": 0.5251,
+      "step": 1480
+    },
+    {
+      "epoch": 1.146153846153846,
+      "grad_norm": 11.048771858215332,
+      "learning_rate": 0.00015427692307692307,
+      "loss": 0.6372,
+      "step": 1490
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 24.183265686035156,
+      "learning_rate": 0.00015396923076923077,
+      "loss": 0.4983,
+      "step": 1500
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "eval_accuracy": 0.5563480741797432,
+      "eval_f1": 0.5014821350190568,
+      "eval_loss": 1.8451486825942993,
+      "eval_runtime": 16.8698,
+      "eval_samples_per_second": 124.661,
+      "eval_steps_per_second": 15.59,
+      "step": 1500
+    },
+    {
+      "epoch": 1.1615384615384616,
+      "grad_norm": 7.937176704406738,
+      "learning_rate": 0.0001536615384615385,
+      "loss": 0.7245,
+      "step": 1510
+    },
+    {
+      "epoch": 1.1692307692307693,
+      "grad_norm": 11.171468734741211,
+      "learning_rate": 0.00015335384615384616,
+      "loss": 0.6816,
+      "step": 1520
+    },
+    {
+      "epoch": 1.176923076923077,
+      "grad_norm": 41.86957931518555,
+      "learning_rate": 0.00015304615384615386,
+      "loss": 0.5819,
+      "step": 1530
+    },
+    {
+      "epoch": 1.1846153846153846,
+      "grad_norm": 15.450172424316406,
+      "learning_rate": 0.00015273846153846153,
+      "loss": 0.6544,
+      "step": 1540
+    },
+    {
+      "epoch": 1.1923076923076923,
+      "grad_norm": 34.523521423339844,
+      "learning_rate": 0.00015243076923076925,
+      "loss": 0.5765,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 16.87320327758789,
+      "learning_rate": 0.00015212307692307692,
+      "loss": 0.7262,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2076923076923076,
+      "grad_norm": 8.800385475158691,
+      "learning_rate": 0.00015181538461538462,
+      "loss": 0.6419,
+      "step": 1570
+    },
+    {
+      "epoch": 1.2153846153846155,
+      "grad_norm": 4.225490570068359,
+      "learning_rate": 0.00015150769230769232,
+      "loss": 0.6259,
+      "step": 1580
+    },
+    {
+      "epoch": 1.2230769230769232,
+      "grad_norm": 5.178450107574463,
+      "learning_rate": 0.00015120000000000002,
+      "loss": 0.4219,
+      "step": 1590
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "grad_norm": 15.80587100982666,
+      "learning_rate": 0.0001508923076923077,
+      "loss": 0.4921,
+      "step": 1600
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "eval_accuracy": 0.5967665240133143,
+      "eval_f1": 0.5083573981897155,
+      "eval_loss": 1.7411612272262573,
+      "eval_runtime": 16.8078,
+      "eval_samples_per_second": 125.121,
+      "eval_steps_per_second": 15.648,
+      "step": 1600
+    },
+    {
+      "epoch": 1.2384615384615385,
+      "grad_norm": 1.5432558059692383,
+      "learning_rate": 0.00015058461538461538,
+      "loss": 0.4805,
+      "step": 1610
+    },
+    {
+      "epoch": 1.2461538461538462,
+      "grad_norm": 6.642667770385742,
+      "learning_rate": 0.00015027692307692308,
+      "loss": 0.4152,
+      "step": 1620
+    },
+    {
+      "epoch": 1.2538461538461538,
+      "grad_norm": 21.921995162963867,
+      "learning_rate": 0.00014996923076923078,
+      "loss": 0.3077,
+      "step": 1630
+    },
+    {
+      "epoch": 1.2615384615384615,
+      "grad_norm": 5.363553047180176,
+      "learning_rate": 0.00014966153846153848,
+      "loss": 0.3495,
+      "step": 1640
+    },
+    {
+      "epoch": 1.2692307692307692,
+      "grad_norm": 13.898427963256836,
+      "learning_rate": 0.00014935384615384615,
+      "loss": 0.3986,
+      "step": 1650
+    },
+    {
+      "epoch": 1.2769230769230768,
+      "grad_norm": 9.330962181091309,
+      "learning_rate": 0.00014904615384615387,
+      "loss": 0.5338,
+      "step": 1660
+    },
+    {
+      "epoch": 1.2846153846153845,
+      "grad_norm": 7.371734142303467,
+      "learning_rate": 0.00014873846153846154,
+      "loss": 0.628,
+      "step": 1670
+    },
+    {
+      "epoch": 1.2923076923076924,
+      "grad_norm": 8.407286643981934,
+      "learning_rate": 0.00014843076923076924,
+      "loss": 0.4868,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 1.5198367834091187,
+      "learning_rate": 0.0001481230769230769,
+      "loss": 0.3815,
+      "step": 1690
+    },
+    {
+      "epoch": 1.3076923076923077,
+      "grad_norm": 3.9158477783203125,
+      "learning_rate": 0.00014781538461538463,
+      "loss": 0.6139,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3076923076923077,
+      "eval_accuracy": 0.6191155492154066,
+      "eval_f1": 0.47748185359189294,
+      "eval_loss": 1.5929406881332397,
+      "eval_runtime": 16.7863,
+      "eval_samples_per_second": 125.281,
+      "eval_steps_per_second": 15.668,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3153846153846154,
+      "grad_norm": 3.617347002029419,
+      "learning_rate": 0.00014750769230769233,
+      "loss": 0.4518,
+      "step": 1710
+    },
+    {
+      "epoch": 1.323076923076923,
+      "grad_norm": 5.165849208831787,
+      "learning_rate": 0.0001472,
+      "loss": 0.563,
+      "step": 1720
+    },
+    {
+      "epoch": 1.3307692307692307,
+      "grad_norm": 10.394920349121094,
+      "learning_rate": 0.0001468923076923077,
+      "loss": 0.4943,
+      "step": 1730
+    },
+    {
+      "epoch": 1.3384615384615386,
+      "grad_norm": 4.914735794067383,
+      "learning_rate": 0.0001465846153846154,
+      "loss": 0.6329,
+      "step": 1740
+    },
+    {
+      "epoch": 1.3461538461538463,
+      "grad_norm": 15.124076843261719,
+      "learning_rate": 0.0001462769230769231,
+      "loss": 0.7307,
+      "step": 1750
+    },
+    {
+      "epoch": 1.353846153846154,
+      "grad_norm": 17.19927978515625,
+      "learning_rate": 0.00014596923076923076,
+      "loss": 0.4926,
+      "step": 1760
+    },
+    {
+      "epoch": 1.3615384615384616,
+      "grad_norm": 6.490057945251465,
+      "learning_rate": 0.00014566153846153846,
+      "loss": 0.7761,
+      "step": 1770
+    },
+    {
+      "epoch": 1.3692307692307693,
+      "grad_norm": 11.010785102844238,
+      "learning_rate": 0.00014535384615384616,
+      "loss": 0.4201,
+      "step": 1780
+    },
+    {
+      "epoch": 1.376923076923077,
+      "grad_norm": 10.585082054138184,
+      "learning_rate": 0.00014504615384615385,
+      "loss": 0.7574,
+      "step": 1790
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "grad_norm": 5.400774002075195,
+      "learning_rate": 0.00014473846153846155,
+      "loss": 0.4287,
+      "step": 1800
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "eval_accuracy": 0.5786970993818354,
+      "eval_f1": 0.48555911203830004,
+      "eval_loss": 1.8428493738174438,
+      "eval_runtime": 19.7656,
+      "eval_samples_per_second": 106.397,
+      "eval_steps_per_second": 13.306,
+      "step": 1800
+    },
+    {
+      "epoch": 1.3923076923076922,
+      "grad_norm": 17.2746524810791,
+      "learning_rate": 0.00014443076923076925,
+      "loss": 0.4772,
+      "step": 1810
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 6.008124351501465,
+      "learning_rate": 0.00014412307692307695,
+      "loss": 0.6525,
+      "step": 1820
+    },
+    {
+      "epoch": 1.4076923076923076,
+      "grad_norm": 13.485288619995117,
+      "learning_rate": 0.00014381538461538462,
+      "loss": 0.5041,
+      "step": 1830
+    },
+    {
+      "epoch": 1.4153846153846155,
+      "grad_norm": 14.786735534667969,
+      "learning_rate": 0.00014350769230769231,
+      "loss": 0.5307,
+      "step": 1840
+    },
+    {
+      "epoch": 1.4230769230769231,
+      "grad_norm": 8.736832618713379,
+      "learning_rate": 0.0001432,
+      "loss": 0.4298,
+      "step": 1850
+    },
+    {
+      "epoch": 1.4307692307692308,
+      "grad_norm": 0.5690996050834656,
+      "learning_rate": 0.0001428923076923077,
+      "loss": 0.3008,
+      "step": 1860
+    },
+    {
+      "epoch": 1.4384615384615385,
+      "grad_norm": 4.46373987197876,
+      "learning_rate": 0.00014258461538461538,
+      "loss": 0.4395,
+      "step": 1870
+    },
+    {
+      "epoch": 1.4461538461538461,
+      "grad_norm": 3.5213191509246826,
+      "learning_rate": 0.00014227692307692308,
+      "loss": 0.6807,
+      "step": 1880
+    },
+    {
+      "epoch": 1.4538461538461538,
+      "grad_norm": 20.121078491210938,
+      "learning_rate": 0.00014196923076923077,
+      "loss": 0.7545,
+      "step": 1890
+    },
+    {
+      "epoch": 1.4615384615384617,
+      "grad_norm": 14.214380264282227,
+      "learning_rate": 0.00014166153846153847,
+      "loss": 0.3866,
+      "step": 1900
+    },
+    {
+      "epoch": 1.4615384615384617,
+      "eval_accuracy": 0.5901093675701379,
+      "eval_f1": 0.5485903466017813,
+      "eval_loss": 1.733641266822815,
+      "eval_runtime": 16.7345,
+      "eval_samples_per_second": 125.669,
+      "eval_steps_per_second": 15.716,
+      "step": 1900
+    },
+    {
+      "epoch": 1.4692307692307693,
+      "grad_norm": 0.3178653120994568,
+      "learning_rate": 0.00014135384615384617,
+      "loss": 0.6012,
+      "step": 1910
+    },
+    {
+      "epoch": 1.476923076923077,
+      "grad_norm": 4.369613170623779,
+      "learning_rate": 0.00014104615384615384,
+      "loss": 0.3369,
+      "step": 1920
+    },
+    {
+      "epoch": 1.4846153846153847,
+      "grad_norm": 15.896696090698242,
+      "learning_rate": 0.00014073846153846156,
+      "loss": 0.3105,
+      "step": 1930
+    },
+    {
+      "epoch": 1.4923076923076923,
+      "grad_norm": 10.438070297241211,
+      "learning_rate": 0.00014043076923076923,
+      "loss": 0.8154,
+      "step": 1940
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 14.663464546203613,
+      "learning_rate": 0.00014012307692307693,
+      "loss": 0.3988,
+      "step": 1950
+    },
+    {
+      "epoch": 1.5076923076923077,
+      "grad_norm": 7.354617595672607,
+      "learning_rate": 0.00013981538461538463,
+      "loss": 0.3093,
+      "step": 1960
+    },
+    {
+      "epoch": 1.5153846153846153,
+      "grad_norm": 4.684564113616943,
+      "learning_rate": 0.00013950769230769233,
+      "loss": 0.2435,
+      "step": 1970
+    },
+    {
+      "epoch": 1.523076923076923,
+      "grad_norm": 9.166966438293457,
+      "learning_rate": 0.0001392,
+      "loss": 0.435,
+      "step": 1980
+    },
+    {
+      "epoch": 1.5307692307692307,
+      "grad_norm": 11.143019676208496,
+      "learning_rate": 0.0001388923076923077,
+      "loss": 0.5061,
+      "step": 1990
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 7.119759559631348,
+      "learning_rate": 0.0001385846153846154,
+      "loss": 0.5433,
+      "step": 2000
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "eval_accuracy": 0.6115073704232049,
+      "eval_f1": 0.5674066960408692,
+      "eval_loss": 1.6080265045166016,
+      "eval_runtime": 16.8201,
+      "eval_samples_per_second": 125.029,
+      "eval_steps_per_second": 15.636,
+      "step": 2000
+    },
+    {
+      "epoch": 1.546153846153846,
+      "grad_norm": 14.597929000854492,
+      "learning_rate": 0.0001382769230769231,
+      "loss": 0.367,
+      "step": 2010
+    },
+    {
+      "epoch": 1.5538461538461539,
+      "grad_norm": 5.811885833740234,
+      "learning_rate": 0.00013796923076923078,
+      "loss": 0.4218,
+      "step": 2020
+    },
+    {
+      "epoch": 1.5615384615384615,
+      "grad_norm": 7.272891998291016,
+      "learning_rate": 0.00013766153846153845,
+      "loss": 0.372,
+      "step": 2030
+    },
+    {
+      "epoch": 1.5692307692307692,
+      "grad_norm": 1.723375678062439,
+      "learning_rate": 0.00013735384615384618,
+      "loss": 0.249,
+      "step": 2040
+    },
+    {
+      "epoch": 1.5769230769230769,
+      "grad_norm": 4.052417755126953,
+      "learning_rate": 0.00013704615384615385,
+      "loss": 0.464,
+      "step": 2050
+    },
+    {
+      "epoch": 1.5846153846153848,
+      "grad_norm": 15.070720672607422,
+      "learning_rate": 0.00013673846153846155,
+      "loss": 0.296,
+      "step": 2060
+    },
+    {
+      "epoch": 1.5923076923076924,
+      "grad_norm": 3.956598997116089,
+      "learning_rate": 0.00013643076923076922,
+      "loss": 0.2252,
+      "step": 2070
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 11.06430721282959,
+      "learning_rate": 0.00013612307692307694,
+      "loss": 0.4916,
+      "step": 2080
+    },
+    {
+      "epoch": 1.6076923076923078,
+      "grad_norm": 7.10749626159668,
+      "learning_rate": 0.0001358153846153846,
+      "loss": 0.4222,
+      "step": 2090
+    },
+    {
+      "epoch": 1.6153846153846154,
+      "grad_norm": 7.789681911468506,
+      "learning_rate": 0.0001355076923076923,
+      "loss": 0.48,
+      "step": 2100
+    },
+    {
+      "epoch": 1.6153846153846154,
+      "eval_accuracy": 0.6024726581074655,
+      "eval_f1": 0.5739795946472991,
+      "eval_loss": 2.0280513763427734,
+      "eval_runtime": 17.1171,
+      "eval_samples_per_second": 122.86,
+      "eval_steps_per_second": 15.365,
+      "step": 2100
+    },
+    {
+      "epoch": 1.623076923076923,
+      "grad_norm": 9.332916259765625,
+      "learning_rate": 0.0001352,
+      "loss": 0.414,
+      "step": 2110
+    },
+    {
+      "epoch": 1.6307692307692307,
+      "grad_norm": 1.6355888843536377,
+      "learning_rate": 0.0001348923076923077,
+      "loss": 0.3957,
+      "step": 2120
+    },
+    {
+      "epoch": 1.6384615384615384,
+      "grad_norm": 10.081631660461426,
+      "learning_rate": 0.0001345846153846154,
+      "loss": 0.5076,
+      "step": 2130
+    },
+    {
+      "epoch": 1.646153846153846,
+      "grad_norm": 3.474703788757324,
+      "learning_rate": 0.00013427692307692307,
+      "loss": 0.8926,
+      "step": 2140
+    },
+    {
+      "epoch": 1.6538461538461537,
+      "grad_norm": 6.794450283050537,
+      "learning_rate": 0.00013396923076923077,
+      "loss": 0.5352,
+      "step": 2150
+    },
+    {
+      "epoch": 1.6615384615384614,
+      "grad_norm": 15.456186294555664,
+      "learning_rate": 0.00013366153846153847,
+      "loss": 0.2422,
+      "step": 2160
+    },
+    {
+      "epoch": 1.669230769230769,
+      "grad_norm": 15.137236595153809,
+      "learning_rate": 0.00013335384615384616,
+      "loss": 0.3668,
+      "step": 2170
+    },
+    {
+      "epoch": 1.676923076923077,
+      "grad_norm": 0.18958747386932373,
+      "learning_rate": 0.00013304615384615383,
+      "loss": 0.3099,
+      "step": 2180
+    },
+    {
+      "epoch": 1.6846153846153846,
+      "grad_norm": 11.518759727478027,
+      "learning_rate": 0.00013273846153846156,
+      "loss": 0.6227,
+      "step": 2190
+    },
+    {
+      "epoch": 1.6923076923076923,
+      "grad_norm": 2.6654231548309326,
+      "learning_rate": 0.00013243076923076926,
+      "loss": 0.5267,
+      "step": 2200
+    },
+    {
+      "epoch": 1.6923076923076923,
+      "eval_accuracy": 0.6980504041844984,
+      "eval_f1": 0.6558579987834274,
+      "eval_loss": 1.1857682466506958,
+      "eval_runtime": 17.02,
+      "eval_samples_per_second": 123.561,
+      "eval_steps_per_second": 15.452,
+      "step": 2200
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 4.872873306274414,
+      "learning_rate": 0.00013212307692307693,
+      "loss": 0.3604,
+      "step": 2210
+    },
+    {
+      "epoch": 1.7076923076923078,
+      "grad_norm": 1.0326272249221802,
+      "learning_rate": 0.00013181538461538462,
+      "loss": 0.3703,
+      "step": 2220
+    },
+    {
+      "epoch": 1.7153846153846155,
+      "grad_norm": 7.073639869689941,
+      "learning_rate": 0.00013150769230769232,
+      "loss": 0.3494,
+      "step": 2230
+    },
+    {
+      "epoch": 1.7230769230769232,
+      "grad_norm": 4.089666366577148,
+      "learning_rate": 0.00013120000000000002,
+      "loss": 0.327,
+      "step": 2240
+    },
+    {
+      "epoch": 1.7307692307692308,
+      "grad_norm": 1.9805048704147339,
+      "learning_rate": 0.0001308923076923077,
+      "loss": 0.4399,
+      "step": 2250
+    },
+    {
+      "epoch": 1.7384615384615385,
+      "grad_norm": 0.8075215816497803,
+      "learning_rate": 0.00013058461538461539,
+      "loss": 0.3764,
+      "step": 2260
+    },
+    {
+      "epoch": 1.7461538461538462,
+      "grad_norm": 3.6147022247314453,
+      "learning_rate": 0.00013027692307692308,
+      "loss": 0.4837,
+      "step": 2270
+    },
+    {
+      "epoch": 1.7538461538461538,
+      "grad_norm": 2.4369399547576904,
+      "learning_rate": 0.00012996923076923078,
+      "loss": 0.4321,
+      "step": 2280
+    },
+    {
+      "epoch": 1.7615384615384615,
+      "grad_norm": 20.212575912475586,
+      "learning_rate": 0.00012966153846153848,
+      "loss": 0.6963,
+      "step": 2290
+    },
+    {
+      "epoch": 1.7692307692307692,
+      "grad_norm": 0.21433982253074646,
+      "learning_rate": 0.00012935384615384615,
+      "loss": 0.4285,
+      "step": 2300
+    },
+    {
+      "epoch": 1.7692307692307692,
+      "eval_accuracy": 0.656680932001902,
+      "eval_f1": 0.6080944583276796,
+      "eval_loss": 1.390582799911499,
+      "eval_runtime": 17.5993,
+      "eval_samples_per_second": 119.494,
+      "eval_steps_per_second": 14.944,
+      "step": 2300
+    },
+    {
+      "epoch": 1.7769230769230768,
+      "grad_norm": 3.978227138519287,
+      "learning_rate": 0.00012904615384615387,
+      "loss": 0.3763,
+      "step": 2310
+    },
+    {
+      "epoch": 1.7846153846153845,
+      "grad_norm": 9.16811752319336,
+      "learning_rate": 0.00012873846153846154,
+      "loss": 0.3022,
+      "step": 2320
+    },
+    {
+      "epoch": 1.7923076923076922,
+      "grad_norm": 2.145604133605957,
+      "learning_rate": 0.00012843076923076924,
+      "loss": 0.2513,
+      "step": 2330
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 1.1712201833724976,
+      "learning_rate": 0.00012812307692307694,
+      "loss": 0.463,
+      "step": 2340
+    },
+    {
+      "epoch": 1.8076923076923077,
+      "grad_norm": 1.4317967891693115,
+      "learning_rate": 0.00012781538461538463,
+      "loss": 0.1709,
+      "step": 2350
+    },
+    {
+      "epoch": 1.8153846153846154,
+      "grad_norm": 5.743645191192627,
+      "learning_rate": 0.0001275076923076923,
+      "loss": 0.3748,
+      "step": 2360
+    },
+    {
+      "epoch": 1.823076923076923,
+      "grad_norm": 6.2800188064575195,
+      "learning_rate": 0.0001272,
+      "loss": 0.3998,
+      "step": 2370
+    },
+    {
+      "epoch": 1.830769230769231,
+      "grad_norm": 1.29902982711792,
+      "learning_rate": 0.0001268923076923077,
+      "loss": 0.1479,
+      "step": 2380
+    },
+    {
+      "epoch": 1.8384615384615386,
+      "grad_norm": 4.433743476867676,
+      "learning_rate": 0.0001265846153846154,
+      "loss": 0.439,
+      "step": 2390
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "grad_norm": 7.409432888031006,
+      "learning_rate": 0.0001262769230769231,
+      "loss": 0.3514,
+      "step": 2400
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "eval_accuracy": 0.6956728483119353,
+      "eval_f1": 0.6494444379031487,
+      "eval_loss": 1.3833204507827759,
+      "eval_runtime": 17.0907,
+      "eval_samples_per_second": 123.05,
+      "eval_steps_per_second": 15.389,
+      "step": 2400
+    },
+    {
+      "epoch": 1.853846153846154,
+      "grad_norm": 34.418609619140625,
+      "learning_rate": 0.00012596923076923076,
+      "loss": 0.2883,
+      "step": 2410
+    },
+    {
+      "epoch": 1.8615384615384616,
+      "grad_norm": 6.44146728515625,
+      "learning_rate": 0.00012566153846153846,
+      "loss": 0.2089,
+      "step": 2420
+    },
+    {
+      "epoch": 1.8692307692307693,
+      "grad_norm": 11.238855361938477,
+      "learning_rate": 0.00012535384615384616,
+      "loss": 0.3325,
+      "step": 2430
+    },
+    {
+      "epoch": 1.876923076923077,
+      "grad_norm": 7.347435474395752,
+      "learning_rate": 0.00012504615384615386,
+      "loss": 0.1479,
+      "step": 2440
+    },
+    {
+      "epoch": 1.8846153846153846,
+      "grad_norm": 0.5125481486320496,
+      "learning_rate": 0.00012473846153846153,
+      "loss": 0.3997,
+      "step": 2450
+    },
+    {
+      "epoch": 1.8923076923076922,
+      "grad_norm": 1.0783796310424805,
+      "learning_rate": 0.00012443076923076925,
+      "loss": 0.3116,
+      "step": 2460
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 27.976240158081055,
+      "learning_rate": 0.00012412307692307692,
+      "loss": 0.3706,
+      "step": 2470
+    },
+    {
+      "epoch": 1.9076923076923076,
+      "grad_norm": 43.74629592895508,
+      "learning_rate": 0.00012381538461538462,
+      "loss": 0.5389,
+      "step": 2480
+    },
+    {
+      "epoch": 1.9153846153846152,
+      "grad_norm": 2.6544032096862793,
+      "learning_rate": 0.00012350769230769232,
+      "loss": 0.2875,
+      "step": 2490
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 1.781782865524292,
+      "learning_rate": 0.0001232,
+      "loss": 0.1075,
+      "step": 2500
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "eval_accuracy": 0.6571564431764146,
+      "eval_f1": 0.626568485566822,
+      "eval_loss": 1.7410181760787964,
+      "eval_runtime": 16.7273,
+      "eval_samples_per_second": 125.722,
+      "eval_steps_per_second": 15.723,
+      "step": 2500
+    },
+    {
+      "epoch": 1.9307692307692308,
+      "grad_norm": 13.618246078491211,
+      "learning_rate": 0.0001228923076923077,
+      "loss": 0.4101,
+      "step": 2510
+    },
+    {
+      "epoch": 1.9384615384615385,
+      "grad_norm": 5.646900653839111,
+      "learning_rate": 0.00012258461538461538,
+      "loss": 0.4107,
+      "step": 2520
+    },
+    {
+      "epoch": 1.9461538461538461,
+      "grad_norm": 0.9535161256790161,
+      "learning_rate": 0.00012227692307692308,
+      "loss": 0.3682,
+      "step": 2530
+    },
+    {
+      "epoch": 1.953846153846154,
+      "grad_norm": 8.248202323913574,
+      "learning_rate": 0.00012196923076923078,
+      "loss": 0.3442,
+      "step": 2540
+    },
+    {
+      "epoch": 1.9615384615384617,
+      "grad_norm": 23.23848533630371,
+      "learning_rate": 0.00012166153846153847,
+      "loss": 0.5138,
+      "step": 2550
+    },
+    {
+      "epoch": 1.9692307692307693,
+      "grad_norm": 5.602075576782227,
+      "learning_rate": 0.00012135384615384616,
+      "loss": 0.7101,
+      "step": 2560
+    },
+    {
+      "epoch": 1.976923076923077,
+      "grad_norm": 0.8480932116508484,
+      "learning_rate": 0.00012104615384615385,
+      "loss": 0.2,
+      "step": 2570
+    },
+    {
+      "epoch": 1.9846153846153847,
+      "grad_norm": 7.132087707519531,
+      "learning_rate": 0.00012073846153846154,
+      "loss": 0.5217,
+      "step": 2580
+    },
+    {
+      "epoch": 1.9923076923076923,
+      "grad_norm": 0.9168047308921814,
+      "learning_rate": 0.00012043076923076923,
+      "loss": 0.2896,
+      "step": 2590
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 48.00926971435547,
+      "learning_rate": 0.00012012307692307693,
+      "loss": 0.3847,
+      "step": 2600
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6338563956252972,
+      "eval_f1": 0.5944778974039866,
+      "eval_loss": 1.7384583950042725,
+      "eval_runtime": 16.9504,
+      "eval_samples_per_second": 124.068,
+      "eval_steps_per_second": 15.516,
+      "step": 2600
+    },
+    {
+      "epoch": 2.0076923076923077,
+      "grad_norm": 1.0568981170654297,
+      "learning_rate": 0.00011981538461538462,
+      "loss": 0.2972,
+      "step": 2610
+    },
+    {
+      "epoch": 2.0153846153846153,
+      "grad_norm": 7.609832763671875,
+      "learning_rate": 0.00011950769230769233,
+      "loss": 0.2148,
+      "step": 2620
+    },
+    {
+      "epoch": 2.023076923076923,
+      "grad_norm": 1.375036597251892,
+      "learning_rate": 0.0001192,
+      "loss": 0.2109,
+      "step": 2630
+    },
+    {
+      "epoch": 2.0307692307692307,
+      "grad_norm": 12.352304458618164,
+      "learning_rate": 0.00011889230769230771,
+      "loss": 0.1467,
+      "step": 2640
+    },
+    {
+      "epoch": 2.0384615384615383,
+      "grad_norm": 6.881193161010742,
+      "learning_rate": 0.00011858461538461538,
+      "loss": 0.1095,
+      "step": 2650
+    },
+    {
+      "epoch": 2.046153846153846,
+      "grad_norm": 1.094142198562622,
+      "learning_rate": 0.00011827692307692309,
+      "loss": 0.1977,
+      "step": 2660
+    },
+    {
+      "epoch": 2.0538461538461537,
+      "grad_norm": 12.430768013000488,
+      "learning_rate": 0.00011796923076923076,
+      "loss": 0.2677,
+      "step": 2670
+    },
+    {
+      "epoch": 2.0615384615384613,
+      "grad_norm": 0.16524989902973175,
+      "learning_rate": 0.00011766153846153847,
+      "loss": 0.2452,
+      "step": 2680
+    },
+    {
+      "epoch": 2.0692307692307694,
+      "grad_norm": 1.5544637441635132,
+      "learning_rate": 0.00011735384615384617,
+      "loss": 0.1912,
+      "step": 2690
+    },
+    {
+      "epoch": 2.076923076923077,
+      "grad_norm": 8.975374221801758,
+      "learning_rate": 0.00011704615384615385,
+      "loss": 0.0949,
+      "step": 2700
+    },
+    {
+      "epoch": 2.076923076923077,
+      "eval_accuracy": 0.6642891107941037,
+      "eval_f1": 0.6352842080424905,
+      "eval_loss": 1.8801521062850952,
+      "eval_runtime": 17.0485,
+      "eval_samples_per_second": 123.354,
+      "eval_steps_per_second": 15.427,
+      "step": 2700
+    },
+    {
+      "epoch": 2.0846153846153848,
+      "grad_norm": 0.3050454556941986,
+      "learning_rate": 0.00011673846153846155,
+      "loss": 0.1858,
+      "step": 2710
+    },
+    {
+      "epoch": 2.0923076923076924,
+      "grad_norm": 3.2935495376586914,
+      "learning_rate": 0.00011643076923076923,
+      "loss": 0.2089,
+      "step": 2720
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 3.361696481704712,
+      "learning_rate": 0.00011612307692307693,
+      "loss": 0.243,
+      "step": 2730
+    },
+    {
+      "epoch": 2.1076923076923078,
+      "grad_norm": 0.6958662867546082,
+      "learning_rate": 0.00011581538461538461,
+      "loss": 0.1245,
+      "step": 2740
+    },
+    {
+      "epoch": 2.1153846153846154,
+      "grad_norm": 22.17263412475586,
+      "learning_rate": 0.00011550769230769231,
+      "loss": 0.1225,
+      "step": 2750
+    },
+    {
+      "epoch": 2.123076923076923,
+      "grad_norm": 1.6131566762924194,
+      "learning_rate": 0.0001152,
+      "loss": 0.3808,
+      "step": 2760
+    },
+    {
+      "epoch": 2.1307692307692307,
+      "grad_norm": 6.770347595214844,
+      "learning_rate": 0.0001148923076923077,
+      "loss": 0.2593,
+      "step": 2770
+    },
+    {
+      "epoch": 2.1384615384615384,
+      "grad_norm": 0.6103817820549011,
+      "learning_rate": 0.00011458461538461538,
+      "loss": 0.1343,
+      "step": 2780
+    },
+    {
+      "epoch": 2.146153846153846,
+      "grad_norm": 0.06068554148077965,
+      "learning_rate": 0.00011427692307692309,
+      "loss": 0.2062,
+      "step": 2790
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "grad_norm": 16.673128128051758,
+      "learning_rate": 0.00011396923076923078,
+      "loss": 0.2316,
+      "step": 2800
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "eval_accuracy": 0.7451260104612458,
+      "eval_f1": 0.6971439536352935,
+      "eval_loss": 1.397080421447754,
+      "eval_runtime": 17.1647,
+      "eval_samples_per_second": 122.519,
+      "eval_steps_per_second": 15.322,
+      "step": 2800
+    },
+    {
+      "epoch": 2.1615384615384614,
+      "grad_norm": 0.3473091125488281,
+      "learning_rate": 0.00011366153846153847,
+      "loss": 0.0767,
+      "step": 2810
+    },
+    {
+      "epoch": 2.169230769230769,
+      "grad_norm": 7.414034843444824,
+      "learning_rate": 0.00011335384615384617,
+      "loss": 0.3719,
+      "step": 2820
+    },
+    {
+      "epoch": 2.1769230769230767,
+      "grad_norm": 18.647066116333008,
+      "learning_rate": 0.00011304615384615385,
+      "loss": 0.1569,
+      "step": 2830
+    },
+    {
+      "epoch": 2.184615384615385,
+      "grad_norm": 7.460345268249512,
+      "learning_rate": 0.00011273846153846155,
+      "loss": 0.2751,
+      "step": 2840
+    },
+    {
+      "epoch": 2.1923076923076925,
+      "grad_norm": 0.29477110505104065,
+      "learning_rate": 0.00011243076923076923,
+      "loss": 0.3511,
+      "step": 2850
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 0.22180061042308807,
+      "learning_rate": 0.00011212307692307693,
+      "loss": 0.2243,
+      "step": 2860
+    },
+    {
+      "epoch": 2.207692307692308,
+      "grad_norm": 0.8195671439170837,
+      "learning_rate": 0.00011181538461538461,
+      "loss": 0.1747,
+      "step": 2870
+    },
+    {
+      "epoch": 2.2153846153846155,
+      "grad_norm": 16.73213005065918,
+      "learning_rate": 0.00011150769230769231,
+      "loss": 0.3725,
+      "step": 2880
+    },
+    {
+      "epoch": 2.223076923076923,
+      "grad_norm": 4.069842338562012,
+      "learning_rate": 0.00011120000000000002,
+      "loss": 0.1868,
+      "step": 2890
+    },
+    {
+      "epoch": 2.230769230769231,
+      "grad_norm": 6.952284336090088,
+      "learning_rate": 0.00011089230769230769,
+      "loss": 0.3784,
+      "step": 2900
+    },
+    {
+      "epoch": 2.230769230769231,
+      "eval_accuracy": 0.7047075606276747,
+      "eval_f1": 0.6842824123366446,
+      "eval_loss": 1.5770621299743652,
+      "eval_runtime": 16.8957,
+      "eval_samples_per_second": 124.47,
+      "eval_steps_per_second": 15.566,
+      "step": 2900
+    },
+    {
+      "epoch": 2.2384615384615385,
+      "grad_norm": 0.06188400089740753,
+      "learning_rate": 0.0001105846153846154,
+      "loss": 0.1121,
+      "step": 2910
+    },
+    {
+      "epoch": 2.246153846153846,
+      "grad_norm": 4.324626445770264,
+      "learning_rate": 0.00011027692307692308,
+      "loss": 0.149,
+      "step": 2920
+    },
+    {
+      "epoch": 2.253846153846154,
+      "grad_norm": 0.2440049648284912,
+      "learning_rate": 0.00010996923076923078,
+      "loss": 0.184,
+      "step": 2930
+    },
+    {
+      "epoch": 2.2615384615384615,
+      "grad_norm": 0.7193968296051025,
+      "learning_rate": 0.00010966153846153847,
+      "loss": 0.1025,
+      "step": 2940
+    },
+    {
+      "epoch": 2.269230769230769,
+      "grad_norm": 0.21983827650547028,
+      "learning_rate": 0.00010935384615384616,
+      "loss": 0.2035,
+      "step": 2950
+    },
+    {
+      "epoch": 2.276923076923077,
+      "grad_norm": 25.79552459716797,
+      "learning_rate": 0.00010904615384615385,
+      "loss": 0.2581,
+      "step": 2960
+    },
+    {
+      "epoch": 2.2846153846153845,
+      "grad_norm": 1.1863837242126465,
+      "learning_rate": 0.00010873846153846154,
+      "loss": 0.0128,
+      "step": 2970
+    },
+    {
+      "epoch": 2.292307692307692,
+      "grad_norm": 3.72625470161438,
+      "learning_rate": 0.00010843076923076924,
+      "loss": 0.0762,
+      "step": 2980
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 0.28206005692481995,
+      "learning_rate": 0.00010812307692307693,
+      "loss": 0.164,
+      "step": 2990
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 0.39071956276893616,
+      "learning_rate": 0.00010781538461538462,
+      "loss": 0.4097,
+      "step": 3000
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "eval_accuracy": 0.7066096053257251,
+      "eval_f1": 0.708134671027892,
+      "eval_loss": 1.5794614553451538,
+      "eval_runtime": 17.2392,
+      "eval_samples_per_second": 121.99,
+      "eval_steps_per_second": 15.256,
+      "step": 3000
+    },
+    {
+      "epoch": 2.315384615384615,
+      "grad_norm": 0.2508563697338104,
+      "learning_rate": 0.0001075076923076923,
+      "loss": 0.178,
+      "step": 3010
+    },
+    {
+      "epoch": 2.3230769230769233,
+      "grad_norm": 3.3515655994415283,
+      "learning_rate": 0.00010720000000000002,
+      "loss": 0.4306,
+      "step": 3020
+    },
+    {
+      "epoch": 2.330769230769231,
+      "grad_norm": 10.517285346984863,
+      "learning_rate": 0.00010689230769230769,
+      "loss": 0.6353,
+      "step": 3030
+    },
+    {
+      "epoch": 2.3384615384615386,
+      "grad_norm": 2.867100954055786,
+      "learning_rate": 0.00010661538461538463,
+      "loss": 0.3472,
+      "step": 3040
+    },
+    {
+      "epoch": 2.3461538461538463,
+      "grad_norm": 0.3064523935317993,
+      "learning_rate": 0.0001063076923076923,
+      "loss": 0.6559,
+      "step": 3050
+    },
+    {
+      "epoch": 2.353846153846154,
+      "grad_norm": 0.7823086977005005,
+      "learning_rate": 0.00010600000000000002,
+      "loss": 0.1661,
+      "step": 3060
+    },
+    {
+      "epoch": 2.3615384615384616,
+      "grad_norm": 4.2157158851623535,
+      "learning_rate": 0.00010569230769230769,
+      "loss": 0.1816,
+      "step": 3070
+    },
+    {
+      "epoch": 2.3692307692307693,
+      "grad_norm": 0.19536501169204712,
+      "learning_rate": 0.0001053846153846154,
+      "loss": 0.1233,
+      "step": 3080
+    },
+    {
+      "epoch": 2.376923076923077,
+      "grad_norm": 0.6156964898109436,
+      "learning_rate": 0.00010507692307692307,
+      "loss": 0.2515,
+      "step": 3090
+    },
+    {
+      "epoch": 2.3846153846153846,
+      "grad_norm": 0.24189499020576477,
+      "learning_rate": 0.00010476923076923078,
+      "loss": 0.2116,
+      "step": 3100
+    },
+    {
+      "epoch": 2.3846153846153846,
+      "eval_accuracy": 0.7009034712315739,
+      "eval_f1": 0.7238279518965035,
+      "eval_loss": 1.6707746982574463,
+      "eval_runtime": 17.2105,
+      "eval_samples_per_second": 122.193,
+      "eval_steps_per_second": 15.281,
+      "step": 3100
+    },
+    {
+      "epoch": 2.3923076923076922,
+      "grad_norm": 8.196181297302246,
+      "learning_rate": 0.00010446153846153847,
+      "loss": 0.4281,
+      "step": 3110
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 2.309295892715454,
+      "learning_rate": 0.00010415384615384616,
+      "loss": 0.2129,
+      "step": 3120
+    },
+    {
+      "epoch": 2.4076923076923076,
+      "grad_norm": 17.341907501220703,
+      "learning_rate": 0.00010384615384615386,
+      "loss": 0.361,
+      "step": 3130
+    },
+    {
+      "epoch": 2.4153846153846152,
+      "grad_norm": 4.917151927947998,
+      "learning_rate": 0.00010353846153846154,
+      "loss": 0.218,
+      "step": 3140
+    },
+    {
+      "epoch": 2.423076923076923,
+      "grad_norm": 15.64272403717041,
+      "learning_rate": 0.00010323076923076924,
+      "loss": 0.2464,
+      "step": 3150
+    },
+    {
+      "epoch": 2.430769230769231,
+      "grad_norm": 22.630794525146484,
+      "learning_rate": 0.00010292307692307692,
+      "loss": 0.4618,
+      "step": 3160
+    },
+    {
+      "epoch": 2.4384615384615387,
+      "grad_norm": 17.146251678466797,
+      "learning_rate": 0.00010261538461538462,
+      "loss": 0.1442,
+      "step": 3170
+    },
+    {
+      "epoch": 2.4461538461538463,
+      "grad_norm": 11.021916389465332,
+      "learning_rate": 0.0001023076923076923,
+      "loss": 0.2291,
+      "step": 3180
+    },
+    {
+      "epoch": 2.453846153846154,
+      "grad_norm": 6.643194198608398,
+      "learning_rate": 0.00010200000000000001,
+      "loss": 0.1213,
+      "step": 3190
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": 8.800886154174805,
+      "learning_rate": 0.00010169230769230768,
+      "loss": 0.1918,
+      "step": 3200
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "eval_accuracy": 0.6913932477413219,
+      "eval_f1": 0.6997775817133021,
+      "eval_loss": 1.6221750974655151,
+      "eval_runtime": 17.2655,
+      "eval_samples_per_second": 121.804,
+      "eval_steps_per_second": 15.233,
+      "step": 3200
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "step": 3200,
+      "total_flos": 1.4730716562599117e+18,
+      "train_loss": 0.7703810732765123,
+      "train_runtime": 1237.8817,
+      "train_samples_per_second": 41.987,
+      "train_steps_per_second": 5.251
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 6500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 10,
+        "early_stopping_threshold": 0.0001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 10
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.4730716562599117e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}