End of training

Browse files

Files changed (6) hide show

README.md +4 -2
all_results.json +10 -10
eval_results.json +6 -6
runs/Feb19_23-43-10_galactica.ad.cirange.net/events.out.tfevents.1740025323.galactica.ad.cirange.net.3091725.1 +3 -0
train_results.json +5 -5
trainer_state.json +1985 -455

README.md CHANGED Viewed

@@ -3,6 +3,8 @@ library_name: transformers
 license: apache-2.0
 base_model: c14kevincardenas/beit-large-patch16-384-limb
 tags:
 - generated_from_trainer
 model-index:
 - name: limbxy_seq_t2_heads2_layers1
@@ -14,10 +16,10 @@ should probably proofread and complete it, then remove this comment. -->
 # limbxy_seq_t2_heads2_layers1
-This model is a fine-tuned version of [c14kevincardenas/beit-large-patch16-384-limb](https://huggingface.co/c14kevincardenas/beit-large-patch16-384-limb) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0048
-- Rmse: 0.0693
 ## Model description

 license: apache-2.0
 base_model: c14kevincardenas/beit-large-patch16-384-limb
 tags:
+- image-sequence-classification
+- vision
 - generated_from_trainer
 model-index:
 - name: limbxy_seq_t2_heads2_layers1
 # limbxy_seq_t2_heads2_layers1
+This model is a fine-tuned version of [c14kevincardenas/beit-large-patch16-384-limb](https://huggingface.co/c14kevincardenas/beit-large-patch16-384-limb) on the c14kevincardenas/beta_caller_284_limbxy_seq_2 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0048
+- Rmse: 0.0692
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 20.0,
-    "eval_loss": 0.005479985848069191,
-    "eval_rmse": 0.0740269273519516,
-    "eval_runtime": 24.539,
-    "eval_samples_per_second": 34.476,
-    "eval_steps_per_second": 1.1,
     "total_flos": 0.0,
-    "train_loss": 0.00369019165293624,
-    "train_runtime": 6610.8402,
-    "train_samples_per_second": 14.485,
-    "train_steps_per_second": 0.454
 }

 {
+    "epoch": 50.0,
+    "eval_loss": 0.0047905659303069115,
+    "eval_rmse": 0.06921391934156418,
+    "eval_runtime": 24.4368,
+    "eval_samples_per_second": 34.62,
+    "eval_steps_per_second": 1.105,
     "total_flos": 0.0,
+    "train_loss": 0.0016370025988823424,
+    "train_runtime": 16468.788,
+    "train_samples_per_second": 14.537,
+    "train_steps_per_second": 0.455
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 20.0,
-    "eval_loss": 0.005479985848069191,
-    "eval_rmse": 0.0740269273519516,
-    "eval_runtime": 24.539,
-    "eval_samples_per_second": 34.476,
-    "eval_steps_per_second": 1.1
 }

 {
+    "epoch": 50.0,
+    "eval_loss": 0.0047905659303069115,
+    "eval_rmse": 0.06921391934156418,
+    "eval_runtime": 24.4368,
+    "eval_samples_per_second": 34.62,
+    "eval_steps_per_second": 1.105
 }

runs/Feb19_23-43-10_galactica.ad.cirange.net/events.out.tfevents.1740025323.galactica.ad.cirange.net.3091725.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75bb6f70943325c7711165d1031b4dcad4dde761cce0f635712314fb1f4c17db
+size 407

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 20.0,
     "total_flos": 0.0,
-    "train_loss": 0.00369019165293624,
-    "train_runtime": 6610.8402,
-    "train_samples_per_second": 14.485,
-    "train_steps_per_second": 0.454
 }

 {
+    "epoch": 50.0,
     "total_flos": 0.0,
+    "train_loss": 0.0016370025988823424,
+    "train_runtime": 16468.788,
+    "train_samples_per_second": 14.537,
+    "train_steps_per_second": 0.455
 }

trainer_state.json CHANGED Viewed

@@ -1,1047 +1,2577 @@
 {
-  "best_metric": 0.005479985848069191,
-  "best_model_checkpoint": "limbxy_seq_t2/checkpoint-2550",
-  "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.16666666666666666,
-      "grad_norm": 22046.798828125,
       "learning_rate": 5e-06,
-      "loss": 0.0357,
       "step": 25
     },
     {
       "epoch": 0.3333333333333333,
-      "grad_norm": 42614.5546875,
       "learning_rate": 1e-05,
-      "loss": 0.0278,
       "step": 50
     },
     {
       "epoch": 0.5,
-      "grad_norm": 17162.4296875,
       "learning_rate": 1.5e-05,
-      "loss": 0.0243,
       "step": 75
     },
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 81025.53125,
       "learning_rate": 2e-05,
-      "loss": 0.0188,
       "step": 100
     },
     {
       "epoch": 0.8333333333333334,
-      "grad_norm": 52040.0,
       "learning_rate": 2.5e-05,
-      "loss": 0.0201,
       "step": 125
     },
     {
       "epoch": 1.0,
-      "grad_norm": 16304.97265625,
       "learning_rate": 3e-05,
-      "loss": 0.0137,
       "step": 150
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.011878792196512222,
-      "eval_rmse": 0.10898987948894501,
-      "eval_runtime": 23.3047,
-      "eval_samples_per_second": 36.302,
-      "eval_steps_per_second": 1.159,
       "step": 150
     },
     {
       "epoch": 1.1666666666666667,
-      "grad_norm": 11179.8837890625,
       "learning_rate": 3.5e-05,
-      "loss": 0.0143,
       "step": 175
     },
     {
       "epoch": 1.3333333333333333,
-      "grad_norm": 40079.0546875,
       "learning_rate": 4e-05,
-      "loss": 0.0188,
       "step": 200
     },
     {
       "epoch": 1.5,
-      "grad_norm": 22735.115234375,
       "learning_rate": 4.5e-05,
-      "loss": 0.012,
       "step": 225
     },
     {
       "epoch": 1.6666666666666665,
-      "grad_norm": 54281.23046875,
       "learning_rate": 5e-05,
-      "loss": 0.0117,
       "step": 250
     },
     {
       "epoch": 1.8333333333333335,
-      "grad_norm": 51424.09375,
-      "learning_rate": 4.9545454545454553e-05,
-      "loss": 0.0104,
       "step": 275
     },
     {
       "epoch": 2.0,
-      "grad_norm": 99929.515625,
-      "learning_rate": 4.909090909090909e-05,
-      "loss": 0.0112,
       "step": 300
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.011832492426037788,
-      "eval_rmse": 0.10877726227045059,
-      "eval_runtime": 24.0969,
-      "eval_samples_per_second": 35.108,
-      "eval_steps_per_second": 1.12,
       "step": 300
     },
     {
       "epoch": 2.1666666666666665,
-      "grad_norm": 41221.3046875,
-      "learning_rate": 4.863636363636364e-05,
-      "loss": 0.0093,
       "step": 325
     },
     {
       "epoch": 2.3333333333333335,
-      "grad_norm": 55105.00390625,
-      "learning_rate": 4.8181818181818186e-05,
-      "loss": 0.0074,
       "step": 350
     },
     {
       "epoch": 2.5,
-      "grad_norm": 54882.34765625,
-      "learning_rate": 4.772727272727273e-05,
-      "loss": 0.0073,
       "step": 375
     },
     {
       "epoch": 2.6666666666666665,
-      "grad_norm": 20329.99609375,
-      "learning_rate": 4.7272727272727275e-05,
-      "loss": 0.0079,
       "step": 400
     },
     {
       "epoch": 2.8333333333333335,
-      "grad_norm": 29952.67578125,
-      "learning_rate": 4.681818181818182e-05,
-      "loss": 0.0082,
       "step": 425
     },
     {
       "epoch": 3.0,
-      "grad_norm": 36055.50390625,
-      "learning_rate": 4.636363636363636e-05,
-      "loss": 0.0074,
       "step": 450
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.010063888505101204,
-      "eval_rmse": 0.10031893104314804,
-      "eval_runtime": 24.7801,
-      "eval_samples_per_second": 34.14,
       "eval_steps_per_second": 1.09,
       "step": 450
     },
     {
       "epoch": 3.1666666666666665,
-      "grad_norm": 8092.63427734375,
-      "learning_rate": 4.5909090909090914e-05,
-      "loss": 0.0059,
       "step": 475
     },
     {
       "epoch": 3.3333333333333335,
-      "grad_norm": 39814.0,
-      "learning_rate": 4.545454545454546e-05,
       "loss": 0.0065,
       "step": 500
     },
     {
       "epoch": 3.5,
-      "grad_norm": 7769.53125,
-      "learning_rate": 4.5e-05,
-      "loss": 0.0055,
       "step": 525
     },
     {
       "epoch": 3.6666666666666665,
-      "grad_norm": 27703.099609375,
-      "learning_rate": 4.454545454545455e-05,
-      "loss": 0.0057,
       "step": 550
     },
     {
       "epoch": 3.8333333333333335,
-      "grad_norm": 20657.283203125,
-      "learning_rate": 4.409090909090909e-05,
-      "loss": 0.0072,
       "step": 575
     },
     {
       "epoch": 4.0,
-      "grad_norm": 20261.841796875,
-      "learning_rate": 4.3636363636363636e-05,
-      "loss": 0.0064,
       "step": 600
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.006974302232265472,
-      "eval_rmse": 0.08351229131221771,
-      "eval_runtime": 23.547,
-      "eval_samples_per_second": 35.928,
-      "eval_steps_per_second": 1.147,
       "step": 600
     },
     {
       "epoch": 4.166666666666667,
-      "grad_norm": 18018.79296875,
-      "learning_rate": 4.318181818181819e-05,
-      "loss": 0.004,
       "step": 625
     },
     {
       "epoch": 4.333333333333333,
-      "grad_norm": 11542.9560546875,
-      "learning_rate": 4.2727272727272724e-05,
-      "loss": 0.0044,
       "step": 650
     },
     {
       "epoch": 4.5,
-      "grad_norm": 34041.24609375,
-      "learning_rate": 4.2272727272727275e-05,
-      "loss": 0.0056,
       "step": 675
     },
     {
       "epoch": 4.666666666666667,
-      "grad_norm": 11050.5517578125,
-      "learning_rate": 4.181818181818182e-05,
-      "loss": 0.0046,
       "step": 700
     },
     {
       "epoch": 4.833333333333333,
-      "grad_norm": 13684.1787109375,
-      "learning_rate": 4.1363636363636364e-05,
-      "loss": 0.0036,
       "step": 725
     },
     {
       "epoch": 5.0,
-      "grad_norm": 20930.271484375,
-      "learning_rate": 4.0909090909090915e-05,
-      "loss": 0.0039,
       "step": 750
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.006916658021509647,
-      "eval_rmse": 0.0831664502620697,
-      "eval_runtime": 23.3555,
-      "eval_samples_per_second": 36.223,
-      "eval_steps_per_second": 1.156,
       "step": 750
     },
     {
       "epoch": 5.166666666666667,
-      "grad_norm": 6945.47314453125,
-      "learning_rate": 4.045454545454546e-05,
-      "loss": 0.0032,
       "step": 775
     },
     {
       "epoch": 5.333333333333333,
-      "grad_norm": 21823.470703125,
-      "learning_rate": 4e-05,
-      "loss": 0.004,
       "step": 800
     },
     {
       "epoch": 5.5,
-      "grad_norm": 6344.1767578125,
-      "learning_rate": 3.954545454545455e-05,
-      "loss": 0.0032,
       "step": 825
     },
     {
       "epoch": 5.666666666666667,
-      "grad_norm": 28923.7578125,
-      "learning_rate": 3.909090909090909e-05,
-      "loss": 0.0031,
       "step": 850
     },
     {
       "epoch": 5.833333333333333,
-      "grad_norm": 18844.93359375,
-      "learning_rate": 3.8636363636363636e-05,
-      "loss": 0.0037,
       "step": 875
     },
     {
       "epoch": 6.0,
-      "grad_norm": 14070.8798828125,
-      "learning_rate": 3.818181818181819e-05,
       "loss": 0.0033,
       "step": 900
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.007384075783193111,
-      "eval_rmse": 0.08593064546585083,
-      "eval_runtime": 24.2639,
-      "eval_samples_per_second": 34.867,
-      "eval_steps_per_second": 1.113,
       "step": 900
     },
     {
       "epoch": 6.166666666666667,
-      "grad_norm": 7107.0751953125,
-      "learning_rate": 3.7727272727272725e-05,
-      "loss": 0.0025,
       "step": 925
     },
     {
       "epoch": 6.333333333333333,
-      "grad_norm": 26281.095703125,
-      "learning_rate": 3.7272727272727276e-05,
-      "loss": 0.0033,
       "step": 950
     },
     {
       "epoch": 6.5,
-      "grad_norm": 6169.37744140625,
-      "learning_rate": 3.681818181818182e-05,
-      "loss": 0.0026,
       "step": 975
     },
     {
       "epoch": 6.666666666666667,
-      "grad_norm": 15514.4677734375,
-      "learning_rate": 3.6363636363636364e-05,
       "loss": 0.0027,
       "step": 1000
     },
     {
       "epoch": 6.833333333333333,
-      "grad_norm": 4963.125,
-      "learning_rate": 3.590909090909091e-05,
       "loss": 0.0027,
       "step": 1025
     },
     {
       "epoch": 7.0,
-      "grad_norm": 20854.5859375,
-      "learning_rate": 3.545454545454546e-05,
-      "loss": 0.0026,
       "step": 1050
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.006149372085928917,
-      "eval_rmse": 0.07841793447732925,
-      "eval_runtime": 24.4157,
-      "eval_samples_per_second": 34.65,
-      "eval_steps_per_second": 1.106,
       "step": 1050
     },
     {
       "epoch": 7.166666666666667,
-      "grad_norm": 9573.7587890625,
-      "learning_rate": 3.5e-05,
-      "loss": 0.0027,
       "step": 1075
     },
     {
       "epoch": 7.333333333333333,
-      "grad_norm": 25957.48046875,
-      "learning_rate": 3.454545454545455e-05,
-      "loss": 0.0024,
       "step": 1100
     },
     {
       "epoch": 7.5,
-      "grad_norm": 14093.68359375,
-      "learning_rate": 3.409090909090909e-05,
-      "loss": 0.0026,
       "step": 1125
     },
     {
       "epoch": 7.666666666666667,
-      "grad_norm": 4025.608642578125,
-      "learning_rate": 3.3636363636363636e-05,
-      "loss": 0.002,
       "step": 1150
     },
     {
       "epoch": 7.833333333333333,
-      "grad_norm": 6692.55908203125,
-      "learning_rate": 3.318181818181819e-05,
-      "loss": 0.0029,
       "step": 1175
     },
     {
       "epoch": 8.0,
-      "grad_norm": 4868.02978515625,
-      "learning_rate": 3.272727272727273e-05,
-      "loss": 0.002,
       "step": 1200
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.006902625784277916,
-      "eval_rmse": 0.08308204263448715,
-      "eval_runtime": 23.2531,
-      "eval_samples_per_second": 36.382,
-      "eval_steps_per_second": 1.161,
       "step": 1200
     },
     {
       "epoch": 8.166666666666666,
-      "grad_norm": 16112.8388671875,
-      "learning_rate": 3.2272727272727276e-05,
-      "loss": 0.0019,
       "step": 1225
     },
     {
       "epoch": 8.333333333333334,
-      "grad_norm": 7358.75732421875,
-      "learning_rate": 3.181818181818182e-05,
-      "loss": 0.0021,
       "step": 1250
     },
     {
       "epoch": 8.5,
-      "grad_norm": 6156.6611328125,
-      "learning_rate": 3.1363636363636365e-05,
-      "loss": 0.0017,
       "step": 1275
     },
     {
       "epoch": 8.666666666666666,
-      "grad_norm": 10837.3037109375,
-      "learning_rate": 3.090909090909091e-05,
-      "loss": 0.0024,
       "step": 1300
     },
     {
       "epoch": 8.833333333333334,
-      "grad_norm": 12637.4150390625,
-      "learning_rate": 3.0454545454545456e-05,
-      "loss": 0.0018,
       "step": 1325
     },
     {
       "epoch": 9.0,
-      "grad_norm": 23124.64453125,
-      "learning_rate": 3e-05,
-      "loss": 0.0018,
       "step": 1350
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.005730382166802883,
-      "eval_rmse": 0.07569928467273712,
-      "eval_runtime": 23.3861,
-      "eval_samples_per_second": 36.175,
-      "eval_steps_per_second": 1.155,
       "step": 1350
     },
     {
       "epoch": 9.166666666666666,
-      "grad_norm": 6718.92919921875,
-      "learning_rate": 2.954545454545455e-05,
-      "loss": 0.0015,
       "step": 1375
     },
     {
       "epoch": 9.333333333333334,
-      "grad_norm": 10810.6953125,
-      "learning_rate": 2.909090909090909e-05,
-      "loss": 0.0013,
       "step": 1400
     },
     {
       "epoch": 9.5,
-      "grad_norm": 12909.9033203125,
-      "learning_rate": 2.863636363636364e-05,
-      "loss": 0.0015,
       "step": 1425
     },
     {
       "epoch": 9.666666666666666,
-      "grad_norm": 5796.60693359375,
-      "learning_rate": 2.818181818181818e-05,
-      "loss": 0.0013,
       "step": 1450
     },
     {
       "epoch": 9.833333333333334,
-      "grad_norm": 23500.55078125,
-      "learning_rate": 2.772727272727273e-05,
       "loss": 0.0017,
       "step": 1475
     },
     {
       "epoch": 10.0,
-      "grad_norm": 2772.444580078125,
-      "learning_rate": 2.7272727272727273e-05,
-      "loss": 0.002,
       "step": 1500
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.005920641124248505,
-      "eval_rmse": 0.0769456997513771,
-      "eval_runtime": 24.5095,
-      "eval_samples_per_second": 34.517,
-      "eval_steps_per_second": 1.102,
       "step": 1500
     },
     {
       "epoch": 10.166666666666666,
-      "grad_norm": 15935.796875,
-      "learning_rate": 2.681818181818182e-05,
-      "loss": 0.0011,
       "step": 1525
     },
     {
       "epoch": 10.333333333333334,
-      "grad_norm": 13381.3623046875,
-      "learning_rate": 2.636363636363636e-05,
-      "loss": 0.0014,
       "step": 1550
     },
     {
       "epoch": 10.5,
-      "grad_norm": 8558.2841796875,
-      "learning_rate": 2.590909090909091e-05,
-      "loss": 0.0012,
       "step": 1575
     },
     {
       "epoch": 10.666666666666666,
-      "grad_norm": 13277.8525390625,
-      "learning_rate": 2.5454545454545454e-05,
       "loss": 0.0013,
       "step": 1600
     },
     {
       "epoch": 10.833333333333334,
-      "grad_norm": 11197.5478515625,
-      "learning_rate": 2.5e-05,
-      "loss": 0.0012,
       "step": 1625
     },
     {
       "epoch": 11.0,
-      "grad_norm": 3204.55810546875,
-      "learning_rate": 2.4545454545454545e-05,
-      "loss": 0.0012,
       "step": 1650
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.005719946697354317,
-      "eval_rmse": 0.07563033699989319,
-      "eval_runtime": 25.7743,
-      "eval_samples_per_second": 32.823,
-      "eval_steps_per_second": 1.048,
       "step": 1650
     },
     {
       "epoch": 11.166666666666666,
-      "grad_norm": 7068.5830078125,
-      "learning_rate": 2.4090909090909093e-05,
-      "loss": 0.001,
       "step": 1675
     },
     {
       "epoch": 11.333333333333334,
-      "grad_norm": 6493.97265625,
-      "learning_rate": 2.3636363636363637e-05,
-      "loss": 0.0011,
       "step": 1700
     },
     {
       "epoch": 11.5,
-      "grad_norm": 6777.013671875,
-      "learning_rate": 2.318181818181818e-05,
-      "loss": 0.0011,
       "step": 1725
     },
     {
       "epoch": 11.666666666666666,
-      "grad_norm": 6261.11767578125,
-      "learning_rate": 2.272727272727273e-05,
-      "loss": 0.0011,
       "step": 1750
     },
     {
       "epoch": 11.833333333333334,
-      "grad_norm": 8973.4599609375,
-      "learning_rate": 2.2272727272727274e-05,
-      "loss": 0.0012,
       "step": 1775
     },
     {
       "epoch": 12.0,
-      "grad_norm": 11911.302734375,
-      "learning_rate": 2.1818181818181818e-05,
-      "loss": 0.0011,
       "step": 1800
     },
     {
       "epoch": 12.0,
-      "eval_loss": 0.005933709908276796,
-      "eval_rmse": 0.07703057676553726,
-      "eval_runtime": 23.8679,
-      "eval_samples_per_second": 35.445,
-      "eval_steps_per_second": 1.131,
       "step": 1800
     },
     {
       "epoch": 12.166666666666666,
-      "grad_norm": 7263.52197265625,
-      "learning_rate": 2.1363636363636362e-05,
-      "loss": 0.001,
       "step": 1825
     },
     {
       "epoch": 12.333333333333334,
-      "grad_norm": 2190.18115234375,
-      "learning_rate": 2.090909090909091e-05,
-      "loss": 0.0008,
       "step": 1850
     },
     {
       "epoch": 12.5,
-      "grad_norm": 17004.29296875,
-      "learning_rate": 2.0454545454545457e-05,
-      "loss": 0.0009,
       "step": 1875
     },
     {
       "epoch": 12.666666666666666,
-      "grad_norm": 3601.951416015625,
-      "learning_rate": 2e-05,
-      "loss": 0.0008,
       "step": 1900
     },
     {
       "epoch": 12.833333333333334,
-      "grad_norm": 16977.19140625,
-      "learning_rate": 1.9545454545454546e-05,
-      "loss": 0.0009,
       "step": 1925
     },
     {
       "epoch": 13.0,
-      "grad_norm": 9962.5048828125,
-      "learning_rate": 1.9090909090909094e-05,
-      "loss": 0.0009,
       "step": 1950
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.005788400769233704,
-      "eval_rmse": 0.0760815367102623,
-      "eval_runtime": 23.6915,
-      "eval_samples_per_second": 35.709,
-      "eval_steps_per_second": 1.14,
       "step": 1950
     },
     {
       "epoch": 13.166666666666666,
-      "grad_norm": 6503.86474609375,
-      "learning_rate": 1.8636363636363638e-05,
-      "loss": 0.0009,
       "step": 1975
     },
     {
       "epoch": 13.333333333333334,
-      "grad_norm": 3315.51904296875,
-      "learning_rate": 1.8181818181818182e-05,
-      "loss": 0.0008,
       "step": 2000
     },
     {
       "epoch": 13.5,
-      "grad_norm": 6505.07373046875,
-      "learning_rate": 1.772727272727273e-05,
-      "loss": 0.0007,
       "step": 2025
     },
     {
       "epoch": 13.666666666666666,
-      "grad_norm": 8015.05712890625,
-      "learning_rate": 1.7272727272727274e-05,
-      "loss": 0.0007,
       "step": 2050
     },
     {
       "epoch": 13.833333333333334,
-      "grad_norm": 19194.6015625,
-      "learning_rate": 1.6818181818181818e-05,
-      "loss": 0.0008,
       "step": 2075
     },
     {
       "epoch": 14.0,
-      "grad_norm": 9773.720703125,
-      "learning_rate": 1.6363636363636366e-05,
-      "loss": 0.0008,
       "step": 2100
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.005640079732984304,
-      "eval_rmse": 0.07510046660900116,
-      "eval_runtime": 25.0673,
-      "eval_samples_per_second": 33.749,
-      "eval_steps_per_second": 1.077,
       "step": 2100
     },
     {
       "epoch": 14.166666666666666,
-      "grad_norm": 5335.89013671875,
-      "learning_rate": 1.590909090909091e-05,
-      "loss": 0.0007,
       "step": 2125
     },
     {
       "epoch": 14.333333333333334,
-      "grad_norm": 5937.32421875,
-      "learning_rate": 1.5454545454545454e-05,
-      "loss": 0.0007,
       "step": 2150
     },
     {
       "epoch": 14.5,
-      "grad_norm": 5748.50048828125,
-      "learning_rate": 1.5e-05,
-      "loss": 0.0007,
       "step": 2175
     },
     {
       "epoch": 14.666666666666666,
-      "grad_norm": 7561.5009765625,
-      "learning_rate": 1.4545454545454545e-05,
-      "loss": 0.0007,
       "step": 2200
     },
     {
       "epoch": 14.833333333333334,
-      "grad_norm": 2272.05419921875,
-      "learning_rate": 1.409090909090909e-05,
-      "loss": 0.0007,
       "step": 2225
     },
     {
       "epoch": 15.0,
-      "grad_norm": 4282.1005859375,
-      "learning_rate": 1.3636363636363637e-05,
-      "loss": 0.0008,
       "step": 2250
     },
     {
       "epoch": 15.0,
-      "eval_loss": 0.0057137333787977695,
-      "eval_rmse": 0.07558923959732056,
-      "eval_runtime": 24.0972,
-      "eval_samples_per_second": 35.108,
-      "eval_steps_per_second": 1.12,
       "step": 2250
     },
     {
       "epoch": 15.166666666666666,
-      "grad_norm": 4606.4609375,
-      "learning_rate": 1.318181818181818e-05,
-      "loss": 0.0006,
       "step": 2275
     },
     {
       "epoch": 15.333333333333334,
-      "grad_norm": 9886.646484375,
-      "learning_rate": 1.2727272727272727e-05,
-      "loss": 0.0006,
       "step": 2300
     },
     {
       "epoch": 15.5,
-      "grad_norm": 4568.2802734375,
-      "learning_rate": 1.2272727272727273e-05,
-      "loss": 0.0005,
       "step": 2325
     },
     {
       "epoch": 15.666666666666666,
-      "grad_norm": 8178.26025390625,
-      "learning_rate": 1.1818181818181819e-05,
-      "loss": 0.0006,
       "step": 2350
     },
     {
       "epoch": 15.833333333333334,
-      "grad_norm": 3068.3349609375,
-      "learning_rate": 1.1363636363636365e-05,
-      "loss": 0.0006,
       "step": 2375
     },
     {
       "epoch": 16.0,
-      "grad_norm": 7865.693359375,
-      "learning_rate": 1.0909090909090909e-05,
-      "loss": 0.0006,
       "step": 2400
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.0056036608293652534,
-      "eval_rmse": 0.07485760003328323,
-      "eval_runtime": 24.1386,
-      "eval_samples_per_second": 35.048,
-      "eval_steps_per_second": 1.119,
       "step": 2400
     },
     {
       "epoch": 16.166666666666668,
-      "grad_norm": 12935.966796875,
-      "learning_rate": 1.0454545454545455e-05,
-      "loss": 0.0005,
       "step": 2425
     },
     {
       "epoch": 16.333333333333332,
-      "grad_norm": 2572.318359375,
-      "learning_rate": 1e-05,
-      "loss": 0.0004,
       "step": 2450
     },
     {
       "epoch": 16.5,
-      "grad_norm": 3913.558837890625,
-      "learning_rate": 9.545454545454547e-06,
-      "loss": 0.0005,
       "step": 2475
     },
     {
       "epoch": 16.666666666666668,
-      "grad_norm": 7128.30126953125,
-      "learning_rate": 9.090909090909091e-06,
-      "loss": 0.0005,
       "step": 2500
     },
     {
       "epoch": 16.833333333333332,
-      "grad_norm": 11092.6220703125,
-      "learning_rate": 8.636363636363637e-06,
-      "loss": 0.0005,
       "step": 2525
     },
     {
       "epoch": 17.0,
-      "grad_norm": 7797.11767578125,
-      "learning_rate": 8.181818181818183e-06,
-      "loss": 0.0006,
       "step": 2550
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.005479985848069191,
-      "eval_rmse": 0.0740269273519516,
-      "eval_runtime": 23.866,
-      "eval_samples_per_second": 35.448,
-      "eval_steps_per_second": 1.131,
       "step": 2550
     },
     {
       "epoch": 17.166666666666668,
-      "grad_norm": 3903.398193359375,
-      "learning_rate": 7.727272727272727e-06,
-      "loss": 0.0004,
       "step": 2575
     },
     {
       "epoch": 17.333333333333332,
-      "grad_norm": 9970.853515625,
-      "learning_rate": 7.272727272727272e-06,
-      "loss": 0.0004,
       "step": 2600
     },
     {
       "epoch": 17.5,
-      "grad_norm": 10561.7421875,
-      "learning_rate": 6.818181818181818e-06,
-      "loss": 0.0004,
       "step": 2625
     },
     {
       "epoch": 17.666666666666668,
-      "grad_norm": 4177.15771484375,
-      "learning_rate": 6.363636363636363e-06,
-      "loss": 0.0004,
       "step": 2650
     },
     {
       "epoch": 17.833333333333332,
-      "grad_norm": 7322.50634765625,
-      "learning_rate": 5.909090909090909e-06,
-      "loss": 0.0004,
       "step": 2675
     },
     {
       "epoch": 18.0,
-      "grad_norm": 13072.9580078125,
-      "learning_rate": 5.4545454545454545e-06,
-      "loss": 0.0004,
       "step": 2700
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.005703671369701624,
-      "eval_rmse": 0.07552265375852585,
-      "eval_runtime": 24.3429,
-      "eval_samples_per_second": 34.754,
-      "eval_steps_per_second": 1.109,
       "step": 2700
     },
     {
       "epoch": 18.166666666666668,
-      "grad_norm": 3103.575927734375,
-      "learning_rate": 5e-06,
-      "loss": 0.0004,
       "step": 2725
     },
     {
       "epoch": 18.333333333333332,
-      "grad_norm": 2713.65869140625,
-      "learning_rate": 4.5454545454545455e-06,
-      "loss": 0.0003,
       "step": 2750
     },
     {
       "epoch": 18.5,
-      "grad_norm": 2231.278564453125,
-      "learning_rate": 4.0909090909090915e-06,
-      "loss": 0.0003,
       "step": 2775
     },
     {
       "epoch": 18.666666666666668,
-      "grad_norm": 6196.794921875,
-      "learning_rate": 3.636363636363636e-06,
-      "loss": 0.0003,
       "step": 2800
     },
     {
       "epoch": 18.833333333333332,
-      "grad_norm": 1392.4776611328125,
-      "learning_rate": 3.1818181818181817e-06,
-      "loss": 0.0003,
       "step": 2825
     },
     {
       "epoch": 19.0,
-      "grad_norm": 2869.9462890625,
-      "learning_rate": 2.7272727272727272e-06,
-      "loss": 0.0004,
       "step": 2850
     },
     {
       "epoch": 19.0,
-      "eval_loss": 0.005522754043340683,
-      "eval_rmse": 0.07431523501873016,
-      "eval_runtime": 23.5254,
-      "eval_samples_per_second": 35.961,
-      "eval_steps_per_second": 1.148,
       "step": 2850
     },
     {
       "epoch": 19.166666666666668,
-      "grad_norm": 1801.104248046875,
-      "learning_rate": 2.2727272727272728e-06,
-      "loss": 0.0003,
       "step": 2875
     },
     {
       "epoch": 19.333333333333332,
-      "grad_norm": 2785.420654296875,
-      "learning_rate": 1.818181818181818e-06,
-      "loss": 0.0003,
       "step": 2900
     },
     {
       "epoch": 19.5,
-      "grad_norm": 3792.26416015625,
-      "learning_rate": 1.3636363636363636e-06,
-      "loss": 0.0003,
       "step": 2925
     },
     {
       "epoch": 19.666666666666668,
-      "grad_norm": 6763.56982421875,
-      "learning_rate": 9.09090909090909e-07,
-      "loss": 0.0003,
       "step": 2950
     },
     {
       "epoch": 19.833333333333332,
-      "grad_norm": 6747.69091796875,
-      "learning_rate": 4.545454545454545e-07,
-      "loss": 0.0003,
       "step": 2975
     },
     {
       "epoch": 20.0,
-      "grad_norm": 2657.044677734375,
-      "learning_rate": 0.0,
-      "loss": 0.0002,
       "step": 3000
     },
     {
       "epoch": 20.0,
-      "eval_loss": 0.00548164127394557,
-      "eval_rmse": 0.07403810322284698,
-      "eval_runtime": 24.066,
-      "eval_samples_per_second": 35.153,
-      "eval_steps_per_second": 1.122,
       "step": 3000
     },
     {
-      "epoch": 20.0,
-      "step": 3000,
       "total_flos": 0.0,
-      "train_loss": 0.00369019165293624,
-      "train_runtime": 6610.8402,
-      "train_samples_per_second": 14.485,
-      "train_steps_per_second": 0.454
     }
   ],
   "logging_steps": 25,
-  "max_steps": 3000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

 {
+  "best_metric": 0.0047905659303069115,
+  "best_model_checkpoint": "limbxy_seq_t2/checkpoint-6900",
+  "epoch": 50.0,
   "eval_steps": 500,
+  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.16666666666666666,
+      "grad_norm": 23976.76171875,
       "learning_rate": 5e-06,
+      "loss": 0.0303,
       "step": 25
     },
     {
       "epoch": 0.3333333333333333,
+      "grad_norm": 44498.20703125,
       "learning_rate": 1e-05,
+      "loss": 0.0247,
       "step": 50
     },
     {
       "epoch": 0.5,
+      "grad_norm": 15935.5693359375,
       "learning_rate": 1.5e-05,
+      "loss": 0.0242,
       "step": 75
     },
     {
       "epoch": 0.6666666666666666,
+      "grad_norm": 46439.44140625,
       "learning_rate": 2e-05,
+      "loss": 0.0185,
       "step": 100
     },
     {
       "epoch": 0.8333333333333334,
+      "grad_norm": 56363.26171875,
       "learning_rate": 2.5e-05,
+      "loss": 0.016,
       "step": 125
     },
     {
       "epoch": 1.0,
+      "grad_norm": 42469.171875,
       "learning_rate": 3e-05,
+      "loss": 0.0135,
       "step": 150
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.012278009206056595,
+      "eval_rmse": 0.1108061820268631,
+      "eval_runtime": 22.9058,
+      "eval_samples_per_second": 36.934,
+      "eval_steps_per_second": 1.179,
       "step": 150
     },
     {
       "epoch": 1.1666666666666667,
+      "grad_norm": 18461.55859375,
       "learning_rate": 3.5e-05,
+      "loss": 0.0111,
       "step": 175
     },
     {
       "epoch": 1.3333333333333333,
+      "grad_norm": 30171.146484375,
       "learning_rate": 4e-05,
+      "loss": 0.0113,
       "step": 200
     },
     {
       "epoch": 1.5,
+      "grad_norm": 25474.505859375,
       "learning_rate": 4.5e-05,
+      "loss": 0.0108,
       "step": 225
     },
     {
       "epoch": 1.6666666666666665,
+      "grad_norm": 32029.49609375,
       "learning_rate": 5e-05,
+      "loss": 0.0101,
       "step": 250
     },
     {
       "epoch": 1.8333333333333335,
+      "grad_norm": 39912.48828125,
+      "learning_rate": 4.982758620689655e-05,
+      "loss": 0.0091,
       "step": 275
     },
     {
       "epoch": 2.0,
+      "grad_norm": 36011.33984375,
+      "learning_rate": 4.9655172413793107e-05,
+      "loss": 0.0102,
       "step": 300
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.007965018041431904,
+      "eval_rmse": 0.08924694359302521,
+      "eval_runtime": 24.0962,
+      "eval_samples_per_second": 35.109,
+      "eval_steps_per_second": 1.121,
       "step": 300
     },
     {
       "epoch": 2.1666666666666665,
+      "grad_norm": 29222.896484375,
+      "learning_rate": 4.9482758620689655e-05,
+      "loss": 0.0065,
       "step": 325
     },
     {
       "epoch": 2.3333333333333335,
+      "grad_norm": 18097.1953125,
+      "learning_rate": 4.931034482758621e-05,
+      "loss": 0.0067,
       "step": 350
     },
     {
       "epoch": 2.5,
+      "grad_norm": 20067.69140625,
+      "learning_rate": 4.913793103448276e-05,
+      "loss": 0.0067,
       "step": 375
     },
     {
       "epoch": 2.6666666666666665,
+      "grad_norm": 26646.060546875,
+      "learning_rate": 4.896551724137931e-05,
+      "loss": 0.0085,
       "step": 400
     },
     {
       "epoch": 2.8333333333333335,
+      "grad_norm": 37624.953125,
+      "learning_rate": 4.8793103448275864e-05,
+      "loss": 0.0085,
       "step": 425
     },
     {
       "epoch": 3.0,
+      "grad_norm": 11236.326171875,
+      "learning_rate": 4.862068965517241e-05,
+      "loss": 0.0065,
       "step": 450
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.010736133903265,
+      "eval_rmse": 0.10361532121896744,
+      "eval_runtime": 24.7647,
+      "eval_samples_per_second": 34.162,
       "eval_steps_per_second": 1.09,
       "step": 450
     },
     {
       "epoch": 3.1666666666666665,
+      "grad_norm": 21234.044921875,
+      "learning_rate": 4.844827586206897e-05,
+      "loss": 0.0056,
       "step": 475
     },
     {
       "epoch": 3.3333333333333335,
+      "grad_norm": 27683.8359375,
+      "learning_rate": 4.827586206896552e-05,
       "loss": 0.0065,
       "step": 500
     },
     {
       "epoch": 3.5,
+      "grad_norm": 27213.1171875,
+      "learning_rate": 4.810344827586207e-05,
+      "loss": 0.0048,
       "step": 525
     },
     {
       "epoch": 3.6666666666666665,
+      "grad_norm": 51301.77734375,
+      "learning_rate": 4.793103448275863e-05,
+      "loss": 0.0064,
       "step": 550
     },
     {
       "epoch": 3.8333333333333335,
+      "grad_norm": 22701.841796875,
+      "learning_rate": 4.7758620689655176e-05,
+      "loss": 0.005,
       "step": 575
     },
     {
       "epoch": 4.0,
+      "grad_norm": 43817.91796875,
+      "learning_rate": 4.7586206896551725e-05,
+      "loss": 0.0049,
       "step": 600
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.008756866678595543,
+      "eval_rmse": 0.09357813745737076,
+      "eval_runtime": 24.2147,
+      "eval_samples_per_second": 34.937,
+      "eval_steps_per_second": 1.115,
       "step": 600
     },
     {
       "epoch": 4.166666666666667,
+      "grad_norm": 23862.228515625,
+      "learning_rate": 4.741379310344828e-05,
+      "loss": 0.0056,
       "step": 625
     },
     {
       "epoch": 4.333333333333333,
+      "grad_norm": 22432.494140625,
+      "learning_rate": 4.724137931034483e-05,
+      "loss": 0.0045,
       "step": 650
     },
     {
       "epoch": 4.5,
+      "grad_norm": 36739.33203125,
+      "learning_rate": 4.7068965517241385e-05,
+      "loss": 0.0043,
       "step": 675
     },
     {
       "epoch": 4.666666666666667,
+      "grad_norm": 30371.708984375,
+      "learning_rate": 4.689655172413793e-05,
+      "loss": 0.0048,
       "step": 700
     },
     {
       "epoch": 4.833333333333333,
+      "grad_norm": 20437.169921875,
+      "learning_rate": 4.672413793103448e-05,
+      "loss": 0.0037,
       "step": 725
     },
     {
       "epoch": 5.0,
+      "grad_norm": 29574.46875,
+      "learning_rate": 4.655172413793104e-05,
+      "loss": 0.0042,
       "step": 750
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.007152818143367767,
+      "eval_rmse": 0.08457433432340622,
+      "eval_runtime": 25.0184,
+      "eval_samples_per_second": 33.815,
+      "eval_steps_per_second": 1.079,
       "step": 750
     },
     {
       "epoch": 5.166666666666667,
+      "grad_norm": 27755.48828125,
+      "learning_rate": 4.6379310344827586e-05,
+      "loss": 0.0028,
       "step": 775
     },
     {
       "epoch": 5.333333333333333,
+      "grad_norm": 27771.154296875,
+      "learning_rate": 4.6206896551724135e-05,
+      "loss": 0.0039,
       "step": 800
     },
     {
       "epoch": 5.5,
+      "grad_norm": 17496.92578125,
+      "learning_rate": 4.603448275862069e-05,
+      "loss": 0.0039,
       "step": 825
     },
     {
       "epoch": 5.666666666666667,
+      "grad_norm": 18169.658203125,
+      "learning_rate": 4.586206896551724e-05,
+      "loss": 0.0039,
       "step": 850
     },
     {
       "epoch": 5.833333333333333,
+      "grad_norm": 17193.5234375,
+      "learning_rate": 4.5689655172413794e-05,
+      "loss": 0.0034,
       "step": 875
     },
     {
       "epoch": 6.0,
+      "grad_norm": 22194.474609375,
+      "learning_rate": 4.551724137931035e-05,
       "loss": 0.0033,
       "step": 900
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.007074417546391487,
+      "eval_rmse": 0.08410955965518951,
+      "eval_runtime": 23.9626,
+      "eval_samples_per_second": 35.305,
+      "eval_steps_per_second": 1.127,
       "step": 900
     },
     {
       "epoch": 6.166666666666667,
+      "grad_norm": 9658.81640625,
+      "learning_rate": 4.53448275862069e-05,
+      "loss": 0.0026,
       "step": 925
     },
     {
       "epoch": 6.333333333333333,
+      "grad_norm": 8459.115234375,
+      "learning_rate": 4.5172413793103454e-05,
+      "loss": 0.0025,
       "step": 950
     },
     {
       "epoch": 6.5,
+      "grad_norm": 22246.572265625,
+      "learning_rate": 4.5e-05,
+      "loss": 0.0027,
       "step": 975
     },
     {
       "epoch": 6.666666666666667,
+      "grad_norm": 19054.365234375,
+      "learning_rate": 4.482758620689655e-05,
       "loss": 0.0027,
       "step": 1000
     },
     {
       "epoch": 6.833333333333333,
+      "grad_norm": 20117.76171875,
+      "learning_rate": 4.465517241379311e-05,
       "loss": 0.0027,
       "step": 1025
     },
     {
       "epoch": 7.0,
+      "grad_norm": 31974.06640625,
+      "learning_rate": 4.4482758620689656e-05,
+      "loss": 0.0028,
       "step": 1050
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.006500152871012688,
+      "eval_rmse": 0.08062352240085602,
+      "eval_runtime": 24.6356,
+      "eval_samples_per_second": 34.341,
+      "eval_steps_per_second": 1.096,
       "step": 1050
     },
     {
       "epoch": 7.166666666666667,
+      "grad_norm": 7549.3779296875,
+      "learning_rate": 4.431034482758621e-05,
+      "loss": 0.0023,
       "step": 1075
     },
     {
       "epoch": 7.333333333333333,
+      "grad_norm": 3568.779296875,
+      "learning_rate": 4.413793103448276e-05,
+      "loss": 0.0023,
       "step": 1100
     },
     {
       "epoch": 7.5,
+      "grad_norm": 7770.5302734375,
+      "learning_rate": 4.396551724137931e-05,
+      "loss": 0.0024,
       "step": 1125
     },
     {
       "epoch": 7.666666666666667,
+      "grad_norm": 3176.07470703125,
+      "learning_rate": 4.3793103448275864e-05,
+      "loss": 0.0025,
       "step": 1150
     },
     {
       "epoch": 7.833333333333333,
+      "grad_norm": 10015.4404296875,
+      "learning_rate": 4.362068965517241e-05,
+      "loss": 0.0024,
       "step": 1175
     },
     {
       "epoch": 8.0,
+      "grad_norm": 4624.525390625,
+      "learning_rate": 4.344827586206897e-05,
+      "loss": 0.0023,
       "step": 1200
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.007097144145518541,
+      "eval_rmse": 0.08424454927444458,
+      "eval_runtime": 24.1478,
+      "eval_samples_per_second": 35.034,
+      "eval_steps_per_second": 1.118,
       "step": 1200
     },
     {
       "epoch": 8.166666666666666,
+      "grad_norm": 32302.224609375,
+      "learning_rate": 4.327586206896552e-05,
+      "loss": 0.0027,
       "step": 1225
     },
     {
       "epoch": 8.333333333333334,
+      "grad_norm": 15594.7314453125,
+      "learning_rate": 4.3103448275862066e-05,
+      "loss": 0.0027,
       "step": 1250
     },
     {
       "epoch": 8.5,
+      "grad_norm": 30639.5546875,
+      "learning_rate": 4.293103448275863e-05,
+      "loss": 0.0023,
       "step": 1275
     },
     {
       "epoch": 8.666666666666666,
+      "grad_norm": 16389.27734375,
+      "learning_rate": 4.275862068965518e-05,
+      "loss": 0.0026,
       "step": 1300
     },
     {
       "epoch": 8.833333333333334,
+      "grad_norm": 6988.25048828125,
+      "learning_rate": 4.2586206896551725e-05,
+      "loss": 0.0027,
       "step": 1325
     },
     {
       "epoch": 9.0,
+      "grad_norm": 15722.751953125,
+      "learning_rate": 4.241379310344828e-05,
+      "loss": 0.0022,
       "step": 1350
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.006430492270737886,
+      "eval_rmse": 0.08019035309553146,
+      "eval_runtime": 24.2153,
+      "eval_samples_per_second": 34.937,
+      "eval_steps_per_second": 1.115,
       "step": 1350
     },
     {
       "epoch": 9.166666666666666,
+      "grad_norm": 14371.986328125,
+      "learning_rate": 4.224137931034483e-05,
+      "loss": 0.0017,
       "step": 1375
     },
     {
       "epoch": 9.333333333333334,
+      "grad_norm": 15843.341796875,
+      "learning_rate": 4.2068965517241385e-05,
+      "loss": 0.0015,
       "step": 1400
     },
     {
       "epoch": 9.5,
+      "grad_norm": 13752.29296875,
+      "learning_rate": 4.1896551724137934e-05,
+      "loss": 0.0021,
       "step": 1425
     },
     {
       "epoch": 9.666666666666666,
+      "grad_norm": 3012.7041015625,
+      "learning_rate": 4.172413793103448e-05,
+      "loss": 0.0016,
       "step": 1450
     },
     {
       "epoch": 9.833333333333334,
+      "grad_norm": 12362.5390625,
+      "learning_rate": 4.155172413793104e-05,
       "loss": 0.0017,
       "step": 1475
     },
     {
       "epoch": 10.0,
+      "grad_norm": 14453.1337890625,
+      "learning_rate": 4.1379310344827587e-05,
+      "loss": 0.0018,
       "step": 1500
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.005872304085642099,
+      "eval_rmse": 0.07663095742464066,
+      "eval_runtime": 24.1286,
+      "eval_samples_per_second": 35.062,
+      "eval_steps_per_second": 1.119,
       "step": 1500
     },
     {
       "epoch": 10.166666666666666,
+      "grad_norm": 9474.490234375,
+      "learning_rate": 4.120689655172414e-05,
+      "loss": 0.0013,
       "step": 1525
     },
     {
       "epoch": 10.333333333333334,
+      "grad_norm": 18761.958984375,
+      "learning_rate": 4.103448275862069e-05,
+      "loss": 0.0015,
       "step": 1550
     },
     {
       "epoch": 10.5,
+      "grad_norm": 8908.1357421875,
+      "learning_rate": 4.086206896551724e-05,
+      "loss": 0.0014,
       "step": 1575
     },
     {
       "epoch": 10.666666666666666,
+      "grad_norm": 10597.185546875,
+      "learning_rate": 4.0689655172413795e-05,
       "loss": 0.0013,
       "step": 1600
     },
     {
       "epoch": 10.833333333333334,
+      "grad_norm": 2860.470458984375,
+      "learning_rate": 4.0517241379310344e-05,
+      "loss": 0.0013,
       "step": 1625
     },
     {
       "epoch": 11.0,
+      "grad_norm": 16391.615234375,
+      "learning_rate": 4.03448275862069e-05,
+      "loss": 0.0014,
       "step": 1650
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.005458915140479803,
+      "eval_rmse": 0.07388447225093842,
+      "eval_runtime": 23.9306,
+      "eval_samples_per_second": 35.352,
+      "eval_steps_per_second": 1.128,
       "step": 1650
     },
     {
       "epoch": 11.166666666666666,
+      "grad_norm": 7713.515625,
+      "learning_rate": 4.0172413793103455e-05,
+      "loss": 0.0011,
       "step": 1675
     },
     {
       "epoch": 11.333333333333334,
+      "grad_norm": 7927.998046875,
+      "learning_rate": 4e-05,
+      "loss": 0.0013,
       "step": 1700
     },
     {
       "epoch": 11.5,
+      "grad_norm": 12422.3525390625,
+      "learning_rate": 3.982758620689656e-05,
+      "loss": 0.0012,
       "step": 1725
     },
     {
       "epoch": 11.666666666666666,
+      "grad_norm": 6916.77197265625,
+      "learning_rate": 3.965517241379311e-05,
+      "loss": 0.0013,
       "step": 1750
     },
     {
       "epoch": 11.833333333333334,
+      "grad_norm": 15062.759765625,
+      "learning_rate": 3.9482758620689656e-05,
+      "loss": 0.0013,
       "step": 1775
     },
     {
       "epoch": 12.0,
+      "grad_norm": 11555.865234375,
+      "learning_rate": 3.931034482758621e-05,
+      "loss": 0.0014,
       "step": 1800
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.006092158146202564,
+      "eval_rmse": 0.07805227488279343,
+      "eval_runtime": 24.7327,
+      "eval_samples_per_second": 34.206,
+      "eval_steps_per_second": 1.092,
       "step": 1800
     },
     {
       "epoch": 12.166666666666666,
+      "grad_norm": 16014.1708984375,
+      "learning_rate": 3.913793103448276e-05,
+      "loss": 0.0013,
       "step": 1825
     },
     {
       "epoch": 12.333333333333334,
+      "grad_norm": 8199.9521484375,
+      "learning_rate": 3.896551724137931e-05,
+      "loss": 0.0015,
       "step": 1850
     },
     {
       "epoch": 12.5,
+      "grad_norm": 5141.04541015625,
+      "learning_rate": 3.8793103448275865e-05,
+      "loss": 0.0011,
       "step": 1875
     },
     {
       "epoch": 12.666666666666666,
+      "grad_norm": 6066.68603515625,
+      "learning_rate": 3.862068965517241e-05,
+      "loss": 0.0013,
       "step": 1900
     },
     {
       "epoch": 12.833333333333334,
+      "grad_norm": 15361.6728515625,
+      "learning_rate": 3.844827586206897e-05,
+      "loss": 0.0013,
       "step": 1925
     },
     {
       "epoch": 13.0,
+      "grad_norm": 18773.4296875,
+      "learning_rate": 3.827586206896552e-05,
+      "loss": 0.0013,
       "step": 1950
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.005602031946182251,
+      "eval_rmse": 0.07484672218561172,
+      "eval_runtime": 25.6642,
+      "eval_samples_per_second": 32.964,
+      "eval_steps_per_second": 1.052,
       "step": 1950
     },
     {
       "epoch": 13.166666666666666,
+      "grad_norm": 13982.216796875,
+      "learning_rate": 3.8103448275862066e-05,
+      "loss": 0.0012,
       "step": 1975
     },
     {
       "epoch": 13.333333333333334,
+      "grad_norm": 8787.0205078125,
+      "learning_rate": 3.793103448275862e-05,
+      "loss": 0.0013,
       "step": 2000
     },
     {
       "epoch": 13.5,
+      "grad_norm": 14623.2998046875,
+      "learning_rate": 3.775862068965517e-05,
+      "loss": 0.0014,
       "step": 2025
     },
     {
       "epoch": 13.666666666666666,
+      "grad_norm": 15070.6416015625,
+      "learning_rate": 3.7586206896551726e-05,
+      "loss": 0.0011,
       "step": 2050
     },
     {
       "epoch": 13.833333333333334,
+      "grad_norm": 3772.699951171875,
+      "learning_rate": 3.741379310344828e-05,
+      "loss": 0.0012,
       "step": 2075
     },
     {
       "epoch": 14.0,
+      "grad_norm": 6189.50927734375,
+      "learning_rate": 3.724137931034483e-05,
+      "loss": 0.0009,
       "step": 2100
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.005514672491699457,
+      "eval_rmse": 0.07426083832979202,
+      "eval_runtime": 24.3843,
+      "eval_samples_per_second": 34.695,
+      "eval_steps_per_second": 1.107,
       "step": 2100
     },
     {
       "epoch": 14.166666666666666,
+      "grad_norm": 7100.7158203125,
+      "learning_rate": 3.7068965517241385e-05,
+      "loss": 0.0011,
       "step": 2125
     },
     {
       "epoch": 14.333333333333334,
+      "grad_norm": 21329.642578125,
+      "learning_rate": 3.6896551724137934e-05,
+      "loss": 0.0012,
       "step": 2150
     },
     {
       "epoch": 14.5,
+      "grad_norm": 13695.5166015625,
+      "learning_rate": 3.672413793103448e-05,
+      "loss": 0.0014,
       "step": 2175
     },
     {
       "epoch": 14.666666666666666,
+      "grad_norm": 2531.25048828125,
+      "learning_rate": 3.655172413793104e-05,
+      "loss": 0.001,
       "step": 2200
     },
     {
       "epoch": 14.833333333333334,
+      "grad_norm": 34455.28125,
+      "learning_rate": 3.637931034482759e-05,
+      "loss": 0.0017,
       "step": 2225
     },
     {
       "epoch": 15.0,
+      "grad_norm": 4662.3671875,
+      "learning_rate": 3.620689655172414e-05,
+      "loss": 0.0017,
       "step": 2250
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.005805719178169966,
+      "eval_rmse": 0.07619526982307434,
+      "eval_runtime": 25.2273,
+      "eval_samples_per_second": 33.535,
+      "eval_steps_per_second": 1.07,
       "step": 2250
     },
     {
       "epoch": 15.166666666666666,
+      "grad_norm": 20696.083984375,
+      "learning_rate": 3.603448275862069e-05,
+      "loss": 0.0012,
       "step": 2275
     },
     {
       "epoch": 15.333333333333334,
+      "grad_norm": 11598.755859375,
+      "learning_rate": 3.586206896551724e-05,
+      "loss": 0.0009,
       "step": 2300
     },
     {
       "epoch": 15.5,
+      "grad_norm": 3409.390625,
+      "learning_rate": 3.5689655172413795e-05,
+      "loss": 0.001,
       "step": 2325
     },
     {
       "epoch": 15.666666666666666,
+      "grad_norm": 5427.46875,
+      "learning_rate": 3.5517241379310344e-05,
+      "loss": 0.0012,
       "step": 2350
     },
     {
       "epoch": 15.833333333333334,
+      "grad_norm": 7153.16650390625,
+      "learning_rate": 3.53448275862069e-05,
+      "loss": 0.0009,
       "step": 2375
     },
     {
       "epoch": 16.0,
+      "grad_norm": 5100.07763671875,
+      "learning_rate": 3.517241379310345e-05,
+      "loss": 0.0012,
       "step": 2400
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.005410957615822554,
+      "eval_rmse": 0.07355920970439911,
+      "eval_runtime": 24.7206,
+      "eval_samples_per_second": 34.223,
+      "eval_steps_per_second": 1.092,
       "step": 2400
     },
     {
       "epoch": 16.166666666666668,
+      "grad_norm": 20211.419921875,
+      "learning_rate": 3.5e-05,
+      "loss": 0.0011,
       "step": 2425
     },
     {
       "epoch": 16.333333333333332,
+      "grad_norm": 12609.2548828125,
+      "learning_rate": 3.482758620689655e-05,
+      "loss": 0.0011,
       "step": 2450
     },
     {
       "epoch": 16.5,
+      "grad_norm": 3446.8486328125,
+      "learning_rate": 3.465517241379311e-05,
+      "loss": 0.0009,
       "step": 2475
     },
     {
       "epoch": 16.666666666666668,
+      "grad_norm": 14641.283203125,
+      "learning_rate": 3.4482758620689657e-05,
+      "loss": 0.0008,
       "step": 2500
     },
     {
       "epoch": 16.833333333333332,
+      "grad_norm": 12291.1083984375,
+      "learning_rate": 3.431034482758621e-05,
+      "loss": 0.0009,
       "step": 2525
     },
     {
       "epoch": 17.0,
+      "grad_norm": 7226.25,
+      "learning_rate": 3.413793103448276e-05,
+      "loss": 0.0008,
       "step": 2550
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.005254137795418501,
+      "eval_rmse": 0.07248543202877045,
+      "eval_runtime": 25.4082,
+      "eval_samples_per_second": 33.296,
+      "eval_steps_per_second": 1.063,
       "step": 2550
     },
     {
       "epoch": 17.166666666666668,
+      "grad_norm": 6015.2412109375,
+      "learning_rate": 3.3965517241379316e-05,
+      "loss": 0.0008,
       "step": 2575
     },
     {
       "epoch": 17.333333333333332,
+      "grad_norm": 7095.80859375,
+      "learning_rate": 3.3793103448275865e-05,
+      "loss": 0.0008,
       "step": 2600
     },
     {
       "epoch": 17.5,
+      "grad_norm": 7659.24951171875,
+      "learning_rate": 3.3620689655172414e-05,
+      "loss": 0.0008,
       "step": 2625
     },
     {
       "epoch": 17.666666666666668,
+      "grad_norm": 3724.34619140625,
+      "learning_rate": 3.344827586206897e-05,
+      "loss": 0.001,
       "step": 2650
     },
     {
       "epoch": 17.833333333333332,
+      "grad_norm": 16511.189453125,
+      "learning_rate": 3.327586206896552e-05,
+      "loss": 0.0009,
       "step": 2675
     },
     {
       "epoch": 18.0,
+      "grad_norm": 13546.2470703125,
+      "learning_rate": 3.310344827586207e-05,
+      "loss": 0.0008,
       "step": 2700
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.00547071872279048,
+      "eval_rmse": 0.07396430522203445,
+      "eval_runtime": 24.3255,
+      "eval_samples_per_second": 34.778,
+      "eval_steps_per_second": 1.11,
       "step": 2700
     },
     {
       "epoch": 18.166666666666668,
+      "grad_norm": 9512.2578125,
+      "learning_rate": 3.293103448275862e-05,
+      "loss": 0.0008,
       "step": 2725
     },
     {
       "epoch": 18.333333333333332,
+      "grad_norm": 6799.78662109375,
+      "learning_rate": 3.275862068965517e-05,
+      "loss": 0.0008,
       "step": 2750
     },
     {
       "epoch": 18.5,
+      "grad_norm": 3044.78662109375,
+      "learning_rate": 3.2586206896551726e-05,
+      "loss": 0.0007,
       "step": 2775
     },
     {
       "epoch": 18.666666666666668,
+      "grad_norm": 13546.1982421875,
+      "learning_rate": 3.2413793103448275e-05,
+      "loss": 0.0007,
       "step": 2800
     },
     {
       "epoch": 18.833333333333332,
+      "grad_norm": 12045.7158203125,
+      "learning_rate": 3.2241379310344824e-05,
+      "loss": 0.0007,
       "step": 2825
     },
     {
       "epoch": 19.0,
+      "grad_norm": 11820.66015625,
+      "learning_rate": 3.206896551724138e-05,
+      "loss": 0.0007,
       "step": 2850
     },
     {
       "epoch": 19.0,
+      "eval_loss": 0.005731063894927502,
+      "eval_rmse": 0.07570379227399826,
+      "eval_runtime": 24.3718,
+      "eval_samples_per_second": 34.712,
+      "eval_steps_per_second": 1.108,
       "step": 2850
     },
     {
       "epoch": 19.166666666666668,
+      "grad_norm": 4663.9130859375,
+      "learning_rate": 3.1896551724137935e-05,
+      "loss": 0.0007,
       "step": 2875
     },
     {
       "epoch": 19.333333333333332,
+      "grad_norm": 1934.84619140625,
+      "learning_rate": 3.172413793103448e-05,
+      "loss": 0.0007,
       "step": 2900
     },
     {
       "epoch": 19.5,
+      "grad_norm": 6919.31982421875,
+      "learning_rate": 3.155172413793104e-05,
+      "loss": 0.0007,
       "step": 2925
     },
     {
       "epoch": 19.666666666666668,
+      "grad_norm": 6109.6171875,
+      "learning_rate": 3.137931034482759e-05,
+      "loss": 0.0007,
       "step": 2950
     },
     {
       "epoch": 19.833333333333332,
+      "grad_norm": 5411.876953125,
+      "learning_rate": 3.120689655172414e-05,
+      "loss": 0.0006,
       "step": 2975
     },
     {
       "epoch": 20.0,
+      "grad_norm": 11151.029296875,
+      "learning_rate": 3.103448275862069e-05,
+      "loss": 0.0007,
       "step": 3000
     },
     {
       "epoch": 20.0,
+      "eval_loss": 0.005564698483794928,
+      "eval_rmse": 0.07459690421819687,
+      "eval_runtime": 24.4791,
+      "eval_samples_per_second": 34.56,
+      "eval_steps_per_second": 1.103,
       "step": 3000
     },
     {
+      "epoch": 20.166666666666668,
+      "grad_norm": 6611.220703125,
+      "learning_rate": 3.086206896551724e-05,
+      "loss": 0.0007,
+      "step": 3025
+    },
+    {
+      "epoch": 20.333333333333332,
+      "grad_norm": 2534.669921875,
+      "learning_rate": 3.0689655172413796e-05,
+      "loss": 0.0008,
+      "step": 3050
+    },
+    {
+      "epoch": 20.5,
+      "grad_norm": 4288.451171875,
+      "learning_rate": 3.0517241379310348e-05,
+      "loss": 0.0007,
+      "step": 3075
+    },
+    {
+      "epoch": 20.666666666666668,
+      "grad_norm": 6255.359375,
+      "learning_rate": 3.0344827586206897e-05,
+      "loss": 0.0006,
+      "step": 3100
+    },
+    {
+      "epoch": 20.833333333333332,
+      "grad_norm": 4882.11328125,
+      "learning_rate": 3.017241379310345e-05,
+      "loss": 0.0006,
+      "step": 3125
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 2612.861083984375,
+      "learning_rate": 3e-05,
+      "loss": 0.0006,
+      "step": 3150
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.005460184533149004,
+      "eval_rmse": 0.07389306277036667,
+      "eval_runtime": 24.709,
+      "eval_samples_per_second": 34.239,
+      "eval_steps_per_second": 1.093,
+      "step": 3150
+    },
+    {
+      "epoch": 21.166666666666668,
+      "grad_norm": 13961.8076171875,
+      "learning_rate": 2.9827586206896553e-05,
+      "loss": 0.0007,
+      "step": 3175
+    },
+    {
+      "epoch": 21.333333333333332,
+      "grad_norm": 10601.8212890625,
+      "learning_rate": 2.96551724137931e-05,
+      "loss": 0.0007,
+      "step": 3200
+    },
+    {
+      "epoch": 21.5,
+      "grad_norm": 8989.919921875,
+      "learning_rate": 2.9482758620689654e-05,
+      "loss": 0.0007,
+      "step": 3225
+    },
+    {
+      "epoch": 21.666666666666668,
+      "grad_norm": 2415.768310546875,
+      "learning_rate": 2.9310344827586206e-05,
+      "loss": 0.0006,
+      "step": 3250
+    },
+    {
+      "epoch": 21.833333333333332,
+      "grad_norm": 4838.57666015625,
+      "learning_rate": 2.913793103448276e-05,
+      "loss": 0.0005,
+      "step": 3275
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 8728.1083984375,
+      "learning_rate": 2.8965517241379313e-05,
+      "loss": 0.0005,
+      "step": 3300
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.005140391178429127,
+      "eval_rmse": 0.07169651985168457,
+      "eval_runtime": 24.1883,
+      "eval_samples_per_second": 34.976,
+      "eval_steps_per_second": 1.116,
+      "step": 3300
+    },
+    {
+      "epoch": 22.166666666666668,
+      "grad_norm": 14058.439453125,
+      "learning_rate": 2.8793103448275865e-05,
+      "loss": 0.0006,
+      "step": 3325
+    },
+    {
+      "epoch": 22.333333333333332,
+      "grad_norm": 3426.945068359375,
+      "learning_rate": 2.8620689655172417e-05,
+      "loss": 0.0007,
+      "step": 3350
+    },
+    {
+      "epoch": 22.5,
+      "grad_norm": 4576.7431640625,
+      "learning_rate": 2.844827586206897e-05,
+      "loss": 0.0005,
+      "step": 3375
+    },
+    {
+      "epoch": 22.666666666666668,
+      "grad_norm": 2808.37744140625,
+      "learning_rate": 2.8275862068965518e-05,
+      "loss": 0.0005,
+      "step": 3400
+    },
+    {
+      "epoch": 22.833333333333332,
+      "grad_norm": 9870.7392578125,
+      "learning_rate": 2.810344827586207e-05,
+      "loss": 0.0006,
+      "step": 3425
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 12436.296875,
+      "learning_rate": 2.7931034482758622e-05,
+      "loss": 0.0006,
+      "step": 3450
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.005283581558614969,
+      "eval_rmse": 0.0726882591843605,
+      "eval_runtime": 24.0792,
+      "eval_samples_per_second": 35.134,
+      "eval_steps_per_second": 1.121,
+      "step": 3450
+    },
+    {
+      "epoch": 23.166666666666668,
+      "grad_norm": 2277.886962890625,
+      "learning_rate": 2.7758620689655175e-05,
+      "loss": 0.0006,
+      "step": 3475
+    },
+    {
+      "epoch": 23.333333333333332,
+      "grad_norm": 12487.025390625,
+      "learning_rate": 2.7586206896551727e-05,
+      "loss": 0.0006,
+      "step": 3500
+    },
+    {
+      "epoch": 23.5,
+      "grad_norm": 13577.09375,
+      "learning_rate": 2.7413793103448275e-05,
+      "loss": 0.0006,
+      "step": 3525
+    },
+    {
+      "epoch": 23.666666666666668,
+      "grad_norm": 13655.8271484375,
+      "learning_rate": 2.7241379310344827e-05,
+      "loss": 0.0005,
+      "step": 3550
+    },
+    {
+      "epoch": 23.833333333333332,
+      "grad_norm": 2765.83056640625,
+      "learning_rate": 2.706896551724138e-05,
+      "loss": 0.0005,
+      "step": 3575
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 3158.755126953125,
+      "learning_rate": 2.689655172413793e-05,
+      "loss": 0.0005,
+      "step": 3600
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.005190260708332062,
+      "eval_rmse": 0.07204346358776093,
+      "eval_runtime": 24.5397,
+      "eval_samples_per_second": 34.475,
+      "eval_steps_per_second": 1.1,
+      "step": 3600
+    },
+    {
+      "epoch": 24.166666666666668,
+      "grad_norm": 7158.42578125,
+      "learning_rate": 2.672413793103448e-05,
+      "loss": 0.0005,
+      "step": 3625
+    },
+    {
+      "epoch": 24.333333333333332,
+      "grad_norm": 14029.6904296875,
+      "learning_rate": 2.6551724137931032e-05,
+      "loss": 0.0006,
+      "step": 3650
+    },
+    {
+      "epoch": 24.5,
+      "grad_norm": 5185.93408203125,
+      "learning_rate": 2.637931034482759e-05,
+      "loss": 0.0005,
+      "step": 3675
+    },
+    {
+      "epoch": 24.666666666666668,
+      "grad_norm": 4489.02294921875,
+      "learning_rate": 2.620689655172414e-05,
+      "loss": 0.0006,
+      "step": 3700
+    },
+    {
+      "epoch": 24.833333333333332,
+      "grad_norm": 1894.82666015625,
+      "learning_rate": 2.6034482758620692e-05,
+      "loss": 0.0007,
+      "step": 3725
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 6927.84716796875,
+      "learning_rate": 2.5862068965517244e-05,
+      "loss": 0.0006,
+      "step": 3750
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.005490241106599569,
+      "eval_rmse": 0.07409615814685822,
+      "eval_runtime": 24.2263,
+      "eval_samples_per_second": 34.921,
+      "eval_steps_per_second": 1.114,
+      "step": 3750
+    },
+    {
+      "epoch": 25.166666666666668,
+      "grad_norm": 2080.053955078125,
+      "learning_rate": 2.5689655172413796e-05,
+      "loss": 0.0005,
+      "step": 3775
+    },
+    {
+      "epoch": 25.333333333333332,
+      "grad_norm": 7075.02685546875,
+      "learning_rate": 2.551724137931035e-05,
+      "loss": 0.0006,
+      "step": 3800
+    },
+    {
+      "epoch": 25.5,
+      "grad_norm": 10757.322265625,
+      "learning_rate": 2.5344827586206897e-05,
+      "loss": 0.0006,
+      "step": 3825
+    },
+    {
+      "epoch": 25.666666666666668,
+      "grad_norm": 9014.060546875,
+      "learning_rate": 2.517241379310345e-05,
+      "loss": 0.0006,
+      "step": 3850
+    },
+    {
+      "epoch": 25.833333333333332,
+      "grad_norm": 2507.72998046875,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0004,
+      "step": 3875
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 9365.7626953125,
+      "learning_rate": 2.4827586206896553e-05,
+      "loss": 0.0005,
+      "step": 3900
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.005092009902000427,
+      "eval_rmse": 0.07135831564664841,
+      "eval_runtime": 24.0941,
+      "eval_samples_per_second": 35.112,
+      "eval_steps_per_second": 1.121,
+      "step": 3900
+    },
+    {
+      "epoch": 26.166666666666668,
+      "grad_norm": 8156.84814453125,
+      "learning_rate": 2.4655172413793105e-05,
+      "loss": 0.0005,
+      "step": 3925
+    },
+    {
+      "epoch": 26.333333333333332,
+      "grad_norm": 6262.81396484375,
+      "learning_rate": 2.4482758620689654e-05,
+      "loss": 0.0005,
+      "step": 3950
+    },
+    {
+      "epoch": 26.5,
+      "grad_norm": 4787.65771484375,
+      "learning_rate": 2.4310344827586206e-05,
+      "loss": 0.0005,
+      "step": 3975
+    },
+    {
+      "epoch": 26.666666666666668,
+      "grad_norm": 7484.62939453125,
+      "learning_rate": 2.413793103448276e-05,
+      "loss": 0.0005,
+      "step": 4000
+    },
+    {
+      "epoch": 26.833333333333332,
+      "grad_norm": 10509.4423828125,
+      "learning_rate": 2.3965517241379314e-05,
+      "loss": 0.0005,
+      "step": 4025
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 11441.84765625,
+      "learning_rate": 2.3793103448275862e-05,
+      "loss": 0.0005,
+      "step": 4050
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.005185635760426521,
+      "eval_rmse": 0.07201135903596878,
+      "eval_runtime": 24.5085,
+      "eval_samples_per_second": 34.519,
+      "eval_steps_per_second": 1.102,
+      "step": 4050
+    },
+    {
+      "epoch": 27.166666666666668,
+      "grad_norm": 12403.2705078125,
+      "learning_rate": 2.3620689655172415e-05,
+      "loss": 0.0005,
+      "step": 4075
+    },
+    {
+      "epoch": 27.333333333333332,
+      "grad_norm": 6164.29541015625,
+      "learning_rate": 2.3448275862068967e-05,
+      "loss": 0.0005,
+      "step": 4100
+    },
+    {
+      "epoch": 27.5,
+      "grad_norm": 10556.6201171875,
+      "learning_rate": 2.327586206896552e-05,
+      "loss": 0.0004,
+      "step": 4125
+    },
+    {
+      "epoch": 27.666666666666668,
+      "grad_norm": 5694.11572265625,
+      "learning_rate": 2.3103448275862067e-05,
+      "loss": 0.0005,
+      "step": 4150
+    },
+    {
+      "epoch": 27.833333333333332,
+      "grad_norm": 7944.47216796875,
+      "learning_rate": 2.293103448275862e-05,
+      "loss": 0.0005,
+      "step": 4175
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 11066.5947265625,
+      "learning_rate": 2.2758620689655175e-05,
+      "loss": 0.0005,
+      "step": 4200
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.005251267924904823,
+      "eval_rmse": 0.07246563583612442,
+      "eval_runtime": 25.0299,
+      "eval_samples_per_second": 33.8,
+      "eval_steps_per_second": 1.079,
+      "step": 4200
+    },
+    {
+      "epoch": 28.166666666666668,
+      "grad_norm": 7138.5908203125,
+      "learning_rate": 2.2586206896551727e-05,
+      "loss": 0.0005,
+      "step": 4225
+    },
+    {
+      "epoch": 28.333333333333332,
+      "grad_norm": 7910.48193359375,
+      "learning_rate": 2.2413793103448276e-05,
+      "loss": 0.0004,
+      "step": 4250
+    },
+    {
+      "epoch": 28.5,
+      "grad_norm": 6678.46142578125,
+      "learning_rate": 2.2241379310344828e-05,
+      "loss": 0.0005,
+      "step": 4275
+    },
+    {
+      "epoch": 28.666666666666668,
+      "grad_norm": 2658.396484375,
+      "learning_rate": 2.206896551724138e-05,
+      "loss": 0.0004,
+      "step": 4300
+    },
+    {
+      "epoch": 28.833333333333332,
+      "grad_norm": 7415.6455078125,
+      "learning_rate": 2.1896551724137932e-05,
+      "loss": 0.0003,
+      "step": 4325
+    },
+    {
+      "epoch": 29.0,
+      "grad_norm": 4360.8212890625,
+      "learning_rate": 2.1724137931034484e-05,
+      "loss": 0.0003,
+      "step": 4350
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.005068263970315456,
+      "eval_rmse": 0.07119174301624298,
+      "eval_runtime": 23.6937,
+      "eval_samples_per_second": 35.706,
+      "eval_steps_per_second": 1.14,
+      "step": 4350
+    },
+    {
+      "epoch": 29.166666666666668,
+      "grad_norm": 9353.43359375,
+      "learning_rate": 2.1551724137931033e-05,
+      "loss": 0.0003,
+      "step": 4375
+    },
+    {
+      "epoch": 29.333333333333332,
+      "grad_norm": 6008.50390625,
+      "learning_rate": 2.137931034482759e-05,
+      "loss": 0.0004,
+      "step": 4400
+    },
+    {
+      "epoch": 29.5,
+      "grad_norm": 5255.45458984375,
+      "learning_rate": 2.120689655172414e-05,
+      "loss": 0.0003,
+      "step": 4425
+    },
+    {
+      "epoch": 29.666666666666668,
+      "grad_norm": 8044.0888671875,
+      "learning_rate": 2.1034482758620692e-05,
+      "loss": 0.0004,
+      "step": 4450
+    },
+    {
+      "epoch": 29.833333333333332,
+      "grad_norm": 1686.931640625,
+      "learning_rate": 2.086206896551724e-05,
+      "loss": 0.0004,
+      "step": 4475
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 2483.55419921875,
+      "learning_rate": 2.0689655172413793e-05,
+      "loss": 0.0004,
+      "step": 4500
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.0051447427831590176,
+      "eval_rmse": 0.07172686606645584,
+      "eval_runtime": 24.8197,
+      "eval_samples_per_second": 34.086,
+      "eval_steps_per_second": 1.088,
+      "step": 4500
+    },
+    {
+      "epoch": 30.166666666666668,
+      "grad_norm": 4986.66552734375,
+      "learning_rate": 2.0517241379310345e-05,
+      "loss": 0.0004,
+      "step": 4525
+    },
+    {
+      "epoch": 30.333333333333332,
+      "grad_norm": 4183.8564453125,
+      "learning_rate": 2.0344827586206897e-05,
+      "loss": 0.0004,
+      "step": 4550
+    },
+    {
+      "epoch": 30.5,
+      "grad_norm": 4985.001953125,
+      "learning_rate": 2.017241379310345e-05,
+      "loss": 0.0003,
+      "step": 4575
+    },
+    {
+      "epoch": 30.666666666666668,
+      "grad_norm": 4720.66455078125,
+      "learning_rate": 2e-05,
+      "loss": 0.0004,
+      "step": 4600
+    },
+    {
+      "epoch": 30.833333333333332,
+      "grad_norm": 2436.566650390625,
+      "learning_rate": 1.9827586206896554e-05,
+      "loss": 0.0004,
+      "step": 4625
+    },
+    {
+      "epoch": 31.0,
+      "grad_norm": 5655.64306640625,
+      "learning_rate": 1.9655172413793106e-05,
+      "loss": 0.0004,
+      "step": 4650
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 0.005167735740542412,
+      "eval_rmse": 0.07188696414232254,
+      "eval_runtime": 23.808,
+      "eval_samples_per_second": 35.534,
+      "eval_steps_per_second": 1.134,
+      "step": 4650
+    },
+    {
+      "epoch": 31.166666666666668,
+      "grad_norm": 6381.2216796875,
+      "learning_rate": 1.9482758620689655e-05,
+      "loss": 0.0005,
+      "step": 4675
+    },
+    {
+      "epoch": 31.333333333333332,
+      "grad_norm": 4444.06787109375,
+      "learning_rate": 1.9310344827586207e-05,
+      "loss": 0.0004,
+      "step": 4700
+    },
+    {
+      "epoch": 31.5,
+      "grad_norm": 4063.191650390625,
+      "learning_rate": 1.913793103448276e-05,
+      "loss": 0.0003,
+      "step": 4725
+    },
+    {
+      "epoch": 31.666666666666668,
+      "grad_norm": 2023.14794921875,
+      "learning_rate": 1.896551724137931e-05,
+      "loss": 0.0004,
+      "step": 4750
+    },
+    {
+      "epoch": 31.833333333333332,
+      "grad_norm": 7719.87353515625,
+      "learning_rate": 1.8793103448275863e-05,
+      "loss": 0.0004,
+      "step": 4775
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 10876.1064453125,
+      "learning_rate": 1.8620689655172415e-05,
+      "loss": 0.0003,
+      "step": 4800
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 0.005189752671867609,
+      "eval_rmse": 0.07203993201255798,
+      "eval_runtime": 24.4076,
+      "eval_samples_per_second": 34.661,
+      "eval_steps_per_second": 1.106,
+      "step": 4800
+    },
+    {
+      "epoch": 32.166666666666664,
+      "grad_norm": 7112.66748046875,
+      "learning_rate": 1.8448275862068967e-05,
+      "loss": 0.0003,
+      "step": 4825
+    },
+    {
+      "epoch": 32.333333333333336,
+      "grad_norm": 3561.666259765625,
+      "learning_rate": 1.827586206896552e-05,
+      "loss": 0.0003,
+      "step": 4850
+    },
+    {
+      "epoch": 32.5,
+      "grad_norm": 4231.2265625,
+      "learning_rate": 1.810344827586207e-05,
+      "loss": 0.0003,
+      "step": 4875
+    },
+    {
+      "epoch": 32.666666666666664,
+      "grad_norm": 3887.852294921875,
+      "learning_rate": 1.793103448275862e-05,
+      "loss": 0.0003,
+      "step": 4900
+    },
+    {
+      "epoch": 32.833333333333336,
+      "grad_norm": 4729.369140625,
+      "learning_rate": 1.7758620689655172e-05,
+      "loss": 0.0003,
+      "step": 4925
+    },
+    {
+      "epoch": 33.0,
+      "grad_norm": 12836.8896484375,
+      "learning_rate": 1.7586206896551724e-05,
+      "loss": 0.0003,
+      "step": 4950
+    },
+    {
+      "epoch": 33.0,
+      "eval_loss": 0.00510548148304224,
+      "eval_rmse": 0.07145265489816666,
+      "eval_runtime": 24.6674,
+      "eval_samples_per_second": 34.296,
+      "eval_steps_per_second": 1.095,
+      "step": 4950
+    },
+    {
+      "epoch": 33.166666666666664,
+      "grad_norm": 3480.9482421875,
+      "learning_rate": 1.7413793103448276e-05,
+      "loss": 0.0003,
+      "step": 4975
+    },
+    {
+      "epoch": 33.333333333333336,
+      "grad_norm": 4718.3798828125,
+      "learning_rate": 1.7241379310344828e-05,
+      "loss": 0.0003,
+      "step": 5000
+    },
+    {
+      "epoch": 33.5,
+      "grad_norm": 3190.914306640625,
+      "learning_rate": 1.706896551724138e-05,
+      "loss": 0.0003,
+      "step": 5025
+    },
+    {
+      "epoch": 33.666666666666664,
+      "grad_norm": 5478.87158203125,
+      "learning_rate": 1.6896551724137932e-05,
+      "loss": 0.0004,
+      "step": 5050
+    },
+    {
+      "epoch": 33.833333333333336,
+      "grad_norm": 5177.54931640625,
+      "learning_rate": 1.6724137931034485e-05,
+      "loss": 0.0003,
+      "step": 5075
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 10662.73046875,
+      "learning_rate": 1.6551724137931037e-05,
+      "loss": 0.0002,
+      "step": 5100
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.005342215299606323,
+      "eval_rmse": 0.07309045642614365,
+      "eval_runtime": 24.4257,
+      "eval_samples_per_second": 34.636,
+      "eval_steps_per_second": 1.105,
+      "step": 5100
+    },
+    {
+      "epoch": 34.166666666666664,
+      "grad_norm": 2308.01123046875,
+      "learning_rate": 1.6379310344827585e-05,
+      "loss": 0.0003,
+      "step": 5125
+    },
+    {
+      "epoch": 34.333333333333336,
+      "grad_norm": 2815.79638671875,
+      "learning_rate": 1.6206896551724137e-05,
+      "loss": 0.0003,
+      "step": 5150
+    },
+    {
+      "epoch": 34.5,
+      "grad_norm": 4326.0478515625,
+      "learning_rate": 1.603448275862069e-05,
+      "loss": 0.0002,
+      "step": 5175
+    },
+    {
+      "epoch": 34.666666666666664,
+      "grad_norm": 6309.9462890625,
+      "learning_rate": 1.586206896551724e-05,
+      "loss": 0.0003,
+      "step": 5200
+    },
+    {
+      "epoch": 34.833333333333336,
+      "grad_norm": 1817.662353515625,
+      "learning_rate": 1.5689655172413794e-05,
+      "loss": 0.0002,
+      "step": 5225
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 3567.881103515625,
+      "learning_rate": 1.5517241379310346e-05,
+      "loss": 0.0003,
+      "step": 5250
+    },
+    {
+      "epoch": 35.0,
+      "eval_loss": 0.005233472678810358,
+      "eval_rmse": 0.07234274595975876,
+      "eval_runtime": 24.1269,
+      "eval_samples_per_second": 35.065,
+      "eval_steps_per_second": 1.119,
+      "step": 5250
+    },
+    {
+      "epoch": 35.166666666666664,
+      "grad_norm": 3930.6884765625,
+      "learning_rate": 1.5344827586206898e-05,
+      "loss": 0.0003,
+      "step": 5275
+    },
+    {
+      "epoch": 35.333333333333336,
+      "grad_norm": 4008.536865234375,
+      "learning_rate": 1.5172413793103448e-05,
+      "loss": 0.0003,
+      "step": 5300
+    },
+    {
+      "epoch": 35.5,
+      "grad_norm": 2320.7138671875,
+      "learning_rate": 1.5e-05,
+      "loss": 0.0003,
+      "step": 5325
+    },
+    {
+      "epoch": 35.666666666666664,
+      "grad_norm": 5395.9560546875,
+      "learning_rate": 1.482758620689655e-05,
+      "loss": 0.0003,
+      "step": 5350
+    },
+    {
+      "epoch": 35.833333333333336,
+      "grad_norm": 3271.279052734375,
+      "learning_rate": 1.4655172413793103e-05,
+      "loss": 0.0003,
+      "step": 5375
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 7306.166015625,
+      "learning_rate": 1.4482758620689657e-05,
+      "loss": 0.0002,
+      "step": 5400
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.005008559208363295,
+      "eval_rmse": 0.07077117264270782,
+      "eval_runtime": 23.9539,
+      "eval_samples_per_second": 35.318,
+      "eval_steps_per_second": 1.127,
+      "step": 5400
+    },
+    {
+      "epoch": 36.166666666666664,
+      "grad_norm": 2410.515625,
+      "learning_rate": 1.4310344827586209e-05,
+      "loss": 0.0003,
+      "step": 5425
+    },
+    {
+      "epoch": 36.333333333333336,
+      "grad_norm": 3116.67822265625,
+      "learning_rate": 1.4137931034482759e-05,
+      "loss": 0.0002,
+      "step": 5450
+    },
+    {
+      "epoch": 36.5,
+      "grad_norm": 2509.718994140625,
+      "learning_rate": 1.3965517241379311e-05,
+      "loss": 0.0003,
+      "step": 5475
+    },
+    {
+      "epoch": 36.666666666666664,
+      "grad_norm": 4319.36669921875,
+      "learning_rate": 1.3793103448275863e-05,
+      "loss": 0.0003,
+      "step": 5500
+    },
+    {
+      "epoch": 36.833333333333336,
+      "grad_norm": 5166.88720703125,
+      "learning_rate": 1.3620689655172414e-05,
+      "loss": 0.0003,
+      "step": 5525
+    },
+    {
+      "epoch": 37.0,
+      "grad_norm": 3035.32275390625,
+      "learning_rate": 1.3448275862068966e-05,
+      "loss": 0.0002,
+      "step": 5550
+    },
+    {
+      "epoch": 37.0,
+      "eval_loss": 0.004944357089698315,
+      "eval_rmse": 0.0703161209821701,
+      "eval_runtime": 24.563,
+      "eval_samples_per_second": 34.442,
+      "eval_steps_per_second": 1.099,
+      "step": 5550
+    },
+    {
+      "epoch": 37.166666666666664,
+      "grad_norm": 4661.7880859375,
+      "learning_rate": 1.3275862068965516e-05,
+      "loss": 0.0002,
+      "step": 5575
+    },
+    {
+      "epoch": 37.333333333333336,
+      "grad_norm": 3572.86083984375,
+      "learning_rate": 1.310344827586207e-05,
+      "loss": 0.0002,
+      "step": 5600
+    },
+    {
+      "epoch": 37.5,
+      "grad_norm": 2449.630126953125,
+      "learning_rate": 1.2931034482758622e-05,
+      "loss": 0.0002,
+      "step": 5625
+    },
+    {
+      "epoch": 37.666666666666664,
+      "grad_norm": 7162.35400390625,
+      "learning_rate": 1.2758620689655174e-05,
+      "loss": 0.0002,
+      "step": 5650
+    },
+    {
+      "epoch": 37.833333333333336,
+      "grad_norm": 7194.30908203125,
+      "learning_rate": 1.2586206896551725e-05,
+      "loss": 0.0002,
+      "step": 5675
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 3310.67236328125,
+      "learning_rate": 1.2413793103448277e-05,
+      "loss": 0.0002,
+      "step": 5700
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 0.005015978589653969,
+      "eval_rmse": 0.07082357257604599,
+      "eval_runtime": 24.649,
+      "eval_samples_per_second": 34.322,
+      "eval_steps_per_second": 1.095,
+      "step": 5700
+    },
+    {
+      "epoch": 38.166666666666664,
+      "grad_norm": 4332.0615234375,
+      "learning_rate": 1.2241379310344827e-05,
+      "loss": 0.0002,
+      "step": 5725
+    },
+    {
+      "epoch": 38.333333333333336,
+      "grad_norm": 4779.07568359375,
+      "learning_rate": 1.206896551724138e-05,
+      "loss": 0.0002,
+      "step": 5750
+    },
+    {
+      "epoch": 38.5,
+      "grad_norm": 3394.655029296875,
+      "learning_rate": 1.1896551724137931e-05,
+      "loss": 0.0002,
+      "step": 5775
+    },
+    {
+      "epoch": 38.666666666666664,
+      "grad_norm": 1213.259521484375,
+      "learning_rate": 1.1724137931034483e-05,
+      "loss": 0.0002,
+      "step": 5800
+    },
+    {
+      "epoch": 38.833333333333336,
+      "grad_norm": 7526.7451171875,
+      "learning_rate": 1.1551724137931034e-05,
+      "loss": 0.0002,
+      "step": 5825
+    },
+    {
+      "epoch": 39.0,
+      "grad_norm": 9150.9912109375,
+      "learning_rate": 1.1379310344827587e-05,
+      "loss": 0.0002,
+      "step": 5850
+    },
+    {
+      "epoch": 39.0,
+      "eval_loss": 0.004906541667878628,
+      "eval_rmse": 0.07004670798778534,
+      "eval_runtime": 24.1426,
+      "eval_samples_per_second": 35.042,
+      "eval_steps_per_second": 1.118,
+      "step": 5850
+    },
+    {
+      "epoch": 39.166666666666664,
+      "grad_norm": 5821.2470703125,
+      "learning_rate": 1.1206896551724138e-05,
+      "loss": 0.0002,
+      "step": 5875
+    },
+    {
+      "epoch": 39.333333333333336,
+      "grad_norm": 4532.37890625,
+      "learning_rate": 1.103448275862069e-05,
+      "loss": 0.0002,
+      "step": 5900
+    },
+    {
+      "epoch": 39.5,
+      "grad_norm": 5742.3427734375,
+      "learning_rate": 1.0862068965517242e-05,
+      "loss": 0.0002,
+      "step": 5925
+    },
+    {
+      "epoch": 39.666666666666664,
+      "grad_norm": 1430.531005859375,
+      "learning_rate": 1.0689655172413794e-05,
+      "loss": 0.0002,
+      "step": 5950
+    },
+    {
+      "epoch": 39.833333333333336,
+      "grad_norm": 4371.09765625,
+      "learning_rate": 1.0517241379310346e-05,
+      "loss": 0.0002,
+      "step": 5975
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 3642.697998046875,
+      "learning_rate": 1.0344827586206897e-05,
+      "loss": 0.0002,
+      "step": 6000
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 0.004872768651694059,
+      "eval_rmse": 0.06980521976947784,
+      "eval_runtime": 23.9307,
+      "eval_samples_per_second": 35.352,
+      "eval_steps_per_second": 1.128,
+      "step": 6000
+    },
+    {
+      "epoch": 40.166666666666664,
+      "grad_norm": 5250.0,
+      "learning_rate": 1.0172413793103449e-05,
+      "loss": 0.0002,
+      "step": 6025
+    },
+    {
+      "epoch": 40.333333333333336,
+      "grad_norm": 1985.86083984375,
+      "learning_rate": 1e-05,
+      "loss": 0.0002,
+      "step": 6050
+    },
+    {
+      "epoch": 40.5,
+      "grad_norm": 4391.5673828125,
+      "learning_rate": 9.827586206896553e-06,
+      "loss": 0.0002,
+      "step": 6075
+    },
+    {
+      "epoch": 40.666666666666664,
+      "grad_norm": 4576.029296875,
+      "learning_rate": 9.655172413793103e-06,
+      "loss": 0.0002,
+      "step": 6100
+    },
+    {
+      "epoch": 40.833333333333336,
+      "grad_norm": 5284.35107421875,
+      "learning_rate": 9.482758620689655e-06,
+      "loss": 0.0002,
+      "step": 6125
+    },
+    {
+      "epoch": 41.0,
+      "grad_norm": 3708.590576171875,
+      "learning_rate": 9.310344827586207e-06,
+      "loss": 0.0002,
+      "step": 6150
+    },
+    {
+      "epoch": 41.0,
+      "eval_loss": 0.004881918430328369,
+      "eval_rmse": 0.069870725274086,
+      "eval_runtime": 24.6924,
+      "eval_samples_per_second": 34.262,
+      "eval_steps_per_second": 1.093,
+      "step": 6150
+    },
+    {
+      "epoch": 41.166666666666664,
+      "grad_norm": 1864.5494384765625,
+      "learning_rate": 9.13793103448276e-06,
+      "loss": 0.0002,
+      "step": 6175
+    },
+    {
+      "epoch": 41.333333333333336,
+      "grad_norm": 3076.697998046875,
+      "learning_rate": 8.96551724137931e-06,
+      "loss": 0.0002,
+      "step": 6200
+    },
+    {
+      "epoch": 41.5,
+      "grad_norm": 2170.48486328125,
+      "learning_rate": 8.793103448275862e-06,
+      "loss": 0.0002,
+      "step": 6225
+    },
+    {
+      "epoch": 41.666666666666664,
+      "grad_norm": 3419.19384765625,
+      "learning_rate": 8.620689655172414e-06,
+      "loss": 0.0002,
+      "step": 6250
+    },
+    {
+      "epoch": 41.833333333333336,
+      "grad_norm": 5411.42236328125,
+      "learning_rate": 8.448275862068966e-06,
+      "loss": 0.0002,
+      "step": 6275
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 3653.36865234375,
+      "learning_rate": 8.275862068965518e-06,
+      "loss": 0.0002,
+      "step": 6300
+    },
+    {
+      "epoch": 42.0,
+      "eval_loss": 0.004911797121167183,
+      "eval_rmse": 0.07008421421051025,
+      "eval_runtime": 24.3533,
+      "eval_samples_per_second": 34.739,
+      "eval_steps_per_second": 1.109,
+      "step": 6300
+    },
+    {
+      "epoch": 42.166666666666664,
+      "grad_norm": 3295.633056640625,
+      "learning_rate": 8.103448275862069e-06,
+      "loss": 0.0001,
+      "step": 6325
+    },
+    {
+      "epoch": 42.333333333333336,
+      "grad_norm": 3717.45849609375,
+      "learning_rate": 7.93103448275862e-06,
+      "loss": 0.0002,
+      "step": 6350
+    },
+    {
+      "epoch": 42.5,
+      "grad_norm": 2262.6142578125,
+      "learning_rate": 7.758620689655173e-06,
+      "loss": 0.0001,
+      "step": 6375
+    },
+    {
+      "epoch": 42.666666666666664,
+      "grad_norm": 1310.09912109375,
+      "learning_rate": 7.586206896551724e-06,
+      "loss": 0.0002,
+      "step": 6400
+    },
+    {
+      "epoch": 42.833333333333336,
+      "grad_norm": 3895.883544921875,
+      "learning_rate": 7.413793103448275e-06,
+      "loss": 0.0001,
+      "step": 6425
+    },
+    {
+      "epoch": 43.0,
+      "grad_norm": 3741.710205078125,
+      "learning_rate": 7.241379310344828e-06,
+      "loss": 0.0001,
+      "step": 6450
+    },
+    {
+      "epoch": 43.0,
+      "eval_loss": 0.0048644402995705605,
+      "eval_rmse": 0.06974554061889648,
+      "eval_runtime": 24.2068,
+      "eval_samples_per_second": 34.949,
+      "eval_steps_per_second": 1.115,
+      "step": 6450
+    },
+    {
+      "epoch": 43.166666666666664,
+      "grad_norm": 1377.0496826171875,
+      "learning_rate": 7.0689655172413796e-06,
+      "loss": 0.0001,
+      "step": 6475
+    },
+    {
+      "epoch": 43.333333333333336,
+      "grad_norm": 2979.349365234375,
+      "learning_rate": 6.896551724137932e-06,
+      "loss": 0.0001,
+      "step": 6500
+    },
+    {
+      "epoch": 43.5,
+      "grad_norm": 1298.4322509765625,
+      "learning_rate": 6.724137931034483e-06,
+      "loss": 0.0001,
+      "step": 6525
+    },
+    {
+      "epoch": 43.666666666666664,
+      "grad_norm": 2018.940673828125,
+      "learning_rate": 6.551724137931035e-06,
+      "loss": 0.0001,
+      "step": 6550
+    },
+    {
+      "epoch": 43.833333333333336,
+      "grad_norm": 1853.4677734375,
+      "learning_rate": 6.379310344827587e-06,
+      "loss": 0.0002,
+      "step": 6575
+    },
+    {
+      "epoch": 44.0,
+      "grad_norm": 7740.021484375,
+      "learning_rate": 6.206896551724138e-06,
+      "loss": 0.0002,
+      "step": 6600
+    },
+    {
+      "epoch": 44.0,
+      "eval_loss": 0.004866042174398899,
+      "eval_rmse": 0.06975702196359634,
+      "eval_runtime": 24.1955,
+      "eval_samples_per_second": 34.965,
+      "eval_steps_per_second": 1.116,
+      "step": 6600
+    },
+    {
+      "epoch": 44.166666666666664,
+      "grad_norm": 1772.85400390625,
+      "learning_rate": 6.03448275862069e-06,
+      "loss": 0.0001,
+      "step": 6625
+    },
+    {
+      "epoch": 44.333333333333336,
+      "grad_norm": 2806.0537109375,
+      "learning_rate": 5.862068965517242e-06,
+      "loss": 0.0001,
+      "step": 6650
+    },
+    {
+      "epoch": 44.5,
+      "grad_norm": 1677.330078125,
+      "learning_rate": 5.689655172413794e-06,
+      "loss": 0.0001,
+      "step": 6675
+    },
+    {
+      "epoch": 44.666666666666664,
+      "grad_norm": 2859.73095703125,
+      "learning_rate": 5.517241379310345e-06,
+      "loss": 0.0001,
+      "step": 6700
+    },
+    {
+      "epoch": 44.833333333333336,
+      "grad_norm": 2286.294921875,
+      "learning_rate": 5.344827586206897e-06,
+      "loss": 0.0001,
+      "step": 6725
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 2282.572021484375,
+      "learning_rate": 5.172413793103448e-06,
+      "loss": 0.0001,
+      "step": 6750
+    },
+    {
+      "epoch": 45.0,
+      "eval_loss": 0.00484111625701189,
+      "eval_rmse": 0.0695781260728836,
+      "eval_runtime": 25.1872,
+      "eval_samples_per_second": 33.589,
+      "eval_steps_per_second": 1.072,
+      "step": 6750
+    },
+    {
+      "epoch": 45.166666666666664,
+      "grad_norm": 1199.2476806640625,
+      "learning_rate": 5e-06,
+      "loss": 0.0001,
+      "step": 6775
+    },
+    {
+      "epoch": 45.333333333333336,
+      "grad_norm": 4216.11572265625,
+      "learning_rate": 4.827586206896552e-06,
+      "loss": 0.0001,
+      "step": 6800
+    },
+    {
+      "epoch": 45.5,
+      "grad_norm": 3172.265380859375,
+      "learning_rate": 4.655172413793104e-06,
+      "loss": 0.0001,
+      "step": 6825
+    },
+    {
+      "epoch": 45.666666666666664,
+      "grad_norm": 2178.9580078125,
+      "learning_rate": 4.482758620689655e-06,
+      "loss": 0.0001,
+      "step": 6850
+    },
+    {
+      "epoch": 45.833333333333336,
+      "grad_norm": 2676.595947265625,
+      "learning_rate": 4.310344827586207e-06,
+      "loss": 0.0001,
+      "step": 6875
+    },
+    {
+      "epoch": 46.0,
+      "grad_norm": 2955.51806640625,
+      "learning_rate": 4.137931034482759e-06,
+      "loss": 0.0001,
+      "step": 6900
+    },
+    {
+      "epoch": 46.0,
+      "eval_loss": 0.0047905659303069115,
+      "eval_rmse": 0.06921391934156418,
+      "eval_runtime": 24.7777,
+      "eval_samples_per_second": 34.144,
+      "eval_steps_per_second": 1.09,
+      "step": 6900
+    },
+    {
+      "epoch": 46.166666666666664,
+      "grad_norm": 1705.5765380859375,
+      "learning_rate": 3.96551724137931e-06,
+      "loss": 0.0001,
+      "step": 6925
+    },
+    {
+      "epoch": 46.333333333333336,
+      "grad_norm": 1702.0909423828125,
+      "learning_rate": 3.793103448275862e-06,
+      "loss": 0.0001,
+      "step": 6950
+    },
+    {
+      "epoch": 46.5,
+      "grad_norm": 3313.3212890625,
+      "learning_rate": 3.620689655172414e-06,
+      "loss": 0.0001,
+      "step": 6975
+    },
+    {
+      "epoch": 46.666666666666664,
+      "grad_norm": 2680.958251953125,
+      "learning_rate": 3.448275862068966e-06,
+      "loss": 0.0001,
+      "step": 7000
+    },
+    {
+      "epoch": 46.833333333333336,
+      "grad_norm": 495.0559997558594,
+      "learning_rate": 3.2758620689655175e-06,
+      "loss": 0.0001,
+      "step": 7025
+    },
+    {
+      "epoch": 47.0,
+      "grad_norm": 4104.341796875,
+      "learning_rate": 3.103448275862069e-06,
+      "loss": 0.0001,
+      "step": 7050
+    },
+    {
+      "epoch": 47.0,
+      "eval_loss": 0.004818546585738659,
+      "eval_rmse": 0.06941574811935425,
+      "eval_runtime": 24.9976,
+      "eval_samples_per_second": 33.843,
+      "eval_steps_per_second": 1.08,
+      "step": 7050
+    },
+    {
+      "epoch": 47.166666666666664,
+      "grad_norm": 1351.109130859375,
+      "learning_rate": 2.931034482758621e-06,
+      "loss": 0.0001,
+      "step": 7075
+    },
+    {
+      "epoch": 47.333333333333336,
+      "grad_norm": 3643.360107421875,
+      "learning_rate": 2.7586206896551725e-06,
+      "loss": 0.0001,
+      "step": 7100
+    },
+    {
+      "epoch": 47.5,
+      "grad_norm": 3840.823974609375,
+      "learning_rate": 2.586206896551724e-06,
+      "loss": 0.0001,
+      "step": 7125
+    },
+    {
+      "epoch": 47.666666666666664,
+      "grad_norm": 605.887451171875,
+      "learning_rate": 2.413793103448276e-06,
+      "loss": 0.0001,
+      "step": 7150
+    },
+    {
+      "epoch": 47.833333333333336,
+      "grad_norm": 3222.42822265625,
+      "learning_rate": 2.2413793103448275e-06,
+      "loss": 0.0001,
+      "step": 7175
+    },
+    {
+      "epoch": 48.0,
+      "grad_norm": 2107.290283203125,
+      "learning_rate": 2.0689655172413796e-06,
+      "loss": 0.0001,
+      "step": 7200
+    },
+    {
+      "epoch": 48.0,
+      "eval_loss": 0.004817850887775421,
+      "eval_rmse": 0.06941074132919312,
+      "eval_runtime": 24.6293,
+      "eval_samples_per_second": 34.349,
+      "eval_steps_per_second": 1.096,
+      "step": 7200
+    },
+    {
+      "epoch": 48.166666666666664,
+      "grad_norm": 2339.809326171875,
+      "learning_rate": 1.896551724137931e-06,
+      "loss": 0.0001,
+      "step": 7225
+    },
+    {
+      "epoch": 48.333333333333336,
+      "grad_norm": 1776.428466796875,
+      "learning_rate": 1.724137931034483e-06,
+      "loss": 0.0001,
+      "step": 7250
+    },
+    {
+      "epoch": 48.5,
+      "grad_norm": 1188.1318359375,
+      "learning_rate": 1.5517241379310346e-06,
+      "loss": 0.0001,
+      "step": 7275
+    },
+    {
+      "epoch": 48.666666666666664,
+      "grad_norm": 1058.152099609375,
+      "learning_rate": 1.3793103448275862e-06,
+      "loss": 0.0001,
+      "step": 7300
+    },
+    {
+      "epoch": 48.833333333333336,
+      "grad_norm": 787.6583251953125,
+      "learning_rate": 1.206896551724138e-06,
+      "loss": 0.0001,
+      "step": 7325
+    },
+    {
+      "epoch": 49.0,
+      "grad_norm": 2516.050048828125,
+      "learning_rate": 1.0344827586206898e-06,
+      "loss": 0.0001,
+      "step": 7350
+    },
+    {
+      "epoch": 49.0,
+      "eval_loss": 0.004793087020516396,
+      "eval_rmse": 0.06923212110996246,
+      "eval_runtime": 24.0402,
+      "eval_samples_per_second": 35.191,
+      "eval_steps_per_second": 1.123,
+      "step": 7350
+    },
+    {
+      "epoch": 49.166666666666664,
+      "grad_norm": 779.75244140625,
+      "learning_rate": 8.620689655172415e-07,
+      "loss": 0.0001,
+      "step": 7375
+    },
+    {
+      "epoch": 49.333333333333336,
+      "grad_norm": 578.4296875,
+      "learning_rate": 6.896551724137931e-07,
+      "loss": 0.0001,
+      "step": 7400
+    },
+    {
+      "epoch": 49.5,
+      "grad_norm": 2092.16259765625,
+      "learning_rate": 5.172413793103449e-07,
+      "loss": 0.0001,
+      "step": 7425
+    },
+    {
+      "epoch": 49.666666666666664,
+      "grad_norm": 1592.06787109375,
+      "learning_rate": 3.4482758620689656e-07,
+      "loss": 0.0001,
+      "step": 7450
+    },
+    {
+      "epoch": 49.833333333333336,
+      "grad_norm": 2670.34326171875,
+      "learning_rate": 1.7241379310344828e-07,
+      "loss": 0.0001,
+      "step": 7475
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 914.4434204101562,
+      "learning_rate": 0.0,
+      "loss": 0.0001,
+      "step": 7500
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 0.004804946947842836,
+      "eval_rmse": 0.06931772083044052,
+      "eval_runtime": 24.8499,
+      "eval_samples_per_second": 34.044,
+      "eval_steps_per_second": 1.087,
+      "step": 7500
+    },
+    {
+      "epoch": 50.0,
+      "step": 7500,
       "total_flos": 0.0,
+      "train_loss": 0.0016370025988823424,
+      "train_runtime": 16468.788,
+      "train_samples_per_second": 14.537,
+      "train_steps_per_second": 0.455
     }
   ],
   "logging_steps": 25,
+  "max_steps": 7500,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {