End of training

Browse files

Files changed (6) hide show

README.md +5 -2
adapter.engs.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
train_results.json +9 -0
trainer_state.json +3242 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-300m
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-300m-librispeech-adapter-model
-This model is a fine-tuned version of [facebook/mms-300m](https://huggingface.co/facebook/mms-300m) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.1966
-- Wer: 0.1476
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-300m
 tags:
+- automatic-speech-recognition
+- libri10h
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-300m-librispeech-adapter-model
+This model is a fine-tuned version of [facebook/mms-300m](https://huggingface.co/facebook/mms-300m) on the LIBRI10H - ENGS dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.1966
+- Wer: 0.1474
 ## Model description

adapter.engs.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a3a2e1a2ed0561b8d19293f36a841dcb662612c0a51e5ebfeb44fd8863dcb0a
+size 3586804

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 57.971014492753625,
+    "eval_loss": 0.19662442803382874,
+    "eval_runtime": 150.3481,
+    "eval_samples": 2604,
+    "eval_samples_per_second": 17.32,
+    "eval_steps_per_second": 4.33,
+    "eval_wer": 0.1473525082547639,
+    "total_flos": 6.201114678692461e+19,
+    "train_loss": 0.3545982142448425,
+    "train_runtime": 69759.9962,
+    "train_samples": 2759,
+    "train_samples_per_second": 2.294,
+    "train_steps_per_second": 0.287
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 57.971014492753625,
+    "eval_loss": 0.19662442803382874,
+    "eval_runtime": 150.3481,
+    "eval_samples": 2604,
+    "eval_samples_per_second": 17.32,
+    "eval_steps_per_second": 4.33,
+    "eval_wer": 0.1473525082547639
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 57.971014492753625,
+    "total_flos": 6.201114678692461e+19,
+    "train_loss": 0.3545982142448425,
+    "train_runtime": 69759.9962,
+    "train_samples": 2759,
+    "train_samples_per_second": 2.294,
+    "train_steps_per_second": 0.287
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3242 @@

+{
+  "best_metric": 0.18993638455867767,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-300m-librispeech-adapter-model/checkpoint-14700",
+  "epoch": 57.971014492753625,
+  "eval_steps": 100,
+  "global_step": 20000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2898550724637681,
+      "grad_norm": 1.1440045833587646,
+      "learning_rate": 0.00029699999999999996,
+      "loss": 6.2783,
+      "step": 100
+    },
+    {
+      "epoch": 0.2898550724637681,
+      "eval_loss": 2.9219679832458496,
+      "eval_runtime": 143.5175,
+      "eval_samples_per_second": 18.144,
+      "eval_steps_per_second": 4.536,
+      "eval_wer": 1.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.5797101449275363,
+      "grad_norm": 0.45640963315963745,
+      "learning_rate": 0.0002985075376884422,
+      "loss": 2.8558,
+      "step": 200
+    },
+    {
+      "epoch": 0.5797101449275363,
+      "eval_loss": 2.8894731998443604,
+      "eval_runtime": 142.4415,
+      "eval_samples_per_second": 18.281,
+      "eval_steps_per_second": 4.57,
+      "eval_wer": 1.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 0.38338732719421387,
+      "learning_rate": 0.00029699999999999996,
+      "loss": 2.8526,
+      "step": 300
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "eval_loss": 2.8732688426971436,
+      "eval_runtime": 142.7771,
+      "eval_samples_per_second": 18.238,
+      "eval_steps_per_second": 4.56,
+      "eval_wer": 1.0,
+      "step": 300
+    },
+    {
+      "epoch": 1.1594202898550725,
+      "grad_norm": 0.6874628067016602,
+      "learning_rate": 0.00029549246231155775,
+      "loss": 2.841,
+      "step": 400
+    },
+    {
+      "epoch": 1.1594202898550725,
+      "eval_loss": 2.9120943546295166,
+      "eval_runtime": 140.6955,
+      "eval_samples_per_second": 18.508,
+      "eval_steps_per_second": 4.627,
+      "eval_wer": 1.0,
+      "step": 400
+    },
+    {
+      "epoch": 1.4492753623188406,
+      "grad_norm": 0.5108693242073059,
+      "learning_rate": 0.00029398492462311555,
+      "loss": 2.831,
+      "step": 500
+    },
+    {
+      "epoch": 1.4492753623188406,
+      "eval_loss": 2.8824281692504883,
+      "eval_runtime": 141.8812,
+      "eval_samples_per_second": 18.353,
+      "eval_steps_per_second": 4.588,
+      "eval_wer": 1.0,
+      "step": 500
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 0.7823837995529175,
+      "learning_rate": 0.00029247738693467335,
+      "loss": 2.7114,
+      "step": 600
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "eval_loss": 2.6127419471740723,
+      "eval_runtime": 143.0376,
+      "eval_samples_per_second": 18.205,
+      "eval_steps_per_second": 4.551,
+      "eval_wer": 1.0,
+      "step": 600
+    },
+    {
+      "epoch": 2.028985507246377,
+      "grad_norm": 0.5136599540710449,
+      "learning_rate": 0.00029096984924623114,
+      "loss": 2.316,
+      "step": 700
+    },
+    {
+      "epoch": 2.028985507246377,
+      "eval_loss": 1.937637209892273,
+      "eval_runtime": 143.9661,
+      "eval_samples_per_second": 18.088,
+      "eval_steps_per_second": 4.522,
+      "eval_wer": 0.9999005450133269,
+      "step": 700
+    },
+    {
+      "epoch": 2.318840579710145,
+      "grad_norm": 0.8716309666633606,
+      "learning_rate": 0.00028946231155778894,
+      "loss": 1.7366,
+      "step": 800
+    },
+    {
+      "epoch": 2.318840579710145,
+      "eval_loss": 1.22072434425354,
+      "eval_runtime": 144.0146,
+      "eval_samples_per_second": 18.082,
+      "eval_steps_per_second": 4.52,
+      "eval_wer": 0.8263515932688865,
+      "step": 800
+    },
+    {
+      "epoch": 2.608695652173913,
+      "grad_norm": 0.626215398311615,
+      "learning_rate": 0.0002879547738693467,
+      "loss": 1.1927,
+      "step": 900
+    },
+    {
+      "epoch": 2.608695652173913,
+      "eval_loss": 0.8307786583900452,
+      "eval_runtime": 144.3438,
+      "eval_samples_per_second": 18.04,
+      "eval_steps_per_second": 4.51,
+      "eval_wer": 0.6531407884791344,
+      "step": 900
+    },
+    {
+      "epoch": 2.898550724637681,
+      "grad_norm": 0.458715558052063,
+      "learning_rate": 0.0002864472361809045,
+      "loss": 0.923,
+      "step": 1000
+    },
+    {
+      "epoch": 2.898550724637681,
+      "eval_loss": 0.6707094311714172,
+      "eval_runtime": 144.3744,
+      "eval_samples_per_second": 18.036,
+      "eval_steps_per_second": 4.509,
+      "eval_wer": 0.5563511954489399,
+      "step": 1000
+    },
+    {
+      "epoch": 3.1884057971014492,
+      "grad_norm": 0.5768333673477173,
+      "learning_rate": 0.0002849396984924623,
+      "loss": 0.7974,
+      "step": 1100
+    },
+    {
+      "epoch": 3.1884057971014492,
+      "eval_loss": 0.59714674949646,
+      "eval_runtime": 144.5219,
+      "eval_samples_per_second": 18.018,
+      "eval_steps_per_second": 4.505,
+      "eval_wer": 0.5258980785296575,
+      "step": 1100
+    },
+    {
+      "epoch": 3.4782608695652173,
+      "grad_norm": 0.5361514687538147,
+      "learning_rate": 0.0002834321608040201,
+      "loss": 0.7119,
+      "step": 1200
+    },
+    {
+      "epoch": 3.4782608695652173,
+      "eval_loss": 0.5403450131416321,
+      "eval_runtime": 144.9473,
+      "eval_samples_per_second": 17.965,
+      "eval_steps_per_second": 4.491,
+      "eval_wer": 0.4906711222500696,
+      "step": 1200
+    },
+    {
+      "epoch": 3.7681159420289854,
+      "grad_norm": 0.44001927971839905,
+      "learning_rate": 0.0002819246231155779,
+      "loss": 0.6491,
+      "step": 1300
+    },
+    {
+      "epoch": 3.7681159420289854,
+      "eval_loss": 0.49191784858703613,
+      "eval_runtime": 145.6845,
+      "eval_samples_per_second": 17.874,
+      "eval_steps_per_second": 4.469,
+      "eval_wer": 0.4562199148665314,
+      "step": 1300
+    },
+    {
+      "epoch": 4.057971014492754,
+      "grad_norm": 0.5078291296958923,
+      "learning_rate": 0.00028041708542713567,
+      "loss": 0.6167,
+      "step": 1400
+    },
+    {
+      "epoch": 4.057971014492754,
+      "eval_loss": 0.47232988476753235,
+      "eval_runtime": 145.8228,
+      "eval_samples_per_second": 17.857,
+      "eval_steps_per_second": 4.464,
+      "eval_wer": 0.44744798504197003,
+      "step": 1400
+    },
+    {
+      "epoch": 4.3478260869565215,
+      "grad_norm": 0.45701169967651367,
+      "learning_rate": 0.0002789095477386934,
+      "loss": 0.5899,
+      "step": 1500
+    },
+    {
+      "epoch": 4.3478260869565215,
+      "eval_loss": 0.43916764855384827,
+      "eval_runtime": 146.0418,
+      "eval_samples_per_second": 17.831,
+      "eval_steps_per_second": 4.458,
+      "eval_wer": 0.42153001551497793,
+      "step": 1500
+    },
+    {
+      "epoch": 4.63768115942029,
+      "grad_norm": 0.4275153577327728,
+      "learning_rate": 0.00027740201005025127,
+      "loss": 0.5461,
+      "step": 1600
+    },
+    {
+      "epoch": 4.63768115942029,
+      "eval_loss": 0.4208216369152069,
+      "eval_runtime": 146.3826,
+      "eval_samples_per_second": 17.789,
+      "eval_steps_per_second": 4.447,
+      "eval_wer": 0.4089986871941759,
+      "step": 1600
+    },
+    {
+      "epoch": 4.927536231884058,
+      "grad_norm": 0.5200296640396118,
+      "learning_rate": 0.000275894472361809,
+      "loss": 0.5331,
+      "step": 1700
+    },
+    {
+      "epoch": 4.927536231884058,
+      "eval_loss": 0.40836045145988464,
+      "eval_runtime": 146.2881,
+      "eval_samples_per_second": 17.8,
+      "eval_steps_per_second": 4.45,
+      "eval_wer": 0.40305127899112864,
+      "step": 1700
+    },
+    {
+      "epoch": 5.217391304347826,
+      "grad_norm": 0.4017215371131897,
+      "learning_rate": 0.0002743869346733668,
+      "loss": 0.5134,
+      "step": 1800
+    },
+    {
+      "epoch": 5.217391304347826,
+      "eval_loss": 0.38590207695961,
+      "eval_runtime": 146.2278,
+      "eval_samples_per_second": 17.808,
+      "eval_steps_per_second": 4.452,
+      "eval_wer": 0.3848311254326292,
+      "step": 1800
+    },
+    {
+      "epoch": 5.507246376811594,
+      "grad_norm": 0.5074508190155029,
+      "learning_rate": 0.0002728793969849246,
+      "loss": 0.4967,
+      "step": 1900
+    },
+    {
+      "epoch": 5.507246376811594,
+      "eval_loss": 0.3674832284450531,
+      "eval_runtime": 145.8489,
+      "eval_samples_per_second": 17.854,
+      "eval_steps_per_second": 4.464,
+      "eval_wer": 0.3747463897839838,
+      "step": 1900
+    },
+    {
+      "epoch": 5.797101449275362,
+      "grad_norm": 0.44507330656051636,
+      "learning_rate": 0.0002713718592964824,
+      "loss": 0.4735,
+      "step": 2000
+    },
+    {
+      "epoch": 5.797101449275362,
+      "eval_loss": 0.3600199818611145,
+      "eval_runtime": 146.0583,
+      "eval_samples_per_second": 17.828,
+      "eval_steps_per_second": 4.457,
+      "eval_wer": 0.36408481521263475,
+      "step": 2000
+    },
+    {
+      "epoch": 6.086956521739131,
+      "grad_norm": 0.4315125644207001,
+      "learning_rate": 0.0002698643216080402,
+      "loss": 0.4589,
+      "step": 2100
+    },
+    {
+      "epoch": 6.086956521739131,
+      "eval_loss": 0.34947261214256287,
+      "eval_runtime": 146.0671,
+      "eval_samples_per_second": 17.827,
+      "eval_steps_per_second": 4.457,
+      "eval_wer": 0.358057843020249,
+      "step": 2100
+    },
+    {
+      "epoch": 6.3768115942028984,
+      "grad_norm": 0.3876771628856659,
+      "learning_rate": 0.000268356783919598,
+      "loss": 0.4395,
+      "step": 2200
+    },
+    {
+      "epoch": 6.3768115942028984,
+      "eval_loss": 0.33656537532806396,
+      "eval_runtime": 146.4679,
+      "eval_samples_per_second": 17.779,
+      "eval_steps_per_second": 4.445,
+      "eval_wer": 0.348410709312965,
+      "step": 2200
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 0.5842604041099548,
+      "learning_rate": 0.00026684924623115574,
+      "loss": 0.4463,
+      "step": 2300
+    },
+    {
+      "epoch": 6.666666666666667,
+      "eval_loss": 0.3318806290626526,
+      "eval_runtime": 146.1921,
+      "eval_samples_per_second": 17.812,
+      "eval_steps_per_second": 4.453,
+      "eval_wer": 0.34687910251820026,
+      "step": 2300
+    },
+    {
+      "epoch": 6.956521739130435,
+      "grad_norm": 0.48257681727409363,
+      "learning_rate": 0.00026534170854271353,
+      "loss": 0.4367,
+      "step": 2400
+    },
+    {
+      "epoch": 6.956521739130435,
+      "eval_loss": 0.3226897716522217,
+      "eval_runtime": 145.9874,
+      "eval_samples_per_second": 17.837,
+      "eval_steps_per_second": 4.459,
+      "eval_wer": 0.3391017225603692,
+      "step": 2400
+    },
+    {
+      "epoch": 7.246376811594203,
+      "grad_norm": 0.5191691517829895,
+      "learning_rate": 0.00026383417085427133,
+      "loss": 0.4034,
+      "step": 2500
+    },
+    {
+      "epoch": 7.246376811594203,
+      "eval_loss": 0.3165632486343384,
+      "eval_runtime": 151.3525,
+      "eval_samples_per_second": 17.205,
+      "eval_steps_per_second": 4.301,
+      "eval_wer": 0.3279229820583204,
+      "step": 2500
+    },
+    {
+      "epoch": 7.536231884057971,
+      "grad_norm": 0.45448774099349976,
+      "learning_rate": 0.00026232663316582913,
+      "loss": 0.4088,
+      "step": 2600
+    },
+    {
+      "epoch": 7.536231884057971,
+      "eval_loss": 0.3038766086101532,
+      "eval_runtime": 146.2949,
+      "eval_samples_per_second": 17.8,
+      "eval_steps_per_second": 4.45,
+      "eval_wer": 0.31960854517245496,
+      "step": 2600
+    },
+    {
+      "epoch": 7.826086956521739,
+      "grad_norm": 0.5683527588844299,
+      "learning_rate": 0.0002608190954773869,
+      "loss": 0.4024,
+      "step": 2700
+    },
+    {
+      "epoch": 7.826086956521739,
+      "eval_loss": 0.30069929361343384,
+      "eval_runtime": 145.9069,
+      "eval_samples_per_second": 17.847,
+      "eval_steps_per_second": 4.462,
+      "eval_wer": 0.3201058201058201,
+      "step": 2700
+    },
+    {
+      "epoch": 8.115942028985508,
+      "grad_norm": 0.5986935496330261,
+      "learning_rate": 0.0002593115577889447,
+      "loss": 0.3994,
+      "step": 2800
+    },
+    {
+      "epoch": 8.115942028985508,
+      "eval_loss": 0.2905051112174988,
+      "eval_runtime": 146.8783,
+      "eval_samples_per_second": 17.729,
+      "eval_steps_per_second": 4.432,
+      "eval_wer": 0.30687830687830686,
+      "step": 2800
+    },
+    {
+      "epoch": 8.405797101449275,
+      "grad_norm": 0.542873740196228,
+      "learning_rate": 0.00025780402010050247,
+      "loss": 0.3789,
+      "step": 2900
+    },
+    {
+      "epoch": 8.405797101449275,
+      "eval_loss": 0.28533315658569336,
+      "eval_runtime": 147.0496,
+      "eval_samples_per_second": 17.708,
+      "eval_steps_per_second": 4.427,
+      "eval_wer": 0.29866332497911446,
+      "step": 2900
+    },
+    {
+      "epoch": 8.695652173913043,
+      "grad_norm": 0.5281730890274048,
+      "learning_rate": 0.00025629648241206026,
+      "loss": 0.3789,
+      "step": 3000
+    },
+    {
+      "epoch": 8.695652173913043,
+      "eval_loss": 0.282540500164032,
+      "eval_runtime": 147.0526,
+      "eval_samples_per_second": 17.708,
+      "eval_steps_per_second": 4.427,
+      "eval_wer": 0.2968930262163345,
+      "step": 3000
+    },
+    {
+      "epoch": 8.985507246376812,
+      "grad_norm": 0.7449385523796082,
+      "learning_rate": 0.00025478894472361806,
+      "loss": 0.371,
+      "step": 3100
+    },
+    {
+      "epoch": 8.985507246376812,
+      "eval_loss": 0.27829161286354065,
+      "eval_runtime": 146.3003,
+      "eval_samples_per_second": 17.799,
+      "eval_steps_per_second": 4.45,
+      "eval_wer": 0.2889366272824919,
+      "step": 3100
+    },
+    {
+      "epoch": 9.27536231884058,
+      "grad_norm": 0.8428851366043091,
+      "learning_rate": 0.00025328140703517586,
+      "loss": 0.356,
+      "step": 3200
+    },
+    {
+      "epoch": 9.27536231884058,
+      "eval_loss": 0.27369388937950134,
+      "eval_runtime": 146.3486,
+      "eval_samples_per_second": 17.793,
+      "eval_steps_per_second": 4.448,
+      "eval_wer": 0.2853363567649282,
+      "step": 3200
+    },
+    {
+      "epoch": 9.565217391304348,
+      "grad_norm": 0.6694580316543579,
+      "learning_rate": 0.00025177386934673366,
+      "loss": 0.3519,
+      "step": 3300
+    },
+    {
+      "epoch": 9.565217391304348,
+      "eval_loss": 0.27026933431625366,
+      "eval_runtime": 146.7069,
+      "eval_samples_per_second": 17.75,
+      "eval_steps_per_second": 4.437,
+      "eval_wer": 0.2834666030154752,
+      "step": 3300
+    },
+    {
+      "epoch": 9.855072463768115,
+      "grad_norm": 0.667295515537262,
+      "learning_rate": 0.00025026633165829145,
+      "loss": 0.3547,
+      "step": 3400
+    },
+    {
+      "epoch": 9.855072463768115,
+      "eval_loss": 0.2659197747707367,
+      "eval_runtime": 146.6151,
+      "eval_samples_per_second": 17.761,
+      "eval_steps_per_second": 4.44,
+      "eval_wer": 0.2799458964872499,
+      "step": 3400
+    },
+    {
+      "epoch": 10.144927536231885,
+      "grad_norm": 3.2425894737243652,
+      "learning_rate": 0.0002487587939698492,
+      "loss": 0.3474,
+      "step": 3500
+    },
+    {
+      "epoch": 10.144927536231885,
+      "eval_loss": 0.2704484164714813,
+      "eval_runtime": 147.9392,
+      "eval_samples_per_second": 17.602,
+      "eval_steps_per_second": 4.4,
+      "eval_wer": 0.2744758722202331,
+      "step": 3500
+    },
+    {
+      "epoch": 10.434782608695652,
+      "grad_norm": 1.8763881921768188,
+      "learning_rate": 0.00024725125628140705,
+      "loss": 0.3402,
+      "step": 3600
+    },
+    {
+      "epoch": 10.434782608695652,
+      "eval_loss": 0.25888901948928833,
+      "eval_runtime": 146.8065,
+      "eval_samples_per_second": 17.738,
+      "eval_steps_per_second": 4.434,
+      "eval_wer": 0.2672753311851056,
+      "step": 3600
+    },
+    {
+      "epoch": 10.72463768115942,
+      "grad_norm": 1.3940495252609253,
+      "learning_rate": 0.0002457437185929648,
+      "loss": 0.3305,
+      "step": 3700
+    },
+    {
+      "epoch": 10.72463768115942,
+      "eval_loss": 0.26088258624076843,
+      "eval_runtime": 146.7967,
+      "eval_samples_per_second": 17.739,
+      "eval_steps_per_second": 4.435,
+      "eval_wer": 0.2688069379798703,
+      "step": 3700
+    },
+    {
+      "epoch": 11.014492753623188,
+      "grad_norm": 0.4827100336551666,
+      "learning_rate": 0.0002442361809045226,
+      "loss": 0.3306,
+      "step": 3800
+    },
+    {
+      "epoch": 11.014492753623188,
+      "eval_loss": 0.25174590945243835,
+      "eval_runtime": 147.1647,
+      "eval_samples_per_second": 17.694,
+      "eval_steps_per_second": 4.424,
+      "eval_wer": 0.2602935911206588,
+      "step": 3800
+    },
+    {
+      "epoch": 11.304347826086957,
+      "grad_norm": 0.503418505191803,
+      "learning_rate": 0.00024272864321608038,
+      "loss": 0.315,
+      "step": 3900
+    },
+    {
+      "epoch": 11.304347826086957,
+      "eval_loss": 0.2613690495491028,
+      "eval_runtime": 146.9874,
+      "eval_samples_per_second": 17.716,
+      "eval_steps_per_second": 4.429,
+      "eval_wer": 0.2663802363050483,
+      "step": 3900
+    },
+    {
+      "epoch": 11.594202898550725,
+      "grad_norm": 0.5063391923904419,
+      "learning_rate": 0.00024122110552763816,
+      "loss": 0.319,
+      "step": 4000
+    },
+    {
+      "epoch": 11.594202898550725,
+      "eval_loss": 0.249360591173172,
+      "eval_runtime": 147.2708,
+      "eval_samples_per_second": 17.682,
+      "eval_steps_per_second": 4.42,
+      "eval_wer": 0.25822492739785974,
+      "step": 4000
+    },
+    {
+      "epoch": 11.884057971014492,
+      "grad_norm": 0.5601128339767456,
+      "learning_rate": 0.00023971356783919598,
+      "loss": 0.316,
+      "step": 4100
+    },
+    {
+      "epoch": 11.884057971014492,
+      "eval_loss": 0.24954313039779663,
+      "eval_runtime": 147.9605,
+      "eval_samples_per_second": 17.599,
+      "eval_steps_per_second": 4.4,
+      "eval_wer": 0.2546047658829614,
+      "step": 4100
+    },
+    {
+      "epoch": 12.173913043478262,
+      "grad_norm": 0.5574008226394653,
+      "learning_rate": 0.00023820603015075375,
+      "loss": 0.3097,
+      "step": 4200
+    },
+    {
+      "epoch": 12.173913043478262,
+      "eval_loss": 0.24174192547798157,
+      "eval_runtime": 147.0046,
+      "eval_samples_per_second": 17.714,
+      "eval_steps_per_second": 4.428,
+      "eval_wer": 0.2503083104586864,
+      "step": 4200
+    },
+    {
+      "epoch": 12.46376811594203,
+      "grad_norm": 0.44565197825431824,
+      "learning_rate": 0.00023669849246231155,
+      "loss": 0.3027,
+      "step": 4300
+    },
+    {
+      "epoch": 12.46376811594203,
+      "eval_loss": 0.2395372986793518,
+      "eval_runtime": 148.3347,
+      "eval_samples_per_second": 17.555,
+      "eval_steps_per_second": 4.389,
+      "eval_wer": 0.24398297330628158,
+      "step": 4300
+    },
+    {
+      "epoch": 12.753623188405797,
+      "grad_norm": 0.4654025733470917,
+      "learning_rate": 0.00023519095477386932,
+      "loss": 0.2978,
+      "step": 4400
+    },
+    {
+      "epoch": 12.753623188405797,
+      "eval_loss": 0.236846461892128,
+      "eval_runtime": 147.8716,
+      "eval_samples_per_second": 17.61,
+      "eval_steps_per_second": 4.402,
+      "eval_wer": 0.2450173051676811,
+      "step": 4400
+    },
+    {
+      "epoch": 13.043478260869565,
+      "grad_norm": 0.5224162936210632,
+      "learning_rate": 0.00023368341708542711,
+      "loss": 0.2891,
+      "step": 4500
+    },
+    {
+      "epoch": 13.043478260869565,
+      "eval_loss": 0.24193796515464783,
+      "eval_runtime": 148.0829,
+      "eval_samples_per_second": 17.585,
+      "eval_steps_per_second": 4.396,
+      "eval_wer": 0.2487170306719179,
+      "step": 4500
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 0.5733482241630554,
+      "learning_rate": 0.0002321758793969849,
+      "loss": 0.2931,
+      "step": 4600
+    },
+    {
+      "epoch": 13.333333333333334,
+      "eval_loss": 0.23379352688789368,
+      "eval_runtime": 147.4582,
+      "eval_samples_per_second": 17.659,
+      "eval_steps_per_second": 4.415,
+      "eval_wer": 0.23485300552969726,
+      "step": 4600
+    },
+    {
+      "epoch": 13.623188405797102,
+      "grad_norm": 0.5568373203277588,
+      "learning_rate": 0.0002306683417085427,
+      "loss": 0.2845,
+      "step": 4700
+    },
+    {
+      "epoch": 13.623188405797102,
+      "eval_loss": 0.23074574768543243,
+      "eval_runtime": 147.9177,
+      "eval_samples_per_second": 17.604,
+      "eval_steps_per_second": 4.401,
+      "eval_wer": 0.2324859768468791,
+      "step": 4700
+    },
+    {
+      "epoch": 13.91304347826087,
+      "grad_norm": 0.5352379083633423,
+      "learning_rate": 0.00022916080402010048,
+      "loss": 0.286,
+      "step": 4800
+    },
+    {
+      "epoch": 13.91304347826087,
+      "eval_loss": 0.23180751502513885,
+      "eval_runtime": 148.3255,
+      "eval_samples_per_second": 17.556,
+      "eval_steps_per_second": 4.389,
+      "eval_wer": 0.23457453156701277,
+      "step": 4800
+    },
+    {
+      "epoch": 14.202898550724637,
+      "grad_norm": 0.4989466071128845,
+      "learning_rate": 0.00022765326633165828,
+      "loss": 0.2839,
+      "step": 4900
+    },
+    {
+      "epoch": 14.202898550724637,
+      "eval_loss": 0.22843925654888153,
+      "eval_runtime": 149.221,
+      "eval_samples_per_second": 17.451,
+      "eval_steps_per_second": 4.363,
+      "eval_wer": 0.2305963321000915,
+      "step": 4900
+    },
+    {
+      "epoch": 14.492753623188406,
+      "grad_norm": 0.48703616857528687,
+      "learning_rate": 0.00022614572864321605,
+      "loss": 0.2854,
+      "step": 5000
+    },
+    {
+      "epoch": 14.492753623188406,
+      "eval_loss": 0.22595585882663727,
+      "eval_runtime": 148.0737,
+      "eval_samples_per_second": 17.586,
+      "eval_steps_per_second": 4.396,
+      "eval_wer": 0.22604129371046663,
+      "step": 5000
+    },
+    {
+      "epoch": 14.782608695652174,
+      "grad_norm": 0.5562406182289124,
+      "learning_rate": 0.00022463819095477384,
+      "loss": 0.2755,
+      "step": 5100
+    },
+    {
+      "epoch": 14.782608695652174,
+      "eval_loss": 0.22389821708202362,
+      "eval_runtime": 147.9028,
+      "eval_samples_per_second": 17.606,
+      "eval_steps_per_second": 4.402,
+      "eval_wer": 0.22576281974778215,
+      "step": 5100
+    },
+    {
+      "epoch": 15.072463768115941,
+      "grad_norm": 0.5024857521057129,
+      "learning_rate": 0.00022313065326633164,
+      "loss": 0.2759,
+      "step": 5200
+    },
+    {
+      "epoch": 15.072463768115941,
+      "eval_loss": 0.2225174903869629,
+      "eval_runtime": 148.6759,
+      "eval_samples_per_second": 17.515,
+      "eval_steps_per_second": 4.379,
+      "eval_wer": 0.22478816087838643,
+      "step": 5200
+    },
+    {
+      "epoch": 15.36231884057971,
+      "grad_norm": 0.49712419509887695,
+      "learning_rate": 0.00022162311557788944,
+      "loss": 0.2717,
+      "step": 5300
+    },
+    {
+      "epoch": 15.36231884057971,
+      "eval_loss": 0.22049400210380554,
+      "eval_runtime": 148.6086,
+      "eval_samples_per_second": 17.523,
+      "eval_steps_per_second": 4.381,
+      "eval_wer": 0.2202331224887616,
+      "step": 5300
+    },
+    {
+      "epoch": 15.652173913043478,
+      "grad_norm": 0.5845891237258911,
+      "learning_rate": 0.0002201155778894472,
+      "loss": 0.2712,
+      "step": 5400
+    },
+    {
+      "epoch": 15.652173913043478,
+      "eval_loss": 0.21882875263690948,
+      "eval_runtime": 148.6863,
+      "eval_samples_per_second": 17.513,
+      "eval_steps_per_second": 4.378,
+      "eval_wer": 0.22198353025420695,
+      "step": 5400
+    },
+    {
+      "epoch": 15.942028985507246,
+      "grad_norm": 0.464219331741333,
+      "learning_rate": 0.000218608040201005,
+      "loss": 0.2665,
+      "step": 5500
+    },
+    {
+      "epoch": 15.942028985507246,
+      "eval_loss": 0.21793150901794434,
+      "eval_runtime": 148.1837,
+      "eval_samples_per_second": 17.573,
+      "eval_steps_per_second": 4.393,
+      "eval_wer": 0.22017344949675777,
+      "step": 5500
+    },
+    {
+      "epoch": 16.231884057971016,
+      "grad_norm": 0.541633665561676,
+      "learning_rate": 0.00021711557788944722,
+      "loss": 0.2554,
+      "step": 5600
+    },
+    {
+      "epoch": 16.231884057971016,
+      "eval_loss": 0.22023917734622955,
+      "eval_runtime": 148.2405,
+      "eval_samples_per_second": 17.566,
+      "eval_steps_per_second": 4.392,
+      "eval_wer": 0.22130723634483032,
+      "step": 5600
+    },
+    {
+      "epoch": 16.52173913043478,
+      "grad_norm": 0.5381140112876892,
+      "learning_rate": 0.000215608040201005,
+      "loss": 0.2558,
+      "step": 5700
+    },
+    {
+      "epoch": 16.52173913043478,
+      "eval_loss": 0.21436667442321777,
+      "eval_runtime": 152.8954,
+      "eval_samples_per_second": 17.031,
+      "eval_steps_per_second": 4.258,
+      "eval_wer": 0.2124159605362613,
+      "step": 5700
+    },
+    {
+      "epoch": 16.81159420289855,
+      "grad_norm": 0.5217423439025879,
+      "learning_rate": 0.0002141005025125628,
+      "loss": 0.2611,
+      "step": 5800
+    },
+    {
+      "epoch": 16.81159420289855,
+      "eval_loss": 0.21614325046539307,
+      "eval_runtime": 147.2916,
+      "eval_samples_per_second": 17.679,
+      "eval_steps_per_second": 4.42,
+      "eval_wer": 0.21643394199785176,
+      "step": 5800
+    },
+    {
+      "epoch": 17.10144927536232,
+      "grad_norm": 0.5291975140571594,
+      "learning_rate": 0.00021259296482412058,
+      "loss": 0.261,
+      "step": 5900
+    },
+    {
+      "epoch": 17.10144927536232,
+      "eval_loss": 0.21743394434452057,
+      "eval_runtime": 148.5519,
+      "eval_samples_per_second": 17.529,
+      "eval_steps_per_second": 4.382,
+      "eval_wer": 0.2099693678641047,
+      "step": 5900
+    },
+    {
+      "epoch": 17.391304347826086,
+      "grad_norm": 0.4251558780670166,
+      "learning_rate": 0.00021108542713567838,
+      "loss": 0.2503,
+      "step": 6000
+    },
+    {
+      "epoch": 17.391304347826086,
+      "eval_loss": 0.2164338082075119,
+      "eval_runtime": 148.7374,
+      "eval_samples_per_second": 17.507,
+      "eval_steps_per_second": 4.377,
+      "eval_wer": 0.2117993396188885,
+      "step": 6000
+    },
+    {
+      "epoch": 17.681159420289855,
+      "grad_norm": 0.48946651816368103,
+      "learning_rate": 0.00020957788944723615,
+      "loss": 0.2533,
+      "step": 6100
+    },
+    {
+      "epoch": 17.681159420289855,
+      "eval_loss": 0.2096243053674698,
+      "eval_runtime": 148.6793,
+      "eval_samples_per_second": 17.514,
+      "eval_steps_per_second": 4.379,
+      "eval_wer": 0.20632931535187174,
+      "step": 6100
+    },
+    {
+      "epoch": 17.971014492753625,
+      "grad_norm": 1.0431879758834839,
+      "learning_rate": 0.00020807035175879395,
+      "loss": 0.2491,
+      "step": 6200
+    },
+    {
+      "epoch": 17.971014492753625,
+      "eval_loss": 0.21442431211471558,
+      "eval_runtime": 148.4753,
+      "eval_samples_per_second": 17.538,
+      "eval_steps_per_second": 4.385,
+      "eval_wer": 0.2036838127063691,
+      "step": 6200
+    },
+    {
+      "epoch": 18.26086956521739,
+      "grad_norm": 0.6736889481544495,
+      "learning_rate": 0.00020656281407035174,
+      "loss": 0.2448,
+      "step": 6300
+    },
+    {
+      "epoch": 18.26086956521739,
+      "eval_loss": 0.21374870836734772,
+      "eval_runtime": 148.8537,
+      "eval_samples_per_second": 17.494,
+      "eval_steps_per_second": 4.373,
+      "eval_wer": 0.20344512073835383,
+      "step": 6300
+    },
+    {
+      "epoch": 18.55072463768116,
+      "grad_norm": 0.6890196204185486,
+      "learning_rate": 0.00020505527638190954,
+      "loss": 0.2418,
+      "step": 6400
+    },
+    {
+      "epoch": 18.55072463768116,
+      "eval_loss": 0.20951078832149506,
+      "eval_runtime": 148.479,
+      "eval_samples_per_second": 17.538,
+      "eval_steps_per_second": 4.384,
+      "eval_wer": 0.20284839081831563,
+      "step": 6400
+    },
+    {
+      "epoch": 18.840579710144926,
+      "grad_norm": 0.5898504853248596,
+      "learning_rate": 0.0002035477386934673,
+      "loss": 0.246,
+      "step": 6500
+    },
+    {
+      "epoch": 18.840579710144926,
+      "eval_loss": 0.20731888711452484,
+      "eval_runtime": 149.6587,
+      "eval_samples_per_second": 17.4,
+      "eval_steps_per_second": 4.35,
+      "eval_wer": 0.19853204439670605,
+      "step": 6500
+    },
+    {
+      "epoch": 19.130434782608695,
+      "grad_norm": 0.721211314201355,
+      "learning_rate": 0.0002020402010050251,
+      "loss": 0.2389,
+      "step": 6600
+    },
+    {
+      "epoch": 19.130434782608695,
+      "eval_loss": 0.21186397969722748,
+      "eval_runtime": 149.3428,
+      "eval_samples_per_second": 17.436,
+      "eval_steps_per_second": 4.359,
+      "eval_wer": 0.19763694951664876,
+      "step": 6600
+    },
+    {
+      "epoch": 19.420289855072465,
+      "grad_norm": 0.9309697151184082,
+      "learning_rate": 0.00020053266331658288,
+      "loss": 0.2332,
+      "step": 6700
+    },
+    {
+      "epoch": 19.420289855072465,
+      "eval_loss": 0.2146858423948288,
+      "eval_runtime": 149.4385,
+      "eval_samples_per_second": 17.425,
+      "eval_steps_per_second": 4.356,
+      "eval_wer": 0.1992680112980865,
+      "step": 6700
+    },
+    {
+      "epoch": 19.71014492753623,
+      "grad_norm": 0.6736502051353455,
+      "learning_rate": 0.0001990251256281407,
+      "loss": 0.2364,
+      "step": 6800
+    },
+    {
+      "epoch": 19.71014492753623,
+      "eval_loss": 0.2084682285785675,
+      "eval_runtime": 149.2563,
+      "eval_samples_per_second": 17.447,
+      "eval_steps_per_second": 4.362,
+      "eval_wer": 0.19831324342602538,
+      "step": 6800
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 1.5724033117294312,
+      "learning_rate": 0.00019751758793969847,
+      "loss": 0.244,
+      "step": 6900
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.21120484173297882,
+      "eval_runtime": 149.1916,
+      "eval_samples_per_second": 17.454,
+      "eval_steps_per_second": 4.364,
+      "eval_wer": 0.1955086128018459,
+      "step": 6900
+    },
+    {
+      "epoch": 20.28985507246377,
+      "grad_norm": 1.5974398851394653,
+      "learning_rate": 0.00019601005025125627,
+      "loss": 0.231,
+      "step": 7000
+    },
+    {
+      "epoch": 20.28985507246377,
+      "eval_loss": 0.2139531373977661,
+      "eval_runtime": 149.1228,
+      "eval_samples_per_second": 17.462,
+      "eval_steps_per_second": 4.366,
+      "eval_wer": 0.19568763177785733,
+      "step": 7000
+    },
+    {
+      "epoch": 20.579710144927535,
+      "grad_norm": 1.7866404056549072,
+      "learning_rate": 0.00019450251256281404,
+      "loss": 0.2321,
+      "step": 7100
+    },
+    {
+      "epoch": 20.579710144927535,
+      "eval_loss": 0.21654276549816132,
+      "eval_runtime": 148.6885,
+      "eval_samples_per_second": 17.513,
+      "eval_steps_per_second": 4.378,
+      "eval_wer": 0.19644348967657238,
+      "step": 7100
+    },
+    {
+      "epoch": 20.869565217391305,
+      "grad_norm": 1.2823141813278198,
+      "learning_rate": 0.00019299497487437184,
+      "loss": 0.2288,
+      "step": 7200
+    },
+    {
+      "epoch": 20.869565217391305,
+      "eval_loss": 0.2096690535545349,
+      "eval_runtime": 149.16,
+      "eval_samples_per_second": 17.458,
+      "eval_steps_per_second": 4.364,
+      "eval_wer": 0.1921271432549628,
+      "step": 7200
+    },
+    {
+      "epoch": 21.159420289855074,
+      "grad_norm": 0.3959142863750458,
+      "learning_rate": 0.0001914874371859296,
+      "loss": 0.2373,
+      "step": 7300
+    },
+    {
+      "epoch": 21.159420289855074,
+      "eval_loss": 0.20639722049236298,
+      "eval_runtime": 148.8351,
+      "eval_samples_per_second": 17.496,
+      "eval_steps_per_second": 4.374,
+      "eval_wer": 0.1895810955961332,
+      "step": 7300
+    },
+    {
+      "epoch": 21.44927536231884,
+      "grad_norm": 0.4794645309448242,
+      "learning_rate": 0.00018997989949748743,
+      "loss": 0.222,
+      "step": 7400
+    },
+    {
+      "epoch": 21.44927536231884,
+      "eval_loss": 0.20799419283866882,
+      "eval_runtime": 149.7147,
+      "eval_samples_per_second": 17.393,
+      "eval_steps_per_second": 4.348,
+      "eval_wer": 0.18979989656681387,
+      "step": 7400
+    },
+    {
+      "epoch": 21.73913043478261,
+      "grad_norm": 0.42001789808273315,
+      "learning_rate": 0.0001884723618090452,
+      "loss": 0.2254,
+      "step": 7500
+    },
+    {
+      "epoch": 21.73913043478261,
+      "eval_loss": 0.21223315596580505,
+      "eval_runtime": 148.6287,
+      "eval_samples_per_second": 17.52,
+      "eval_steps_per_second": 4.38,
+      "eval_wer": 0.19033695349484822,
+      "step": 7500
+    },
+    {
+      "epoch": 22.028985507246375,
+      "grad_norm": 0.5453273057937622,
+      "learning_rate": 0.000186964824120603,
+      "loss": 0.2271,
+      "step": 7600
+    },
+    {
+      "epoch": 22.028985507246375,
+      "eval_loss": 0.20491968095302582,
+      "eval_runtime": 153.1957,
+      "eval_samples_per_second": 16.998,
+      "eval_steps_per_second": 4.249,
+      "eval_wer": 0.1892628396387795,
+      "step": 7600
+    },
+    {
+      "epoch": 22.318840579710145,
+      "grad_norm": 0.42996543645858765,
+      "learning_rate": 0.00018545728643216077,
+      "loss": 0.2232,
+      "step": 7700
+    },
+    {
+      "epoch": 22.318840579710145,
+      "eval_loss": 0.20111997425556183,
+      "eval_runtime": 149.8154,
+      "eval_samples_per_second": 17.381,
+      "eval_steps_per_second": 4.345,
+      "eval_wer": 0.18699526594263435,
+      "step": 7700
+    },
+    {
+      "epoch": 22.608695652173914,
+      "grad_norm": 0.559751033782959,
+      "learning_rate": 0.00018394974874371857,
+      "loss": 0.217,
+      "step": 7800
+    },
+    {
+      "epoch": 22.608695652173914,
+      "eval_loss": 0.20821848511695862,
+      "eval_runtime": 149.8048,
+      "eval_samples_per_second": 17.383,
+      "eval_steps_per_second": 4.346,
+      "eval_wer": 0.1867963559692883,
+      "step": 7800
+    },
+    {
+      "epoch": 22.89855072463768,
+      "grad_norm": 0.5080951452255249,
+      "learning_rate": 0.00018245728643216078,
+      "loss": 0.2279,
+      "step": 7900
+    },
+    {
+      "epoch": 22.89855072463768,
+      "eval_loss": 0.20747588574886322,
+      "eval_runtime": 148.8562,
+      "eval_samples_per_second": 17.493,
+      "eval_steps_per_second": 4.373,
+      "eval_wer": 0.188327962764053,
+      "step": 7900
+    },
+    {
+      "epoch": 23.18840579710145,
+      "grad_norm": 0.5432471036911011,
+      "learning_rate": 0.0001809497487437186,
+      "loss": 0.2227,
+      "step": 8000
+    },
+    {
+      "epoch": 23.18840579710145,
+      "eval_loss": 0.20593281090259552,
+      "eval_runtime": 148.78,
+      "eval_samples_per_second": 17.502,
+      "eval_steps_per_second": 4.376,
+      "eval_wer": 0.18407128933444722,
+      "step": 8000
+    },
+    {
+      "epoch": 23.47826086956522,
+      "grad_norm": 0.45922884345054626,
+      "learning_rate": 0.00017944221105527637,
+      "loss": 0.2123,
+      "step": 8100
+    },
+    {
+      "epoch": 23.47826086956522,
+      "eval_loss": 0.2026965320110321,
+      "eval_runtime": 148.8956,
+      "eval_samples_per_second": 17.489,
+      "eval_steps_per_second": 4.372,
+      "eval_wer": 0.18202251660898278,
+      "step": 8100
+    },
+    {
+      "epoch": 23.768115942028984,
+      "grad_norm": 0.5219236612319946,
+      "learning_rate": 0.00017793467336683417,
+      "loss": 0.2173,
+      "step": 8200
+    },
+    {
+      "epoch": 23.768115942028984,
+      "eval_loss": 0.20592840015888214,
+      "eval_runtime": 149.7695,
+      "eval_samples_per_second": 17.387,
+      "eval_steps_per_second": 4.347,
+      "eval_wer": 0.18204240760631737,
+      "step": 8200
+    },
+    {
+      "epoch": 24.057971014492754,
+      "grad_norm": 0.49628207087516785,
+      "learning_rate": 0.00017642713567839194,
+      "loss": 0.2134,
+      "step": 8300
+    },
+    {
+      "epoch": 24.057971014492754,
+      "eval_loss": 0.2052663117647171,
+      "eval_runtime": 149.7801,
+      "eval_samples_per_second": 17.385,
+      "eval_steps_per_second": 4.346,
+      "eval_wer": 0.18166447865695987,
+      "step": 8300
+    },
+    {
+      "epoch": 24.347826086956523,
+      "grad_norm": 0.521787166595459,
+      "learning_rate": 0.0001749195979899497,
+      "loss": 0.2092,
+      "step": 8400
+    },
+    {
+      "epoch": 24.347826086956523,
+      "eval_loss": 0.2022761106491089,
+      "eval_runtime": 149.3054,
+      "eval_samples_per_second": 17.441,
+      "eval_steps_per_second": 4.36,
+      "eval_wer": 0.17699009428332738,
+      "step": 8400
+    },
+    {
+      "epoch": 24.63768115942029,
+      "grad_norm": 0.4815770387649536,
+      "learning_rate": 0.00017341206030150753,
+      "loss": 0.2097,
+      "step": 8500
+    },
+    {
+      "epoch": 24.63768115942029,
+      "eval_loss": 0.20263001322746277,
+      "eval_runtime": 150.3389,
+      "eval_samples_per_second": 17.321,
+      "eval_steps_per_second": 4.33,
+      "eval_wer": 0.18001352587818753,
+      "step": 8500
+    },
+    {
+      "epoch": 24.92753623188406,
+      "grad_norm": 0.4982714056968689,
+      "learning_rate": 0.00017190452261306533,
+      "loss": 0.2199,
+      "step": 8600
+    },
+    {
+      "epoch": 24.92753623188406,
+      "eval_loss": 0.20027528703212738,
+      "eval_runtime": 149.586,
+      "eval_samples_per_second": 17.408,
+      "eval_steps_per_second": 4.352,
+      "eval_wer": 0.1743048096431555,
+      "step": 8600
+    },
+    {
+      "epoch": 25.217391304347824,
+      "grad_norm": 0.5470702648162842,
+      "learning_rate": 0.0001703969849246231,
+      "loss": 0.2059,
+      "step": 8700
+    },
+    {
+      "epoch": 25.217391304347824,
+      "eval_loss": 0.20195870101451874,
+      "eval_runtime": 150.6367,
+      "eval_samples_per_second": 17.287,
+      "eval_steps_per_second": 4.322,
+      "eval_wer": 0.17754704220869635,
+      "step": 8700
+    },
+    {
+      "epoch": 25.507246376811594,
+      "grad_norm": 0.4693375825881958,
+      "learning_rate": 0.0001688894472361809,
+      "loss": 0.2058,
+      "step": 8800
+    },
+    {
+      "epoch": 25.507246376811594,
+      "eval_loss": 0.19962410628795624,
+      "eval_runtime": 149.5537,
+      "eval_samples_per_second": 17.412,
+      "eval_steps_per_second": 4.353,
+      "eval_wer": 0.17627401837928153,
+      "step": 8800
+    },
+    {
+      "epoch": 25.797101449275363,
+      "grad_norm": 0.6513779759407043,
+      "learning_rate": 0.00016738190954773867,
+      "loss": 0.2048,
+      "step": 8900
+    },
+    {
+      "epoch": 25.797101449275363,
+      "eval_loss": 0.19703231751918793,
+      "eval_runtime": 150.269,
+      "eval_samples_per_second": 17.329,
+      "eval_steps_per_second": 4.332,
+      "eval_wer": 0.17792497115805386,
+      "step": 8900
+    },
+    {
+      "epoch": 26.08695652173913,
+      "grad_norm": 0.6113376617431641,
+      "learning_rate": 0.0001658743718592965,
+      "loss": 0.207,
+      "step": 9000
+    },
+    {
+      "epoch": 26.08695652173913,
+      "eval_loss": 0.19729487597942352,
+      "eval_runtime": 149.9591,
+      "eval_samples_per_second": 17.365,
+      "eval_steps_per_second": 4.341,
+      "eval_wer": 0.1733301507737598,
+      "step": 9000
+    },
+    {
+      "epoch": 26.3768115942029,
+      "grad_norm": 0.4407137930393219,
+      "learning_rate": 0.00016436683417085426,
+      "loss": 0.2024,
+      "step": 9100
+    },
+    {
+      "epoch": 26.3768115942029,
+      "eval_loss": 0.19801633059978485,
+      "eval_runtime": 150.9313,
+      "eval_samples_per_second": 17.253,
+      "eval_steps_per_second": 4.313,
+      "eval_wer": 0.17506066754187055,
+      "step": 9100
+    },
+    {
+      "epoch": 26.666666666666668,
+      "grad_norm": 0.5502184629440308,
+      "learning_rate": 0.00016285929648241206,
+      "loss": 0.2049,
+      "step": 9200
+    },
+    {
+      "epoch": 26.666666666666668,
+      "eval_loss": 0.19622650742530823,
+      "eval_runtime": 150.3185,
+      "eval_samples_per_second": 17.323,
+      "eval_steps_per_second": 4.331,
+      "eval_wer": 0.17187810796833353,
+      "step": 9200
+    },
+    {
+      "epoch": 26.956521739130434,
+      "grad_norm": 0.5984034538269043,
+      "learning_rate": 0.00016135175879396983,
+      "loss": 0.1991,
+      "step": 9300
+    },
+    {
+      "epoch": 26.956521739130434,
+      "eval_loss": 0.19447383284568787,
+      "eval_runtime": 149.7796,
+      "eval_samples_per_second": 17.386,
+      "eval_steps_per_second": 4.346,
+      "eval_wer": 0.17193778096033735,
+      "step": 9300
+    },
+    {
+      "epoch": 27.246376811594203,
+      "grad_norm": 0.556126594543457,
+      "learning_rate": 0.00015984422110552763,
+      "loss": 0.209,
+      "step": 9400
+    },
+    {
+      "epoch": 27.246376811594203,
+      "eval_loss": 0.19995641708374023,
+      "eval_runtime": 149.7895,
+      "eval_samples_per_second": 17.384,
+      "eval_steps_per_second": 4.346,
+      "eval_wer": 0.1742849186458209,
+      "step": 9400
+    },
+    {
+      "epoch": 27.536231884057973,
+      "grad_norm": 0.5679728984832764,
+      "learning_rate": 0.0001583366834170854,
+      "loss": 0.1993,
+      "step": 9500
+    },
+    {
+      "epoch": 27.536231884057973,
+      "eval_loss": 0.19617217779159546,
+      "eval_runtime": 150.0128,
+      "eval_samples_per_second": 17.359,
+      "eval_steps_per_second": 4.34,
+      "eval_wer": 0.17446393762183235,
+      "step": 9500
+    },
+    {
+      "epoch": 27.82608695652174,
+      "grad_norm": 0.5760718584060669,
+      "learning_rate": 0.00015682914572864322,
+      "loss": 0.1961,
+      "step": 9600
+    },
+    {
+      "epoch": 27.82608695652174,
+      "eval_loss": 0.2008921355009079,
+      "eval_runtime": 149.6147,
+      "eval_samples_per_second": 17.405,
+      "eval_steps_per_second": 4.351,
+      "eval_wer": 0.17265385686438317,
+      "step": 9600
+    },
+    {
+      "epoch": 28.115942028985508,
+      "grad_norm": 0.4592433571815491,
+      "learning_rate": 0.000155321608040201,
+      "loss": 0.2005,
+      "step": 9700
+    },
+    {
+      "epoch": 28.115942028985508,
+      "eval_loss": 0.19731920957565308,
+      "eval_runtime": 150.014,
+      "eval_samples_per_second": 17.358,
+      "eval_steps_per_second": 4.34,
+      "eval_wer": 0.17235549190436408,
+      "step": 9700
+    },
+    {
+      "epoch": 28.405797101449274,
+      "grad_norm": 0.613828718662262,
+      "learning_rate": 0.0001538140703517588,
+      "loss": 0.1959,
+      "step": 9800
+    },
+    {
+      "epoch": 28.405797101449274,
+      "eval_loss": 0.19310329854488373,
+      "eval_runtime": 150.0935,
+      "eval_samples_per_second": 17.349,
+      "eval_steps_per_second": 4.337,
+      "eval_wer": 0.16636830170664757,
+      "step": 9800
+    },
+    {
+      "epoch": 28.695652173913043,
+      "grad_norm": 0.42406728863716125,
+      "learning_rate": 0.00015230653266331656,
+      "loss": 0.1976,
+      "step": 9900
+    },
+    {
+      "epoch": 28.695652173913043,
+      "eval_loss": 0.20253592729568481,
+      "eval_runtime": 150.3535,
+      "eval_samples_per_second": 17.319,
+      "eval_steps_per_second": 4.33,
+      "eval_wer": 0.17028682818156501,
+      "step": 9900
+    },
+    {
+      "epoch": 28.985507246376812,
+      "grad_norm": 0.6821871399879456,
+      "learning_rate": 0.00015081407035175877,
+      "loss": 0.1918,
+      "step": 10000
+    },
+    {
+      "epoch": 28.985507246376812,
+      "eval_loss": 0.1978112906217575,
+      "eval_runtime": 150.1656,
+      "eval_samples_per_second": 17.341,
+      "eval_steps_per_second": 4.335,
+      "eval_wer": 0.16933206030950393,
+      "step": 10000
+    },
+    {
+      "epoch": 29.27536231884058,
+      "grad_norm": 0.733881413936615,
+      "learning_rate": 0.00014930653266331657,
+      "loss": 0.1932,
+      "step": 10100
+    },
+    {
+      "epoch": 29.27536231884058,
+      "eval_loss": 0.19511191546916962,
+      "eval_runtime": 150.0272,
+      "eval_samples_per_second": 17.357,
+      "eval_steps_per_second": 4.339,
+      "eval_wer": 0.16714405060269721,
+      "step": 10100
+    },
+    {
+      "epoch": 29.565217391304348,
+      "grad_norm": 0.6013245582580566,
+      "learning_rate": 0.00014779899497487437,
+      "loss": 0.194,
+      "step": 10200
+    },
+    {
+      "epoch": 29.565217391304348,
+      "eval_loss": 0.19978828728199005,
+      "eval_runtime": 150.159,
+      "eval_samples_per_second": 17.342,
+      "eval_steps_per_second": 4.335,
+      "eval_wer": 0.16672633965867048,
+      "step": 10200
+    },
+    {
+      "epoch": 29.855072463768117,
+      "grad_norm": 0.8047321438789368,
+      "learning_rate": 0.00014629145728643214,
+      "loss": 0.1862,
+      "step": 10300
+    },
+    {
+      "epoch": 29.855072463768117,
+      "eval_loss": 0.19975517690181732,
+      "eval_runtime": 150.1129,
+      "eval_samples_per_second": 17.347,
+      "eval_steps_per_second": 4.337,
+      "eval_wer": 0.1674424155627163,
+      "step": 10300
+    },
+    {
+      "epoch": 30.144927536231883,
+      "grad_norm": 1.9314672946929932,
+      "learning_rate": 0.00014478391959798993,
+      "loss": 0.1916,
+      "step": 10400
+    },
+    {
+      "epoch": 30.144927536231883,
+      "eval_loss": 0.20524050295352936,
+      "eval_runtime": 150.327,
+      "eval_samples_per_second": 17.322,
+      "eval_steps_per_second": 4.331,
+      "eval_wer": 0.16610971874129768,
+      "step": 10400
+    },
+    {
+      "epoch": 30.434782608695652,
+      "grad_norm": 1.7343331575393677,
+      "learning_rate": 0.00014327638190954773,
+      "loss": 0.1945,
+      "step": 10500
+    },
+    {
+      "epoch": 30.434782608695652,
+      "eval_loss": 0.19761110842227936,
+      "eval_runtime": 150.5791,
+      "eval_samples_per_second": 17.293,
+      "eval_steps_per_second": 4.323,
+      "eval_wer": 0.16513505987190197,
+      "step": 10500
+    },
+    {
+      "epoch": 30.72463768115942,
+      "grad_norm": 1.779826283454895,
+      "learning_rate": 0.00014176884422110553,
+      "loss": 0.1864,
+      "step": 10600
+    },
+    {
+      "epoch": 30.72463768115942,
+      "eval_loss": 0.20148740708827972,
+      "eval_runtime": 150.4391,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.327,
+      "eval_wer": 0.1651549508692366,
+      "step": 10600
+    },
+    {
+      "epoch": 31.014492753623188,
+      "grad_norm": 0.46111172437667847,
+      "learning_rate": 0.0001402613065326633,
+      "loss": 0.1887,
+      "step": 10700
+    },
+    {
+      "epoch": 31.014492753623188,
+      "eval_loss": 0.19817914068698883,
+      "eval_runtime": 149.7345,
+      "eval_samples_per_second": 17.391,
+      "eval_steps_per_second": 4.348,
+      "eval_wer": 0.16451843895452917,
+      "step": 10700
+    },
+    {
+      "epoch": 31.304347826086957,
+      "grad_norm": 0.4922316074371338,
+      "learning_rate": 0.0001387537688442211,
+      "loss": 0.1871,
+      "step": 10800
+    },
+    {
+      "epoch": 31.304347826086957,
+      "eval_loss": 0.20190125703811646,
+      "eval_runtime": 150.4015,
+      "eval_samples_per_second": 17.314,
+      "eval_steps_per_second": 4.328,
+      "eval_wer": 0.16599037275729006,
+      "step": 10800
+    },
+    {
+      "epoch": 31.594202898550726,
+      "grad_norm": 0.5234766602516174,
+      "learning_rate": 0.0001372462311557789,
+      "loss": 0.1913,
+      "step": 10900
+    },
+    {
+      "epoch": 31.594202898550726,
+      "eval_loss": 0.2058933973312378,
+      "eval_runtime": 150.6356,
+      "eval_samples_per_second": 17.287,
+      "eval_steps_per_second": 4.322,
+      "eval_wer": 0.16784023550940844,
+      "step": 10900
+    },
+    {
+      "epoch": 31.884057971014492,
+      "grad_norm": 0.5543705224990845,
+      "learning_rate": 0.00013573869346733666,
+      "loss": 0.1937,
+      "step": 11000
+    },
+    {
+      "epoch": 31.884057971014492,
+      "eval_loss": 0.19291311502456665,
+      "eval_runtime": 149.9941,
+      "eval_samples_per_second": 17.361,
+      "eval_steps_per_second": 4.34,
+      "eval_wer": 0.1636830170664757,
+      "step": 11000
+    },
+    {
+      "epoch": 32.17391304347826,
+      "grad_norm": 0.5391444563865662,
+      "learning_rate": 0.00013423115577889446,
+      "loss": 0.1813,
+      "step": 11100
+    },
+    {
+      "epoch": 32.17391304347826,
+      "eval_loss": 0.200283020734787,
+      "eval_runtime": 150.1119,
+      "eval_samples_per_second": 17.347,
+      "eval_steps_per_second": 4.337,
+      "eval_wer": 0.1646576759358714,
+      "step": 11100
+    },
+    {
+      "epoch": 32.46376811594203,
+      "grad_norm": 0.6253378391265869,
+      "learning_rate": 0.00013272361809045226,
+      "loss": 0.1838,
+      "step": 11200
+    },
+    {
+      "epoch": 32.46376811594203,
+      "eval_loss": 0.20407435297966003,
+      "eval_runtime": 149.6169,
+      "eval_samples_per_second": 17.404,
+      "eval_steps_per_second": 4.351,
+      "eval_wer": 0.16593069976528624,
+      "step": 11200
+    },
+    {
+      "epoch": 32.7536231884058,
+      "grad_norm": 0.8853746652603149,
+      "learning_rate": 0.00013121608040201003,
+      "loss": 0.1815,
+      "step": 11300
+    },
+    {
+      "epoch": 32.7536231884058,
+      "eval_loss": 0.19644393026828766,
+      "eval_runtime": 151.2753,
+      "eval_samples_per_second": 17.214,
+      "eval_steps_per_second": 4.303,
+      "eval_wer": 0.16155468035167284,
+      "step": 11300
+    },
+    {
+      "epoch": 33.04347826086956,
+      "grad_norm": 0.6834578514099121,
+      "learning_rate": 0.00012970854271356782,
+      "loss": 0.1843,
+      "step": 11400
+    },
+    {
+      "epoch": 33.04347826086956,
+      "eval_loss": 0.20076803863048553,
+      "eval_runtime": 150.4942,
+      "eval_samples_per_second": 17.303,
+      "eval_steps_per_second": 4.326,
+      "eval_wer": 0.16308628714643753,
+      "step": 11400
+    },
+    {
+      "epoch": 33.333333333333336,
+      "grad_norm": 0.5597058534622192,
+      "learning_rate": 0.00012820100502512562,
+      "loss": 0.1831,
+      "step": 11500
+    },
+    {
+      "epoch": 33.333333333333336,
+      "eval_loss": 0.20445819199085236,
+      "eval_runtime": 150.129,
+      "eval_samples_per_second": 17.345,
+      "eval_steps_per_second": 4.336,
+      "eval_wer": 0.16370290806381033,
+      "step": 11500
+    },
+    {
+      "epoch": 33.6231884057971,
+      "grad_norm": 0.6372693181037903,
+      "learning_rate": 0.00012669346733668342,
+      "loss": 0.1823,
+      "step": 11600
+    },
+    {
+      "epoch": 33.6231884057971,
+      "eval_loss": 0.19614148139953613,
+      "eval_runtime": 150.5634,
+      "eval_samples_per_second": 17.295,
+      "eval_steps_per_second": 4.324,
+      "eval_wer": 0.1632851971197836,
+      "step": 11600
+    },
+    {
+      "epoch": 33.91304347826087,
+      "grad_norm": 0.6953226327896118,
+      "learning_rate": 0.0001251859296482412,
+      "loss": 0.1825,
+      "step": 11700
+    },
+    {
+      "epoch": 33.91304347826087,
+      "eval_loss": 0.200005903840065,
+      "eval_runtime": 150.8381,
+      "eval_samples_per_second": 17.264,
+      "eval_steps_per_second": 4.316,
+      "eval_wer": 0.16511516887456737,
+      "step": 11700
+    },
+    {
+      "epoch": 34.20289855072464,
+      "grad_norm": 0.581469714641571,
+      "learning_rate": 0.00012367839195979899,
+      "loss": 0.1809,
+      "step": 11800
+    },
+    {
+      "epoch": 34.20289855072464,
+      "eval_loss": 0.19282744824886322,
+      "eval_runtime": 150.9011,
+      "eval_samples_per_second": 17.256,
+      "eval_steps_per_second": 4.314,
+      "eval_wer": 0.16153478935433824,
+      "step": 11800
+    },
+    {
+      "epoch": 34.492753623188406,
+      "grad_norm": 0.5484752058982849,
+      "learning_rate": 0.00012217085427135678,
+      "loss": 0.1841,
+      "step": 11900
+    },
+    {
+      "epoch": 34.492753623188406,
+      "eval_loss": 0.19993117451667786,
+      "eval_runtime": 150.2778,
+      "eval_samples_per_second": 17.328,
+      "eval_steps_per_second": 4.332,
+      "eval_wer": 0.16378247205314875,
+      "step": 11900
+    },
+    {
+      "epoch": 34.78260869565217,
+      "grad_norm": 0.7815059423446655,
+      "learning_rate": 0.00012066331658291455,
+      "loss": 0.1757,
+      "step": 12000
+    },
+    {
+      "epoch": 34.78260869565217,
+      "eval_loss": 0.2015853375196457,
+      "eval_runtime": 150.5729,
+      "eval_samples_per_second": 17.294,
+      "eval_steps_per_second": 4.323,
+      "eval_wer": 0.16306639614910293,
+      "step": 12000
+    },
+    {
+      "epoch": 35.072463768115945,
+      "grad_norm": 0.5722095966339111,
+      "learning_rate": 0.00011915577889447236,
+      "loss": 0.1873,
+      "step": 12100
+    },
+    {
+      "epoch": 35.072463768115945,
+      "eval_loss": 0.1939040720462799,
+      "eval_runtime": 151.4034,
+      "eval_samples_per_second": 17.199,
+      "eval_steps_per_second": 4.3,
+      "eval_wer": 0.16028165652225804,
+      "step": 12100
+    },
+    {
+      "epoch": 35.36231884057971,
+      "grad_norm": 0.4075194001197815,
+      "learning_rate": 0.00011764824120603015,
+      "loss": 0.1735,
+      "step": 12200
+    },
+    {
+      "epoch": 35.36231884057971,
+      "eval_loss": 0.1967676430940628,
+      "eval_runtime": 150.192,
+      "eval_samples_per_second": 17.338,
+      "eval_steps_per_second": 4.334,
+      "eval_wer": 0.1589091777061702,
+      "step": 12200
+    },
+    {
+      "epoch": 35.65217391304348,
+      "grad_norm": 0.6874520182609558,
+      "learning_rate": 0.00011614070351758792,
+      "loss": 0.1751,
+      "step": 12300
+    },
+    {
+      "epoch": 35.65217391304348,
+      "eval_loss": 0.19623582065105438,
+      "eval_runtime": 150.5346,
+      "eval_samples_per_second": 17.298,
+      "eval_steps_per_second": 4.325,
+      "eval_wer": 0.1589290687035048,
+      "step": 12300
+    },
+    {
+      "epoch": 35.94202898550725,
+      "grad_norm": 0.5243326425552368,
+      "learning_rate": 0.00011463316582914573,
+      "loss": 0.1763,
+      "step": 12400
+    },
+    {
+      "epoch": 35.94202898550725,
+      "eval_loss": 0.1922197937965393,
+      "eval_runtime": 150.9274,
+      "eval_samples_per_second": 17.253,
+      "eval_steps_per_second": 4.313,
+      "eval_wer": 0.1573775709114055,
+      "step": 12400
+    },
+    {
+      "epoch": 36.231884057971016,
+      "grad_norm": 0.4569384455680847,
+      "learning_rate": 0.00011312562814070351,
+      "loss": 0.1819,
+      "step": 12500
+    },
+    {
+      "epoch": 36.231884057971016,
+      "eval_loss": 0.19286799430847168,
+      "eval_runtime": 150.6138,
+      "eval_samples_per_second": 17.289,
+      "eval_steps_per_second": 4.322,
+      "eval_wer": 0.158312447786132,
+      "step": 12500
+    },
+    {
+      "epoch": 36.52173913043478,
+      "grad_norm": 0.4915807843208313,
+      "learning_rate": 0.00011161809045226128,
+      "loss": 0.1732,
+      "step": 12600
+    },
+    {
+      "epoch": 36.52173913043478,
+      "eval_loss": 0.19591785967350006,
+      "eval_runtime": 150.6206,
+      "eval_samples_per_second": 17.288,
+      "eval_steps_per_second": 4.322,
+      "eval_wer": 0.15690018697537494,
+      "step": 12600
+    },
+    {
+      "epoch": 36.81159420289855,
+      "grad_norm": 0.5279297232627869,
+      "learning_rate": 0.0001101105527638191,
+      "loss": 0.1716,
+      "step": 12700
+    },
+    {
+      "epoch": 36.81159420289855,
+      "eval_loss": 0.19358539581298828,
+      "eval_runtime": 149.8266,
+      "eval_samples_per_second": 17.38,
+      "eval_steps_per_second": 4.345,
+      "eval_wer": 0.15692007797270954,
+      "step": 12700
+    },
+    {
+      "epoch": 37.10144927536232,
+      "grad_norm": 0.514346718788147,
+      "learning_rate": 0.00010860301507537686,
+      "loss": 0.1718,
+      "step": 12800
+    },
+    {
+      "epoch": 37.10144927536232,
+      "eval_loss": 0.19505684077739716,
+      "eval_runtime": 150.4836,
+      "eval_samples_per_second": 17.304,
+      "eval_steps_per_second": 4.326,
+      "eval_wer": 0.15747702589807852,
+      "step": 12800
+    },
+    {
+      "epoch": 37.391304347826086,
+      "grad_norm": 0.534958004951477,
+      "learning_rate": 0.00010709547738693467,
+      "loss": 0.1688,
+      "step": 12900
+    },
+    {
+      "epoch": 37.391304347826086,
+      "eval_loss": 0.19502244889736176,
+      "eval_runtime": 150.9887,
+      "eval_samples_per_second": 17.246,
+      "eval_steps_per_second": 4.312,
+      "eval_wer": 0.15809364681545132,
+      "step": 12900
+    },
+    {
+      "epoch": 37.68115942028985,
+      "grad_norm": 0.5444557070732117,
+      "learning_rate": 0.00010558793969849246,
+      "loss": 0.171,
+      "step": 13000
+    },
+    {
+      "epoch": 37.68115942028985,
+      "eval_loss": 0.19441960752010345,
+      "eval_runtime": 151.1091,
+      "eval_samples_per_second": 17.233,
+      "eval_steps_per_second": 4.308,
+      "eval_wer": 0.1567410589966981,
+      "step": 13000
+    },
+    {
+      "epoch": 37.971014492753625,
+      "grad_norm": 0.5509995222091675,
+      "learning_rate": 0.00010408040201005023,
+      "loss": 0.1732,
+      "step": 13100
+    },
+    {
+      "epoch": 37.971014492753625,
+      "eval_loss": 0.19966420531272888,
+      "eval_runtime": 150.8532,
+      "eval_samples_per_second": 17.262,
+      "eval_steps_per_second": 4.315,
+      "eval_wer": 0.1586307037434857,
+      "step": 13100
+    },
+    {
+      "epoch": 38.26086956521739,
+      "grad_norm": 1.5159767866134644,
+      "learning_rate": 0.00010257286432160804,
+      "loss": 0.1646,
+      "step": 13200
+    },
+    {
+      "epoch": 38.26086956521739,
+      "eval_loss": 0.19946832954883575,
+      "eval_runtime": 150.9123,
+      "eval_samples_per_second": 17.255,
+      "eval_steps_per_second": 4.314,
+      "eval_wer": 0.16034132951426183,
+      "step": 13200
+    },
+    {
+      "epoch": 38.55072463768116,
+      "grad_norm": 0.5519012808799744,
+      "learning_rate": 0.00010106532663316582,
+      "loss": 0.1775,
+      "step": 13300
+    },
+    {
+      "epoch": 38.55072463768116,
+      "eval_loss": 0.19182883203029633,
+      "eval_runtime": 150.2357,
+      "eval_samples_per_second": 17.333,
+      "eval_steps_per_second": 4.333,
+      "eval_wer": 0.15670127700202888,
+      "step": 13300
+    },
+    {
+      "epoch": 38.84057971014493,
+      "grad_norm": 0.6432836651802063,
+      "learning_rate": 9.955778894472362e-05,
+      "loss": 0.1702,
+      "step": 13400
+    },
+    {
+      "epoch": 38.84057971014493,
+      "eval_loss": 0.1931132823228836,
+      "eval_runtime": 150.1239,
+      "eval_samples_per_second": 17.346,
+      "eval_steps_per_second": 4.336,
+      "eval_wer": 0.15606476508732148,
+      "step": 13400
+    },
+    {
+      "epoch": 39.130434782608695,
+      "grad_norm": 0.8637715578079224,
+      "learning_rate": 9.80502512562814e-05,
+      "loss": 0.1683,
+      "step": 13500
+    },
+    {
+      "epoch": 39.130434782608695,
+      "eval_loss": 0.20001940429210663,
+      "eval_runtime": 150.2986,
+      "eval_samples_per_second": 17.326,
+      "eval_steps_per_second": 4.331,
+      "eval_wer": 0.1580140828261129,
+      "step": 13500
+    },
+    {
+      "epoch": 39.42028985507246,
+      "grad_norm": 0.8066322207450867,
+      "learning_rate": 9.654271356783919e-05,
+      "loss": 0.164,
+      "step": 13600
+    },
+    {
+      "epoch": 39.42028985507246,
+      "eval_loss": 0.1947360634803772,
+      "eval_runtime": 150.9523,
+      "eval_samples_per_second": 17.25,
+      "eval_steps_per_second": 4.313,
+      "eval_wer": 0.15469228627123363,
+      "step": 13600
+    },
+    {
+      "epoch": 39.710144927536234,
+      "grad_norm": 0.522996723651886,
+      "learning_rate": 9.503517587939698e-05,
+      "loss": 0.1683,
+      "step": 13700
+    },
+    {
+      "epoch": 39.710144927536234,
+      "eval_loss": 0.19472628831863403,
+      "eval_runtime": 150.4547,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 4.327,
+      "eval_wer": 0.1561443290766599,
+      "step": 13700
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 1.0164830684661865,
+      "learning_rate": 9.352763819095477e-05,
+      "loss": 0.1694,
+      "step": 13800
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 0.19553135335445404,
+      "eval_runtime": 154.0901,
+      "eval_samples_per_second": 16.899,
+      "eval_steps_per_second": 4.225,
+      "eval_wer": 0.1548514142499105,
+      "step": 13800
+    },
+    {
+      "epoch": 40.289855072463766,
+      "grad_norm": 1.6812098026275635,
+      "learning_rate": 9.202010050251257e-05,
+      "loss": 0.1683,
+      "step": 13900
+    },
+    {
+      "epoch": 40.289855072463766,
+      "eval_loss": 0.1967693269252777,
+      "eval_runtime": 149.7768,
+      "eval_samples_per_second": 17.386,
+      "eval_steps_per_second": 4.346,
+      "eval_wer": 0.1577356088634284,
+      "step": 13900
+    },
+    {
+      "epoch": 40.57971014492754,
+      "grad_norm": 0.9731245040893555,
+      "learning_rate": 9.052763819095476e-05,
+      "loss": 0.1689,
+      "step": 14000
+    },
+    {
+      "epoch": 40.57971014492754,
+      "eval_loss": 0.19680753350257874,
+      "eval_runtime": 151.1604,
+      "eval_samples_per_second": 17.227,
+      "eval_steps_per_second": 4.307,
+      "eval_wer": 0.15475195926323745,
+      "step": 14000
+    },
+    {
+      "epoch": 40.869565217391305,
+      "grad_norm": 1.847554326057434,
+      "learning_rate": 8.903517587939697e-05,
+      "loss": 0.1678,
+      "step": 14100
+    },
+    {
+      "epoch": 40.869565217391305,
+      "eval_loss": 0.201131209731102,
+      "eval_runtime": 150.5156,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.325,
+      "eval_wer": 0.15664160401002505,
+      "step": 14100
+    },
+    {
+      "epoch": 41.15942028985507,
+      "grad_norm": 0.4787213206291199,
+      "learning_rate": 8.752763819095477e-05,
+      "loss": 0.1626,
+      "step": 14200
+    },
+    {
+      "epoch": 41.15942028985507,
+      "eval_loss": 0.19733218848705292,
+      "eval_runtime": 150.8887,
+      "eval_samples_per_second": 17.258,
+      "eval_steps_per_second": 4.314,
+      "eval_wer": 0.15355849942316108,
+      "step": 14200
+    },
+    {
+      "epoch": 41.44927536231884,
+      "grad_norm": 0.6790758371353149,
+      "learning_rate": 8.602010050251256e-05,
+      "loss": 0.1677,
+      "step": 14300
+    },
+    {
+      "epoch": 41.44927536231884,
+      "eval_loss": 0.19702668488025665,
+      "eval_runtime": 150.5236,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.325,
+      "eval_wer": 0.1535982814178303,
+      "step": 14300
+    },
+    {
+      "epoch": 41.73913043478261,
+      "grad_norm": 0.4391827881336212,
+      "learning_rate": 8.451256281407034e-05,
+      "loss": 0.1643,
+      "step": 14400
+    },
+    {
+      "epoch": 41.73913043478261,
+      "eval_loss": 0.19612571597099304,
+      "eval_runtime": 150.1133,
+      "eval_samples_per_second": 17.347,
+      "eval_steps_per_second": 4.337,
+      "eval_wer": 0.15419501133786848,
+      "step": 14400
+    },
+    {
+      "epoch": 42.028985507246375,
+      "grad_norm": 0.5288633108139038,
+      "learning_rate": 8.300502512562814e-05,
+      "loss": 0.1632,
+      "step": 14500
+    },
+    {
+      "epoch": 42.028985507246375,
+      "eval_loss": 0.19461919367313385,
+      "eval_runtime": 150.447,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 4.327,
+      "eval_wer": 0.15477185026057205,
+      "step": 14500
+    },
+    {
+      "epoch": 42.31884057971015,
+      "grad_norm": 0.5337244272232056,
+      "learning_rate": 8.149748743718592e-05,
+      "loss": 0.1648,
+      "step": 14600
+    },
+    {
+      "epoch": 42.31884057971015,
+      "eval_loss": 0.20134814083576202,
+      "eval_runtime": 149.9106,
+      "eval_samples_per_second": 17.37,
+      "eval_steps_per_second": 4.343,
+      "eval_wer": 0.15572661813263317,
+      "step": 14600
+    },
+    {
+      "epoch": 42.608695652173914,
+      "grad_norm": 0.4042835533618927,
+      "learning_rate": 7.99899497487437e-05,
+      "loss": 0.1681,
+      "step": 14700
+    },
+    {
+      "epoch": 42.608695652173914,
+      "eval_loss": 0.18993638455867767,
+      "eval_runtime": 150.6382,
+      "eval_samples_per_second": 17.286,
+      "eval_steps_per_second": 4.322,
+      "eval_wer": 0.15341926244181883,
+      "step": 14700
+    },
+    {
+      "epoch": 42.89855072463768,
+      "grad_norm": 0.46454140543937683,
+      "learning_rate": 7.84824120603015e-05,
+      "loss": 0.1632,
+      "step": 14800
+    },
+    {
+      "epoch": 42.89855072463768,
+      "eval_loss": 0.19958487153053284,
+      "eval_runtime": 150.1539,
+      "eval_samples_per_second": 17.342,
+      "eval_steps_per_second": 4.336,
+      "eval_wer": 0.15421490233520307,
+      "step": 14800
+    },
+    {
+      "epoch": 43.18840579710145,
+      "grad_norm": 0.5660408735275269,
+      "learning_rate": 7.697487437185928e-05,
+      "loss": 0.1635,
+      "step": 14900
+    },
+    {
+      "epoch": 43.18840579710145,
+      "eval_loss": 0.19778329133987427,
+      "eval_runtime": 150.7927,
+      "eval_samples_per_second": 17.269,
+      "eval_steps_per_second": 4.317,
+      "eval_wer": 0.1536380634124995,
+      "step": 14900
+    },
+    {
+      "epoch": 43.47826086956522,
+      "grad_norm": 0.5456855893135071,
+      "learning_rate": 7.546733668341708e-05,
+      "loss": 0.1592,
+      "step": 15000
+    },
+    {
+      "epoch": 43.47826086956522,
+      "eval_loss": 0.20038050413131714,
+      "eval_runtime": 150.9242,
+      "eval_samples_per_second": 17.254,
+      "eval_steps_per_second": 4.313,
+      "eval_wer": 0.1530015514977921,
+      "step": 15000
+    },
+    {
+      "epoch": 43.768115942028984,
+      "grad_norm": 0.4355134963989258,
+      "learning_rate": 7.395979899497487e-05,
+      "loss": 0.1624,
+      "step": 15100
+    },
+    {
+      "epoch": 43.768115942028984,
+      "eval_loss": 0.19985315203666687,
+      "eval_runtime": 150.4394,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.327,
+      "eval_wer": 0.15546803516728327,
+      "step": 15100
+    },
+    {
+      "epoch": 44.05797101449275,
+      "grad_norm": 0.5090399384498596,
+      "learning_rate": 7.245226130653266e-05,
+      "loss": 0.1637,
+      "step": 15200
+    },
+    {
+      "epoch": 44.05797101449275,
+      "eval_loss": 0.19995567202568054,
+      "eval_runtime": 150.709,
+      "eval_samples_per_second": 17.278,
+      "eval_steps_per_second": 4.32,
+      "eval_wer": 0.15588574611131,
+      "step": 15200
+    },
+    {
+      "epoch": 44.34782608695652,
+      "grad_norm": 0.6206871271133423,
+      "learning_rate": 7.094472361809045e-05,
+      "loss": 0.1583,
+      "step": 15300
+    },
+    {
+      "epoch": 44.34782608695652,
+      "eval_loss": 0.20139965415000916,
+      "eval_runtime": 150.7257,
+      "eval_samples_per_second": 17.276,
+      "eval_steps_per_second": 4.319,
+      "eval_wer": 0.15367784540716872,
+      "step": 15300
+    },
+    {
+      "epoch": 44.63768115942029,
+      "grad_norm": 0.5422778129577637,
+      "learning_rate": 6.943718592964823e-05,
+      "loss": 0.1595,
+      "step": 15400
+    },
+    {
+      "epoch": 44.63768115942029,
+      "eval_loss": 0.19820022583007812,
+      "eval_runtime": 150.8522,
+      "eval_samples_per_second": 17.262,
+      "eval_steps_per_second": 4.315,
+      "eval_wer": 0.15441381230854914,
+      "step": 15400
+    },
+    {
+      "epoch": 44.927536231884055,
+      "grad_norm": 0.5393760800361633,
+      "learning_rate": 6.792964824120603e-05,
+      "loss": 0.164,
+      "step": 15500
+    },
+    {
+      "epoch": 44.927536231884055,
+      "eval_loss": 0.1983390897512436,
+      "eval_runtime": 150.8937,
+      "eval_samples_per_second": 17.257,
+      "eval_steps_per_second": 4.314,
+      "eval_wer": 0.152703186537773,
+      "step": 15500
+    },
+    {
+      "epoch": 45.21739130434783,
+      "grad_norm": 0.5035853385925293,
+      "learning_rate": 6.642211055276381e-05,
+      "loss": 0.158,
+      "step": 15600
+    },
+    {
+      "epoch": 45.21739130434783,
+      "eval_loss": 0.19686628878116608,
+      "eval_runtime": 151.0924,
+      "eval_samples_per_second": 17.234,
+      "eval_steps_per_second": 4.309,
+      "eval_wer": 0.15409555635119546,
+      "step": 15600
+    },
+    {
+      "epoch": 45.507246376811594,
+      "grad_norm": 0.5787107348442078,
+      "learning_rate": 6.491457286432161e-05,
+      "loss": 0.1585,
+      "step": 15700
+    },
+    {
+      "epoch": 45.507246376811594,
+      "eval_loss": 0.2003917545080185,
+      "eval_runtime": 151.9231,
+      "eval_samples_per_second": 17.14,
+      "eval_steps_per_second": 4.285,
+      "eval_wer": 0.15216612960973863,
+      "step": 15700
+    },
+    {
+      "epoch": 45.79710144927536,
+      "grad_norm": 0.6162687540054321,
+      "learning_rate": 6.340703517587939e-05,
+      "loss": 0.1551,
+      "step": 15800
+    },
+    {
+      "epoch": 45.79710144927536,
+      "eval_loss": 0.19759398698806763,
+      "eval_runtime": 150.7462,
+      "eval_samples_per_second": 17.274,
+      "eval_steps_per_second": 4.319,
+      "eval_wer": 0.15117157974300832,
+      "step": 15800
+    },
+    {
+      "epoch": 46.08695652173913,
+      "grad_norm": 0.5009045004844666,
+      "learning_rate": 6.189949748743718e-05,
+      "loss": 0.1583,
+      "step": 15900
+    },
+    {
+      "epoch": 46.08695652173913,
+      "eval_loss": 0.19603191316127777,
+      "eval_runtime": 150.3144,
+      "eval_samples_per_second": 17.324,
+      "eval_steps_per_second": 4.331,
+      "eval_wer": 0.1526435135457692,
+      "step": 15900
+    },
+    {
+      "epoch": 46.3768115942029,
+      "grad_norm": 0.6324445009231567,
+      "learning_rate": 6.0391959798994966e-05,
+      "loss": 0.1587,
+      "step": 16000
+    },
+    {
+      "epoch": 46.3768115942029,
+      "eval_loss": 0.19517464935779572,
+      "eval_runtime": 150.663,
+      "eval_samples_per_second": 17.284,
+      "eval_steps_per_second": 4.321,
+      "eval_wer": 0.15127103472968134,
+      "step": 16000
+    },
+    {
+      "epoch": 46.666666666666664,
+      "grad_norm": 0.5137718319892883,
+      "learning_rate": 5.8899497487437184e-05,
+      "loss": 0.1596,
+      "step": 16100
+    },
+    {
+      "epoch": 46.666666666666664,
+      "eval_loss": 0.19590044021606445,
+      "eval_runtime": 151.0573,
+      "eval_samples_per_second": 17.238,
+      "eval_steps_per_second": 4.31,
+      "eval_wer": 0.15214623861240403,
+      "step": 16100
+    },
+    {
+      "epoch": 46.95652173913044,
+      "grad_norm": 0.46284008026123047,
+      "learning_rate": 5.739195979899497e-05,
+      "loss": 0.1543,
+      "step": 16200
+    },
+    {
+      "epoch": 46.95652173913044,
+      "eval_loss": 0.19321778416633606,
+      "eval_runtime": 149.3218,
+      "eval_samples_per_second": 17.439,
+      "eval_steps_per_second": 4.36,
+      "eval_wer": 0.14880455106019017,
+      "step": 16200
+    },
+    {
+      "epoch": 47.2463768115942,
+      "grad_norm": 0.7941703796386719,
+      "learning_rate": 5.588442211055276e-05,
+      "loss": 0.1559,
+      "step": 16300
+    },
+    {
+      "epoch": 47.2463768115942,
+      "eval_loss": 0.19706296920776367,
+      "eval_runtime": 150.5032,
+      "eval_samples_per_second": 17.302,
+      "eval_steps_per_second": 4.325,
+      "eval_wer": 0.1504753948362971,
+      "step": 16300
+    },
+    {
+      "epoch": 47.53623188405797,
+      "grad_norm": 0.5882352590560913,
+      "learning_rate": 5.437688442211055e-05,
+      "loss": 0.1573,
+      "step": 16400
+    },
+    {
+      "epoch": 47.53623188405797,
+      "eval_loss": 0.19471529126167297,
+      "eval_runtime": 150.1514,
+      "eval_samples_per_second": 17.342,
+      "eval_steps_per_second": 4.336,
+      "eval_wer": 0.15057484982297012,
+      "step": 16400
+    },
+    {
+      "epoch": 47.82608695652174,
+      "grad_norm": 0.4913437068462372,
+      "learning_rate": 5.286934673366834e-05,
+      "loss": 0.1578,
+      "step": 16500
+    },
+    {
+      "epoch": 47.82608695652174,
+      "eval_loss": 0.1927487701177597,
+      "eval_runtime": 150.1261,
+      "eval_samples_per_second": 17.345,
+      "eval_steps_per_second": 4.336,
+      "eval_wer": 0.15039583084695868,
+      "step": 16500
+    },
+    {
+      "epoch": 48.11594202898551,
+      "grad_norm": 0.6036613583564758,
+      "learning_rate": 5.136180904522613e-05,
+      "loss": 0.1541,
+      "step": 16600
+    },
+    {
+      "epoch": 48.11594202898551,
+      "eval_loss": 0.19660724699497223,
+      "eval_runtime": 151.0113,
+      "eval_samples_per_second": 17.244,
+      "eval_steps_per_second": 4.311,
+      "eval_wer": 0.1498985559135935,
+      "step": 16600
+    },
+    {
+      "epoch": 48.405797101449274,
+      "grad_norm": 0.45591381192207336,
+      "learning_rate": 4.985427135678391e-05,
+      "loss": 0.1522,
+      "step": 16700
+    },
+    {
+      "epoch": 48.405797101449274,
+      "eval_loss": 0.19638657569885254,
+      "eval_runtime": 150.2963,
+      "eval_samples_per_second": 17.326,
+      "eval_steps_per_second": 4.331,
+      "eval_wer": 0.14975931893225125,
+      "step": 16700
+    },
+    {
+      "epoch": 48.69565217391305,
+      "grad_norm": 0.5124571323394775,
+      "learning_rate": 4.8346733668341704e-05,
+      "loss": 0.1565,
+      "step": 16800
+    },
+    {
+      "epoch": 48.69565217391305,
+      "eval_loss": 0.19512411952018738,
+      "eval_runtime": 150.989,
+      "eval_samples_per_second": 17.246,
+      "eval_steps_per_second": 4.312,
+      "eval_wer": 0.15009746588693956,
+      "step": 16800
+    },
+    {
+      "epoch": 48.98550724637681,
+      "grad_norm": 0.80686354637146,
+      "learning_rate": 4.6839195979899494e-05,
+      "loss": 0.1522,
+      "step": 16900
+    },
+    {
+      "epoch": 48.98550724637681,
+      "eval_loss": 0.195089191198349,
+      "eval_runtime": 151.6726,
+      "eval_samples_per_second": 17.169,
+      "eval_steps_per_second": 4.292,
+      "eval_wer": 0.14874487806818634,
+      "step": 16900
+    },
+    {
+      "epoch": 49.27536231884058,
+      "grad_norm": 0.5458950400352478,
+      "learning_rate": 4.5331658291457285e-05,
+      "loss": 0.1544,
+      "step": 17000
+    },
+    {
+      "epoch": 49.27536231884058,
+      "eval_loss": 0.19665881991386414,
+      "eval_runtime": 150.3912,
+      "eval_samples_per_second": 17.315,
+      "eval_steps_per_second": 4.329,
+      "eval_wer": 0.1502367028682818,
+      "step": 17000
+    },
+    {
+      "epoch": 49.56521739130435,
+      "grad_norm": 0.7740549445152283,
+      "learning_rate": 4.3824120603015075e-05,
+      "loss": 0.1501,
+      "step": 17100
+    },
+    {
+      "epoch": 49.56521739130435,
+      "eval_loss": 0.19731196761131287,
+      "eval_runtime": 150.5913,
+      "eval_samples_per_second": 17.292,
+      "eval_steps_per_second": 4.323,
+      "eval_wer": 0.14878466006285554,
+      "step": 17100
+    },
+    {
+      "epoch": 49.85507246376812,
+      "grad_norm": 0.72871333360672,
+      "learning_rate": 4.231658291457286e-05,
+      "loss": 0.1556,
+      "step": 17200
+    },
+    {
+      "epoch": 49.85507246376812,
+      "eval_loss": 0.19586071372032166,
+      "eval_runtime": 149.9817,
+      "eval_samples_per_second": 17.362,
+      "eval_steps_per_second": 4.341,
+      "eval_wer": 0.14912280701754385,
+      "step": 17200
+    },
+    {
+      "epoch": 50.14492753623188,
+      "grad_norm": 1.8948681354522705,
+      "learning_rate": 4.080904522613065e-05,
+      "loss": 0.1548,
+      "step": 17300
+    },
+    {
+      "epoch": 50.14492753623188,
+      "eval_loss": 0.19828546047210693,
+      "eval_runtime": 150.304,
+      "eval_samples_per_second": 17.325,
+      "eval_steps_per_second": 4.331,
+      "eval_wer": 0.1501969208736126,
+      "step": 17300
+    },
+    {
+      "epoch": 50.43478260869565,
+      "grad_norm": 1.8404796123504639,
+      "learning_rate": 3.930150753768844e-05,
+      "loss": 0.1532,
+      "step": 17400
+    },
+    {
+      "epoch": 50.43478260869565,
+      "eval_loss": 0.2000737339258194,
+      "eval_runtime": 150.2978,
+      "eval_samples_per_second": 17.326,
+      "eval_steps_per_second": 4.331,
+      "eval_wer": 0.1498985559135935,
+      "step": 17400
+    },
+    {
+      "epoch": 50.72463768115942,
+      "grad_norm": 1.8255242109298706,
+      "learning_rate": 3.779396984924623e-05,
+      "loss": 0.153,
+      "step": 17500
+    },
+    {
+      "epoch": 50.72463768115942,
+      "eval_loss": 0.19718687236309052,
+      "eval_runtime": 150.0456,
+      "eval_samples_per_second": 17.355,
+      "eval_steps_per_second": 4.339,
+      "eval_wer": 0.1498587739189243,
+      "step": 17500
+    },
+    {
+      "epoch": 51.01449275362319,
+      "grad_norm": 0.49974119663238525,
+      "learning_rate": 3.6286432160804014e-05,
+      "loss": 0.1511,
+      "step": 17600
+    },
+    {
+      "epoch": 51.01449275362319,
+      "eval_loss": 0.20012781023979187,
+      "eval_runtime": 150.9723,
+      "eval_samples_per_second": 17.248,
+      "eval_steps_per_second": 4.312,
+      "eval_wer": 0.14938138998289374,
+      "step": 17600
+    },
+    {
+      "epoch": 51.30434782608695,
+      "grad_norm": 0.4928853213787079,
+      "learning_rate": 3.4778894472361804e-05,
+      "loss": 0.1545,
+      "step": 17700
+    },
+    {
+      "epoch": 51.30434782608695,
+      "eval_loss": 0.19761820137500763,
+      "eval_runtime": 151.4411,
+      "eval_samples_per_second": 17.195,
+      "eval_steps_per_second": 4.299,
+      "eval_wer": 0.15061463181763934,
+      "step": 17700
+    },
+    {
+      "epoch": 51.594202898550726,
+      "grad_norm": 0.4174346625804901,
+      "learning_rate": 3.3271356783919595e-05,
+      "loss": 0.151,
+      "step": 17800
+    },
+    {
+      "epoch": 51.594202898550726,
+      "eval_loss": 0.19907838106155396,
+      "eval_runtime": 150.2239,
+      "eval_samples_per_second": 17.334,
+      "eval_steps_per_second": 4.334,
+      "eval_wer": 0.14973942793491665,
+      "step": 17800
+    },
+    {
+      "epoch": 51.88405797101449,
+      "grad_norm": 0.5709109902381897,
+      "learning_rate": 3.1763819095477385e-05,
+      "loss": 0.1513,
+      "step": 17900
+    },
+    {
+      "epoch": 51.88405797101449,
+      "eval_loss": 0.19772109389305115,
+      "eval_runtime": 151.1838,
+      "eval_samples_per_second": 17.224,
+      "eval_steps_per_second": 4.306,
+      "eval_wer": 0.1521263476150694,
+      "step": 17900
+    },
+    {
+      "epoch": 52.17391304347826,
+      "grad_norm": 0.4559178650379181,
+      "learning_rate": 3.0256281407035173e-05,
+      "loss": 0.1555,
+      "step": 18000
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_loss": 0.19882014393806458,
+      "eval_runtime": 150.796,
+      "eval_samples_per_second": 17.268,
+      "eval_steps_per_second": 4.317,
+      "eval_wer": 0.14874487806818634,
+      "step": 18000
+    },
+    {
+      "epoch": 52.46376811594203,
+      "grad_norm": 0.6781191229820251,
+      "learning_rate": 2.8763819095477384e-05,
+      "loss": 0.1483,
+      "step": 18100
+    },
+    {
+      "epoch": 52.46376811594203,
+      "eval_loss": 0.19811075925827026,
+      "eval_runtime": 150.9776,
+      "eval_samples_per_second": 17.248,
+      "eval_steps_per_second": 4.312,
+      "eval_wer": 0.14874487806818634,
+      "step": 18100
+    },
+    {
+      "epoch": 52.7536231884058,
+      "grad_norm": 0.47036242485046387,
+      "learning_rate": 2.7256281407035174e-05,
+      "loss": 0.1498,
+      "step": 18200
+    },
+    {
+      "epoch": 52.7536231884058,
+      "eval_loss": 0.19891373813152313,
+      "eval_runtime": 150.1998,
+      "eval_samples_per_second": 17.337,
+      "eval_steps_per_second": 4.334,
+      "eval_wer": 0.1498985559135935,
+      "step": 18200
+    },
+    {
+      "epoch": 53.04347826086956,
+      "grad_norm": 0.40730613470077515,
+      "learning_rate": 2.574874371859296e-05,
+      "loss": 0.1484,
+      "step": 18300
+    },
+    {
+      "epoch": 53.04347826086956,
+      "eval_loss": 0.19684499502182007,
+      "eval_runtime": 150.5275,
+      "eval_samples_per_second": 17.299,
+      "eval_steps_per_second": 4.325,
+      "eval_wer": 0.14850618610017105,
+      "step": 18300
+    },
+    {
+      "epoch": 53.333333333333336,
+      "grad_norm": 0.5591597557067871,
+      "learning_rate": 2.424120603015075e-05,
+      "loss": 0.1579,
+      "step": 18400
+    },
+    {
+      "epoch": 53.333333333333336,
+      "eval_loss": 0.19650055468082428,
+      "eval_runtime": 150.0643,
+      "eval_samples_per_second": 17.353,
+      "eval_steps_per_second": 4.338,
+      "eval_wer": 0.14876476906552094,
+      "step": 18400
+    },
+    {
+      "epoch": 53.6231884057971,
+      "grad_norm": 0.5747944712638855,
+      "learning_rate": 2.2733668341708542e-05,
+      "loss": 0.1488,
+      "step": 18500
+    },
+    {
+      "epoch": 53.6231884057971,
+      "eval_loss": 0.19772984087467194,
+      "eval_runtime": 150.2351,
+      "eval_samples_per_second": 17.333,
+      "eval_steps_per_second": 4.333,
+      "eval_wer": 0.14844651310816726,
+      "step": 18500
+    },
+    {
+      "epoch": 53.91304347826087,
+      "grad_norm": 0.7890971899032593,
+      "learning_rate": 2.122613065326633e-05,
+      "loss": 0.1465,
+      "step": 18600
+    },
+    {
+      "epoch": 53.91304347826087,
+      "eval_loss": 0.19878774881362915,
+      "eval_runtime": 149.5777,
+      "eval_samples_per_second": 17.409,
+      "eval_steps_per_second": 4.352,
+      "eval_wer": 0.1486255320841787,
+      "step": 18600
+    },
+    {
+      "epoch": 54.20289855072464,
+      "grad_norm": 0.4769749641418457,
+      "learning_rate": 1.971859296482412e-05,
+      "loss": 0.1562,
+      "step": 18700
+    },
+    {
+      "epoch": 54.20289855072464,
+      "eval_loss": 0.19685682654380798,
+      "eval_runtime": 150.394,
+      "eval_samples_per_second": 17.315,
+      "eval_steps_per_second": 4.329,
+      "eval_wer": 0.14842662211083263,
+      "step": 18700
+    },
+    {
+      "epoch": 54.492753623188406,
+      "grad_norm": 0.5691216588020325,
+      "learning_rate": 1.8211055276381907e-05,
+      "loss": 0.1549,
+      "step": 18800
+    },
+    {
+      "epoch": 54.492753623188406,
+      "eval_loss": 0.19770777225494385,
+      "eval_runtime": 153.5999,
+      "eval_samples_per_second": 16.953,
+      "eval_steps_per_second": 4.238,
+      "eval_wer": 0.14810836615347894,
+      "step": 18800
+    },
+    {
+      "epoch": 54.78260869565217,
+      "grad_norm": 0.4381687343120575,
+      "learning_rate": 1.6703517587939697e-05,
+      "loss": 0.1475,
+      "step": 18900
+    },
+    {
+      "epoch": 54.78260869565217,
+      "eval_loss": 0.19628171622753143,
+      "eval_runtime": 154.2596,
+      "eval_samples_per_second": 16.881,
+      "eval_steps_per_second": 4.22,
+      "eval_wer": 0.1479691291721367,
+      "step": 18900
+    },
+    {
+      "epoch": 55.072463768115945,
+      "grad_norm": 0.5168628692626953,
+      "learning_rate": 1.5195979899497486e-05,
+      "loss": 0.151,
+      "step": 19000
+    },
+    {
+      "epoch": 55.072463768115945,
+      "eval_loss": 0.196857288479805,
+      "eval_runtime": 149.3476,
+      "eval_samples_per_second": 17.436,
+      "eval_steps_per_second": 4.359,
+      "eval_wer": 0.14806858415880972,
+      "step": 19000
+    },
+    {
+      "epoch": 55.36231884057971,
+      "grad_norm": 0.6839106678962708,
+      "learning_rate": 1.3688442211055275e-05,
+      "loss": 0.1501,
+      "step": 19100
+    },
+    {
+      "epoch": 55.36231884057971,
+      "eval_loss": 0.19586588442325592,
+      "eval_runtime": 150.2879,
+      "eval_samples_per_second": 17.327,
+      "eval_steps_per_second": 4.332,
+      "eval_wer": 0.14810836615347894,
+      "step": 19100
+    },
+    {
+      "epoch": 55.65217391304348,
+      "grad_norm": 0.5769901275634766,
+      "learning_rate": 1.2180904522613064e-05,
+      "loss": 0.1528,
+      "step": 19200
+    },
+    {
+      "epoch": 55.65217391304348,
+      "eval_loss": 0.19648610055446625,
+      "eval_runtime": 149.6106,
+      "eval_samples_per_second": 17.405,
+      "eval_steps_per_second": 4.351,
+      "eval_wer": 0.14854596809484027,
+      "step": 19200
+    },
+    {
+      "epoch": 55.94202898550725,
+      "grad_norm": 0.5911151170730591,
+      "learning_rate": 1.0673366834170852e-05,
+      "loss": 0.1435,
+      "step": 19300
+    },
+    {
+      "epoch": 55.94202898550725,
+      "eval_loss": 0.19634607434272766,
+      "eval_runtime": 150.4393,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.327,
+      "eval_wer": 0.14747185423877154,
+      "step": 19300
+    },
+    {
+      "epoch": 56.231884057971016,
+      "grad_norm": 0.5163128972053528,
+      "learning_rate": 9.165829145728643e-06,
+      "loss": 0.1564,
+      "step": 19400
+    },
+    {
+      "epoch": 56.231884057971016,
+      "eval_loss": 0.19604472815990448,
+      "eval_runtime": 150.9658,
+      "eval_samples_per_second": 17.249,
+      "eval_steps_per_second": 4.312,
+      "eval_wer": 0.1479691291721367,
+      "step": 19400
+    },
+    {
+      "epoch": 56.52173913043478,
+      "grad_norm": 0.6075275540351868,
+      "learning_rate": 7.658291457286432e-06,
+      "loss": 0.1485,
+      "step": 19500
+    },
+    {
+      "epoch": 56.52173913043478,
+      "eval_loss": 0.19642896950244904,
+      "eval_runtime": 151.1813,
+      "eval_samples_per_second": 17.224,
+      "eval_steps_per_second": 4.306,
+      "eval_wer": 0.1476906552094522,
+      "step": 19500
+    },
+    {
+      "epoch": 56.81159420289855,
+      "grad_norm": 0.5421344637870789,
+      "learning_rate": 6.1507537688442204e-06,
+      "loss": 0.1529,
+      "step": 19600
+    },
+    {
+      "epoch": 56.81159420289855,
+      "eval_loss": 0.19620098173618317,
+      "eval_runtime": 150.2568,
+      "eval_samples_per_second": 17.33,
+      "eval_steps_per_second": 4.333,
+      "eval_wer": 0.14745196324143692,
+      "step": 19600
+    },
+    {
+      "epoch": 57.10144927536232,
+      "grad_norm": 0.4514584541320801,
+      "learning_rate": 4.64321608040201e-06,
+      "loss": 0.1485,
+      "step": 19700
+    },
+    {
+      "epoch": 57.10144927536232,
+      "eval_loss": 0.1970347762107849,
+      "eval_runtime": 150.57,
+      "eval_samples_per_second": 17.294,
+      "eval_steps_per_second": 4.324,
+      "eval_wer": 0.14777021919879063,
+      "step": 19700
+    },
+    {
+      "epoch": 57.391304347826086,
+      "grad_norm": 0.5390310287475586,
+      "learning_rate": 3.135678391959799e-06,
+      "loss": 0.1478,
+      "step": 19800
+    },
+    {
+      "epoch": 57.391304347826086,
+      "eval_loss": 0.1968718320131302,
+      "eval_runtime": 149.8169,
+      "eval_samples_per_second": 17.381,
+      "eval_steps_per_second": 4.345,
+      "eval_wer": 0.14775032820145603,
+      "step": 19800
+    },
+    {
+      "epoch": 57.68115942028985,
+      "grad_norm": 0.618834912776947,
+      "learning_rate": 1.6281407035175876e-06,
+      "loss": 0.1501,
+      "step": 19900
+    },
+    {
+      "epoch": 57.68115942028985,
+      "eval_loss": 0.19653910398483276,
+      "eval_runtime": 150.49,
+      "eval_samples_per_second": 17.303,
+      "eval_steps_per_second": 4.326,
+      "eval_wer": 0.14767076421211758,
+      "step": 19900
+    },
+    {
+      "epoch": 57.971014492753625,
+      "grad_norm": 0.5765581727027893,
+      "learning_rate": 1.2060301507537687e-07,
+      "loss": 0.1522,
+      "step": 20000
+    },
+    {
+      "epoch": 57.971014492753625,
+      "eval_loss": 0.19661328196525574,
+      "eval_runtime": 150.3563,
+      "eval_samples_per_second": 17.319,
+      "eval_steps_per_second": 4.33,
+      "eval_wer": 0.14755141822810997,
+      "step": 20000
+    },
+    {
+      "epoch": 57.971014492753625,
+      "step": 20000,
+      "total_flos": 6.201114678692461e+19,
+      "train_loss": 0.3545982142448425,
+      "train_runtime": 69759.9962,
+      "train_samples_per_second": 2.294,
+      "train_steps_per_second": 0.287
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 20000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 58,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.201114678692461e+19,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}