Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

README_new.md +69 -0
all_results.json +13 -13
config.json +3 -6
eval_results.json +7 -7
generation_config.json +2 -2
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
runs/Mar22_10-30-53_d4a283a05c40/events.out.tfevents.1742640704.d4a283a05c40.213.0 +3 -0
runs/Mar22_10-30-53_d4a283a05c40/events.out.tfevents.1742706967.d4a283a05c40.213.1 +3 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
train_results.json +7 -7
trainer_state.json +741 -741
training_args.bin +2 -2

README_new.md ADDED Viewed

	@@ -0,0 +1,69 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: openai/whisper-large-v3
+tags:
+- generated_from_trainer
+metrics:
+- wer
+model-index:
+- name: whisper-large-v3-ft-btb-cv-cvad-ca-cy-2503
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# whisper-large-v3-ft-btb-cv-cvad-ca-cy-2503
+This model is a fine-tuned version of [openai/whisper-large-v3](https://huggingface.co/openai/whisper-large-v3) on the DewiBrynJones/banc-trawsgrifiadau-bangor train main, DewiBrynJones/commonvoice_18_0_cy train+dev+other_with_excluded main, cymen-arfor/lleisiau-arfor train+dev main, techiaith/commonvoice_vad_cy train main dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.3739
+- Wer: 0.2915
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 500
+- training_steps: 5000
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Wer    |
+|:-------------:|:------:|:----:|:---------------:|:------:|
+| 0.5304        | 0.3240 | 1000 | 0.5236          | 0.3786 |
+| 0.4409        | 0.6480 | 2000 | 0.4458          | 0.3563 |
+| 0.3914        | 0.9720 | 3000 | 0.4035          | 0.3090 |
+| 0.296         | 1.2958 | 4000 | 0.3868          | 0.2977 |
+| 0.274         | 1.6198 | 5000 | 0.3739          | 0.2915 |
+### Framework versions
+- Transformers 4.49.0
+- Pytorch 2.6.0+cu124
+- Datasets 3.3.2
+- Tokenizers 0.21.0

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 2.8555111364934325,
-    "eval_loss": 0.38383349776268005,
-    "eval_runtime": 1673.49,
-    "eval_samples": 3901,
-    "eval_samples_per_second": 2.331,
-    "eval_steps_per_second": 0.146,
-    "eval_wer": 0.27318168646769053,
-    "total_flos": 5.435589590699213e+20,
-    "train_loss": 0.3002769865989685,
-    "train_runtime": 59305.2217,
-    "train_samples": 56026,
-    "train_samples_per_second": 2.698,
-    "train_steps_per_second": 0.084
 }

 {
+    "epoch": 1.619795885306982,
+    "eval_loss": 0.3738669753074646,
+    "eval_runtime": 1862.9517,
+    "eval_samples": 3897,
+    "eval_samples_per_second": 2.092,
+    "eval_steps_per_second": 0.131,
+    "eval_wer": 0.29154381412902464,
+    "total_flos": 5.435419715783885e+20,
+    "train_loss": 0.4225531764030456,
+    "train_runtime": 64153.0147,
+    "train_samples": 98767,
+    "train_samples_per_second": 2.494,
+    "train_steps_per_second": 0.078
 }

config.json CHANGED Viewed

@@ -7,10 +7,7 @@
     "WhisperForConditionalGeneration"
   ],
   "attention_dropout": 0.0,
-  "begin_suppress_tokens": [
-    220,
-    50257
-  ],
   "bos_token_id": 50257,
   "classifier_proj_size": 256,
   "d_model": 1280,
@@ -34,7 +31,7 @@
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
   "mask_time_prob": 0.05,
-  "max_length": 448,
   "max_source_positions": 1500,
   "max_target_positions": 448,
   "median_filter_width": 7,
@@ -44,7 +41,7 @@
   "pad_token_id": 50256,
   "scale_embedding": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.44.0",
   "use_cache": true,
   "use_weighted_layer_sum": false,
   "vocab_size": 51866

     "WhisperForConditionalGeneration"
   ],
   "attention_dropout": 0.0,
+  "begin_suppress_tokens": null,
   "bos_token_id": 50257,
   "classifier_proj_size": 256,
   "d_model": 1280,
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
   "mask_time_prob": 0.05,
+  "max_length": null,
   "max_source_positions": 1500,
   "max_target_positions": 448,
   "median_filter_width": 7,
   "pad_token_id": 50256,
   "scale_embedding": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
   "use_cache": true,
   "use_weighted_layer_sum": false,
   "vocab_size": 51866

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 2.8555111364934325,
-    "eval_loss": 0.38383349776268005,
-    "eval_runtime": 1673.49,
-    "eval_samples": 3901,
-    "eval_samples_per_second": 2.331,
-    "eval_steps_per_second": 0.146,
-    "eval_wer": 0.27318168646769053
 }

 {
+    "epoch": 1.619795885306982,
+    "eval_loss": 0.3738669753074646,
+    "eval_runtime": 1862.9517,
+    "eval_samples": 3897,
+    "eval_samples_per_second": 2.092,
+    "eval_steps_per_second": 0.131,
+    "eval_wer": 0.29154381412902464
 }

generation_config.json CHANGED Viewed

@@ -151,7 +151,7 @@
     "<|yue|>": 50358,
     "<|zh|>": 50260
   },
-  "language": "welsh",
   "max_initial_timestamp_index": 50,
   "max_length": 448,
   "no_timestamps_token_id": 50364,
@@ -253,5 +253,5 @@
     "transcribe": 50360,
     "translate": 50359
   },
-  "transformers_version": "4.44.0"
 }

     "<|yue|>": 50358,
     "<|zh|>": 50260
   },
+  "language": null,
   "max_initial_timestamp_index": 50,
   "max_length": 448,
   "no_timestamps_token_id": 50364,
     "transcribe": 50360,
     "translate": 50359
   },
+  "transformers_version": "4.49.0"
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:659ef032a319119312a7e5e3462e0b9a92789d2adcecabdea056d6acf30934a5
 size 4993448880

 version https://git-lfs.github.com/spec/v1
+oid sha256:89026adf241ab6e6f7d62cc3a2c3e4007c8b34ef54d1222ee9d8e204ccb4653d
 size 4993448880

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f64973e37d3581c270548790f99059bb3e41201557a5bb095fe22cefc89f00c
 size 1180663192

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5eb80d43bb52300a1166a1892b4d9fa06d3b0546ffb4338f7caa0422698d839
 size 1180663192

runs/Mar22_10-30-53_d4a283a05c40/events.out.tfevents.1742640704.d4a283a05c40.213.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da50f05716832fd4988146bdb5ba728d3f7382fe0cefec5700063559e37a0e67
+size 50135

runs/Mar22_10-30-53_d4a283a05c40/events.out.tfevents.1742706967.d4a283a05c40.213.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:054c3fa54b2f8c098eb2a448fa6f33487c4a63baa3d8f235cbef0fa6d33f7fbc
+size 406

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -12987,6 +12987,7 @@
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "errors": "replace",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<|endoftext|>",
   "processor_class": "WhisperProcessor",

   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "errors": "replace",
+  "extra_special_tokens": {},
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<|endoftext|>",
   "processor_class": "WhisperProcessor",

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 2.8555111364934325,
-    "total_flos": 5.435589590699213e+20,
-    "train_loss": 0.3002769865989685,
-    "train_runtime": 59305.2217,
-    "train_samples": 56026,
-    "train_samples_per_second": 2.698,
-    "train_steps_per_second": 0.084
 }

 {
+    "epoch": 1.619795885306982,
+    "total_flos": 5.435419715783885e+20,
+    "train_loss": 0.4225531764030456,
+    "train_runtime": 64153.0147,
+    "train_samples": 98767,
+    "train_samples_per_second": 2.494,
+    "train_steps_per_second": 0.078
 }

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.8555111364934325,
   "eval_steps": 1000,
   "global_step": 5000,
   "is_hyper_param_search": false,
@@ -9,1464 +9,1464 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.014277555682467162,
-      "grad_norm": 7.571424961090088,
       "learning_rate": 5.000000000000001e-07,
-      "loss": 1.5088,
       "step": 25
     },
     {
-      "epoch": 0.028555111364934323,
-      "grad_norm": 5.992729187011719,
       "learning_rate": 1.0000000000000002e-06,
-      "loss": 1.2038,
       "step": 50
     },
     {
-      "epoch": 0.04283266704740148,
-      "grad_norm": 5.949503421783447,
       "learning_rate": 1.5e-06,
-      "loss": 0.8879,
       "step": 75
     },
     {
-      "epoch": 0.05711022272986865,
-      "grad_norm": 4.452832221984863,
       "learning_rate": 2.0000000000000003e-06,
-      "loss": 0.7647,
       "step": 100
     },
     {
-      "epoch": 0.0713877784123358,
-      "grad_norm": 4.690545558929443,
       "learning_rate": 2.5e-06,
-      "loss": 0.6792,
       "step": 125
     },
     {
-      "epoch": 0.08566533409480297,
-      "grad_norm": 4.969720840454102,
       "learning_rate": 3e-06,
-      "loss": 0.6549,
       "step": 150
     },
     {
-      "epoch": 0.09994288977727013,
-      "grad_norm": 5.184281349182129,
       "learning_rate": 3.5e-06,
-      "loss": 0.6376,
       "step": 175
     },
     {
-      "epoch": 0.1142204454597373,
-      "grad_norm": 5.00349235534668,
       "learning_rate": 4.000000000000001e-06,
-      "loss": 0.5982,
       "step": 200
     },
     {
-      "epoch": 0.12849800114220444,
-      "grad_norm": 4.239490032196045,
       "learning_rate": 4.5e-06,
-      "loss": 0.6084,
       "step": 225
     },
     {
-      "epoch": 0.1427755568246716,
-      "grad_norm": 4.2740068435668945,
       "learning_rate": 5e-06,
-      "loss": 0.58,
       "step": 250
     },
     {
-      "epoch": 0.15705311250713877,
-      "grad_norm": 4.718848705291748,
       "learning_rate": 5.500000000000001e-06,
-      "loss": 0.5759,
       "step": 275
     },
     {
-      "epoch": 0.17133066818960593,
-      "grad_norm": 4.2935638427734375,
       "learning_rate": 6e-06,
-      "loss": 0.5625,
       "step": 300
     },
     {
-      "epoch": 0.1856082238720731,
-      "grad_norm": 4.917020797729492,
       "learning_rate": 6.5000000000000004e-06,
-      "loss": 0.5621,
       "step": 325
     },
     {
-      "epoch": 0.19988577955454026,
-      "grad_norm": 3.9521942138671875,
       "learning_rate": 7e-06,
-      "loss": 0.5644,
       "step": 350
     },
     {
-      "epoch": 0.21416333523700742,
-      "grad_norm": 4.506232738494873,
       "learning_rate": 7.500000000000001e-06,
-      "loss": 0.5508,
       "step": 375
     },
     {
-      "epoch": 0.2284408909194746,
-      "grad_norm": 4.1483540534973145,
       "learning_rate": 8.000000000000001e-06,
-      "loss": 0.5244,
       "step": 400
     },
     {
-      "epoch": 0.24271844660194175,
-      "grad_norm": 4.077396392822266,
       "learning_rate": 8.5e-06,
-      "loss": 0.5051,
       "step": 425
     },
     {
-      "epoch": 0.2569960022844089,
-      "grad_norm": 4.375626087188721,
       "learning_rate": 9e-06,
-      "loss": 0.5222,
       "step": 450
     },
     {
-      "epoch": 0.2712735579668761,
-      "grad_norm": 3.5698530673980713,
       "learning_rate": 9.5e-06,
-      "loss": 0.5038,
       "step": 475
     },
     {
-      "epoch": 0.2855511136493432,
-      "grad_norm": 4.99509859085083,
       "learning_rate": 1e-05,
-      "loss": 0.5196,
       "step": 500
     },
     {
-      "epoch": 0.2998286693318104,
-      "grad_norm": 3.666332721710205,
       "learning_rate": 9.944444444444445e-06,
-      "loss": 0.5066,
       "step": 525
     },
     {
-      "epoch": 0.31410622501427754,
-      "grad_norm": 3.9203736782073975,
       "learning_rate": 9.88888888888889e-06,
-      "loss": 0.4822,
       "step": 550
     },
     {
-      "epoch": 0.32838378069674473,
-      "grad_norm": 3.5677530765533447,
       "learning_rate": 9.833333333333333e-06,
-      "loss": 0.519,
       "step": 575
     },
     {
-      "epoch": 0.34266133637921187,
-      "grad_norm": 3.3873414993286133,
       "learning_rate": 9.777777777777779e-06,
-      "loss": 0.5205,
       "step": 600
     },
     {
-      "epoch": 0.35693889206167906,
-      "grad_norm": 3.9527816772460938,
       "learning_rate": 9.722222222222223e-06,
-      "loss": 0.4769,
       "step": 625
     },
     {
-      "epoch": 0.3712164477441462,
-      "grad_norm": 3.3437490463256836,
       "learning_rate": 9.666666666666667e-06,
-      "loss": 0.4629,
       "step": 650
     },
     {
-      "epoch": 0.3854940034266134,
-      "grad_norm": 3.7754790782928467,
       "learning_rate": 9.611111111111112e-06,
-      "loss": 0.4812,
       "step": 675
     },
     {
-      "epoch": 0.3997715591090805,
-      "grad_norm": 3.744267225265503,
       "learning_rate": 9.555555555555556e-06,
-      "loss": 0.467,
       "step": 700
     },
     {
-      "epoch": 0.4140491147915477,
-      "grad_norm": 3.5076072216033936,
       "learning_rate": 9.5e-06,
-      "loss": 0.4454,
       "step": 725
     },
     {
-      "epoch": 0.42832667047401485,
-      "grad_norm": 3.556335687637329,
       "learning_rate": 9.444444444444445e-06,
-      "loss": 0.4447,
       "step": 750
     },
     {
-      "epoch": 0.442604226156482,
-      "grad_norm": 4.256951332092285,
       "learning_rate": 9.38888888888889e-06,
-      "loss": 0.4809,
       "step": 775
     },
     {
-      "epoch": 0.4568817818389492,
-      "grad_norm": 3.533447742462158,
       "learning_rate": 9.333333333333334e-06,
-      "loss": 0.4425,
       "step": 800
     },
     {
-      "epoch": 0.4711593375214163,
-      "grad_norm": 4.324098587036133,
       "learning_rate": 9.277777777777778e-06,
-      "loss": 0.424,
       "step": 825
     },
     {
-      "epoch": 0.4854368932038835,
-      "grad_norm": 2.913189649581909,
       "learning_rate": 9.222222222222224e-06,
-      "loss": 0.4314,
       "step": 850
     },
     {
-      "epoch": 0.49971444888635064,
-      "grad_norm": 3.432490825653076,
       "learning_rate": 9.166666666666666e-06,
-      "loss": 0.4355,
       "step": 875
     },
     {
-      "epoch": 0.5139920045688178,
-      "grad_norm": 3.645869255065918,
       "learning_rate": 9.111111111111112e-06,
-      "loss": 0.4395,
       "step": 900
     },
     {
-      "epoch": 0.528269560251285,
-      "grad_norm": 3.2094240188598633,
       "learning_rate": 9.055555555555556e-06,
-      "loss": 0.4144,
       "step": 925
     },
     {
-      "epoch": 0.5425471159337522,
-      "grad_norm": 3.4623546600341797,
       "learning_rate": 9e-06,
-      "loss": 0.4277,
       "step": 950
     },
     {
-      "epoch": 0.5568246716162193,
-      "grad_norm": 3.640333414077759,
       "learning_rate": 8.944444444444446e-06,
-      "loss": 0.4246,
       "step": 975
     },
     {
-      "epoch": 0.5711022272986864,
-      "grad_norm": 3.0283167362213135,
       "learning_rate": 8.888888888888888e-06,
-      "loss": 0.4047,
       "step": 1000
     },
     {
-      "epoch": 0.5711022272986864,
-      "eval_loss": 0.4848648011684418,
-      "eval_runtime": 1825.4203,
-      "eval_samples_per_second": 2.137,
-      "eval_steps_per_second": 0.134,
-      "eval_wer": 0.35052641746353713,
       "step": 1000
     },
     {
-      "epoch": 0.5853797829811537,
-      "grad_norm": 3.7762739658355713,
       "learning_rate": 8.833333333333334e-06,
-      "loss": 0.4218,
       "step": 1025
     },
     {
-      "epoch": 0.5996573386636208,
-      "grad_norm": 3.495347023010254,
       "learning_rate": 8.777777777777778e-06,
-      "loss": 0.3968,
       "step": 1050
     },
     {
-      "epoch": 0.613934894346088,
-      "grad_norm": 3.5088939666748047,
       "learning_rate": 8.722222222222224e-06,
-      "loss": 0.4108,
       "step": 1075
     },
     {
-      "epoch": 0.6282124500285551,
-      "grad_norm": 3.555328845977783,
       "learning_rate": 8.666666666666668e-06,
-      "loss": 0.4063,
       "step": 1100
     },
     {
-      "epoch": 0.6424900057110223,
-      "grad_norm": 2.9576587677001953,
       "learning_rate": 8.611111111111112e-06,
-      "loss": 0.4116,
       "step": 1125
     },
     {
-      "epoch": 0.6567675613934895,
-      "grad_norm": 3.280855178833008,
       "learning_rate": 8.555555555555556e-06,
-      "loss": 0.4083,
       "step": 1150
     },
     {
-      "epoch": 0.6710451170759566,
-      "grad_norm": 3.903722047805786,
       "learning_rate": 8.5e-06,
-      "loss": 0.411,
       "step": 1175
     },
     {
-      "epoch": 0.6853226727584237,
-      "grad_norm": 3.519038438796997,
       "learning_rate": 8.444444444444446e-06,
-      "loss": 0.3964,
       "step": 1200
     },
     {
-      "epoch": 0.6996002284408909,
-      "grad_norm": 3.3553972244262695,
       "learning_rate": 8.38888888888889e-06,
-      "loss": 0.4049,
       "step": 1225
     },
     {
-      "epoch": 0.7138777841233581,
-      "grad_norm": 3.3820197582244873,
       "learning_rate": 8.333333333333334e-06,
-      "loss": 0.4159,
       "step": 1250
     },
     {
-      "epoch": 0.7281553398058253,
-      "grad_norm": 2.782127857208252,
       "learning_rate": 8.277777777777778e-06,
-      "loss": 0.3859,
       "step": 1275
     },
     {
-      "epoch": 0.7424328954882924,
-      "grad_norm": 3.5839345455169678,
       "learning_rate": 8.222222222222222e-06,
-      "loss": 0.392,
       "step": 1300
     },
     {
-      "epoch": 0.7567104511707595,
-      "grad_norm": 3.0308761596679688,
       "learning_rate": 8.166666666666668e-06,
-      "loss": 0.3899,
       "step": 1325
     },
     {
-      "epoch": 0.7709880068532268,
-      "grad_norm": 3.136904001235962,
       "learning_rate": 8.111111111111112e-06,
-      "loss": 0.3907,
       "step": 1350
     },
     {
-      "epoch": 0.7852655625356939,
-      "grad_norm": 3.3192756175994873,
       "learning_rate": 8.055555555555557e-06,
-      "loss": 0.3941,
       "step": 1375
     },
     {
-      "epoch": 0.799543118218161,
-      "grad_norm": 4.766107082366943,
       "learning_rate": 8.000000000000001e-06,
-      "loss": 0.3887,
       "step": 1400
     },
     {
-      "epoch": 0.8138206739006282,
-      "grad_norm": 4.241744041442871,
       "learning_rate": 7.944444444444445e-06,
-      "loss": 0.4033,
       "step": 1425
     },
     {
-      "epoch": 0.8280982295830954,
-      "grad_norm": 3.1559460163116455,
       "learning_rate": 7.88888888888889e-06,
-      "loss": 0.3567,
       "step": 1450
     },
     {
-      "epoch": 0.8423757852655626,
-      "grad_norm": 3.142645835876465,
       "learning_rate": 7.833333333333333e-06,
-      "loss": 0.3731,
       "step": 1475
     },
     {
-      "epoch": 0.8566533409480297,
-      "grad_norm": 3.1183199882507324,
       "learning_rate": 7.77777777777778e-06,
-      "loss": 0.3668,
       "step": 1500
     },
     {
-      "epoch": 0.8709308966304968,
-      "grad_norm": 2.7859325408935547,
       "learning_rate": 7.722222222222223e-06,
-      "loss": 0.3965,
       "step": 1525
     },
     {
-      "epoch": 0.885208452312964,
-      "grad_norm": 3.191088914871216,
       "learning_rate": 7.666666666666667e-06,
-      "loss": 0.3574,
       "step": 1550
     },
     {
-      "epoch": 0.8994860079954312,
-      "grad_norm": 3.0640053749084473,
       "learning_rate": 7.611111111111111e-06,
-      "loss": 0.3811,
       "step": 1575
     },
     {
-      "epoch": 0.9137635636778983,
-      "grad_norm": 3.0769450664520264,
       "learning_rate": 7.555555555555556e-06,
-      "loss": 0.3788,
       "step": 1600
     },
     {
-      "epoch": 0.9280411193603655,
-      "grad_norm": 3.1407933235168457,
       "learning_rate": 7.500000000000001e-06,
-      "loss": 0.3698,
       "step": 1625
     },
     {
-      "epoch": 0.9423186750428326,
-      "grad_norm": 3.410187244415283,
       "learning_rate": 7.444444444444445e-06,
-      "loss": 0.3907,
       "step": 1650
     },
     {
-      "epoch": 0.9565962307252999,
-      "grad_norm": 3.3382880687713623,
       "learning_rate": 7.38888888888889e-06,
-      "loss": 0.3368,
       "step": 1675
     },
     {
-      "epoch": 0.970873786407767,
-      "grad_norm": 3.194368600845337,
       "learning_rate": 7.333333333333333e-06,
-      "loss": 0.369,
       "step": 1700
     },
     {
-      "epoch": 0.9851513420902341,
-      "grad_norm": 3.089852809906006,
       "learning_rate": 7.277777777777778e-06,
-      "loss": 0.3765,
       "step": 1725
     },
     {
-      "epoch": 0.9994288977727013,
-      "grad_norm": 3.0002810955047607,
       "learning_rate": 7.222222222222223e-06,
-      "loss": 0.3705,
       "step": 1750
     },
     {
-      "epoch": 1.0137064534551685,
-      "grad_norm": 2.3977696895599365,
       "learning_rate": 7.166666666666667e-06,
-      "loss": 0.2584,
       "step": 1775
     },
     {
-      "epoch": 1.0279840091376355,
-      "grad_norm": 2.3220465183258057,
       "learning_rate": 7.111111111111112e-06,
-      "loss": 0.2538,
       "step": 1800
     },
     {
-      "epoch": 1.0422615648201028,
-      "grad_norm": 2.819687843322754,
       "learning_rate": 7.055555555555557e-06,
-      "loss": 0.2571,
       "step": 1825
     },
     {
-      "epoch": 1.05653912050257,
-      "grad_norm": 2.514644145965576,
       "learning_rate": 7e-06,
-      "loss": 0.2806,
       "step": 1850
     },
     {
-      "epoch": 1.070816676185037,
-      "grad_norm": 2.1887128353118896,
       "learning_rate": 6.944444444444445e-06,
-      "loss": 0.2626,
       "step": 1875
     },
     {
-      "epoch": 1.0850942318675043,
-      "grad_norm": 2.592247486114502,
       "learning_rate": 6.88888888888889e-06,
-      "loss": 0.2509,
       "step": 1900
     },
     {
-      "epoch": 1.0993717875499716,
-      "grad_norm": 2.371534824371338,
       "learning_rate": 6.833333333333334e-06,
-      "loss": 0.2605,
       "step": 1925
     },
     {
-      "epoch": 1.1136493432324386,
-      "grad_norm": 3.1825778484344482,
       "learning_rate": 6.777777777777779e-06,
-      "loss": 0.2495,
       "step": 1950
     },
     {
-      "epoch": 1.1279268989149058,
-      "grad_norm": 2.901749849319458,
       "learning_rate": 6.7222222222222235e-06,
-      "loss": 0.261,
       "step": 1975
     },
     {
-      "epoch": 1.1422044545973729,
-      "grad_norm": 2.658766984939575,
       "learning_rate": 6.666666666666667e-06,
-      "loss": 0.2476,
       "step": 2000
     },
     {
-      "epoch": 1.1422044545973729,
-      "eval_loss": 0.41870468854904175,
-      "eval_runtime": 1722.2575,
-      "eval_samples_per_second": 2.265,
-      "eval_steps_per_second": 0.142,
-      "eval_wer": 0.3136771950159374,
       "step": 2000
     },
     {
-      "epoch": 1.15648201027984,
-      "grad_norm": 2.711312770843506,
       "learning_rate": 6.6111111111111115e-06,
-      "loss": 0.2414,
       "step": 2025
     },
     {
-      "epoch": 1.1707595659623073,
-      "grad_norm": 2.9044759273529053,
       "learning_rate": 6.555555555555556e-06,
-      "loss": 0.2502,
       "step": 2050
     },
     {
-      "epoch": 1.1850371216447744,
-      "grad_norm": 2.549725294113159,
       "learning_rate": 6.5000000000000004e-06,
-      "loss": 0.2511,
       "step": 2075
     },
     {
-      "epoch": 1.1993146773272416,
-      "grad_norm": 2.95792555809021,
       "learning_rate": 6.444444444444445e-06,
-      "loss": 0.2427,
       "step": 2100
     },
     {
-      "epoch": 1.2135922330097086,
-      "grad_norm": 2.686870574951172,
       "learning_rate": 6.3888888888888885e-06,
-      "loss": 0.2637,
       "step": 2125
     },
     {
-      "epoch": 1.227869788692176,
-      "grad_norm": 3.7834455966949463,
       "learning_rate": 6.333333333333333e-06,
-      "loss": 0.2554,
       "step": 2150
     },
     {
-      "epoch": 1.2421473443746431,
-      "grad_norm": 3.0891430377960205,
       "learning_rate": 6.277777777777778e-06,
-      "loss": 0.2467,
       "step": 2175
     },
     {
-      "epoch": 1.2564249000571102,
-      "grad_norm": 2.771472930908203,
       "learning_rate": 6.222222222222223e-06,
-      "loss": 0.2467,
       "step": 2200
     },
     {
-      "epoch": 1.2707024557395774,
-      "grad_norm": 2.6807925701141357,
       "learning_rate": 6.166666666666667e-06,
-      "loss": 0.2682,
       "step": 2225
     },
     {
-      "epoch": 1.2849800114220447,
-      "grad_norm": 2.2320196628570557,
       "learning_rate": 6.111111111111112e-06,
-      "loss": 0.2408,
       "step": 2250
     },
     {
-      "epoch": 1.2992575671045117,
-      "grad_norm": 3.066009759902954,
       "learning_rate": 6.055555555555555e-06,
-      "loss": 0.2363,
       "step": 2275
     },
     {
-      "epoch": 1.313535122786979,
-      "grad_norm": 2.6043167114257812,
       "learning_rate": 6e-06,
-      "loss": 0.2483,
       "step": 2300
     },
     {
-      "epoch": 1.327812678469446,
-      "grad_norm": 2.6250624656677246,
       "learning_rate": 5.944444444444445e-06,
-      "loss": 0.2563,
       "step": 2325
     },
     {
-      "epoch": 1.3420902341519132,
-      "grad_norm": 2.508998394012451,
       "learning_rate": 5.88888888888889e-06,
-      "loss": 0.2581,
       "step": 2350
     },
     {
-      "epoch": 1.3563677898343802,
-      "grad_norm": 2.872715473175049,
       "learning_rate": 5.833333333333334e-06,
-      "loss": 0.2371,
       "step": 2375
     },
     {
-      "epoch": 1.3706453455168475,
-      "grad_norm": 3.1910557746887207,
-      "learning_rate": 5.777777777777778e-06,
-      "loss": 0.2515,
       "step": 2400
     },
     {
-      "epoch": 1.3849229011993147,
-      "grad_norm": 2.7466485500335693,
-      "learning_rate": 5.722222222222222e-06,
-      "loss": 0.2578,
       "step": 2425
     },
     {
-      "epoch": 1.3992004568817817,
-      "grad_norm": 2.388066530227661,
-      "learning_rate": 5.666666666666667e-06,
-      "loss": 0.2541,
       "step": 2450
     },
     {
-      "epoch": 1.413478012564249,
-      "grad_norm": 2.688497304916382,
-      "learning_rate": 5.611111111111112e-06,
-      "loss": 0.2514,
       "step": 2475
     },
     {
-      "epoch": 1.4277555682467162,
-      "grad_norm": 2.710899591445923,
-      "learning_rate": 5.555555555555557e-06,
-      "loss": 0.2765,
       "step": 2500
     },
     {
-      "epoch": 1.4420331239291833,
-      "grad_norm": 2.296635389328003,
-      "learning_rate": 5.500000000000001e-06,
-      "loss": 0.2487,
       "step": 2525
     },
     {
-      "epoch": 1.4563106796116505,
-      "grad_norm": 2.7988133430480957,
-      "learning_rate": 5.444444444444445e-06,
-      "loss": 0.2499,
       "step": 2550
     },
     {
-      "epoch": 1.4705882352941178,
-      "grad_norm": 3.1988582611083984,
-      "learning_rate": 5.388888888888889e-06,
-      "loss": 0.2456,
       "step": 2575
     },
     {
-      "epoch": 1.4848657909765848,
-      "grad_norm": 2.657517910003662,
-      "learning_rate": 5.333333333333334e-06,
-      "loss": 0.2613,
       "step": 2600
     },
     {
-      "epoch": 1.499143346659052,
-      "grad_norm": 2.5517725944519043,
-      "learning_rate": 5.2777777777777785e-06,
-      "loss": 0.2528,
       "step": 2625
     },
     {
-      "epoch": 1.5134209023415193,
-      "grad_norm": 2.7166850566864014,
-      "learning_rate": 5.2222222222222226e-06,
-      "loss": 0.2476,
       "step": 2650
     },
     {
-      "epoch": 1.5276984580239863,
-      "grad_norm": 2.7338292598724365,
-      "learning_rate": 5.1666666666666675e-06,
-      "loss": 0.2489,
       "step": 2675
     },
     {
-      "epoch": 1.5419760137064533,
-      "grad_norm": 2.1498470306396484,
-      "learning_rate": 5.1111111111111115e-06,
-      "loss": 0.2388,
       "step": 2700
     },
     {
-      "epoch": 1.5562535693889206,
-      "grad_norm": 2.595247745513916,
-      "learning_rate": 5.0555555555555555e-06,
-      "loss": 0.2566,
       "step": 2725
     },
     {
-      "epoch": 1.5705311250713878,
-      "grad_norm": 2.652132987976074,
-      "learning_rate": 5e-06,
-      "loss": 0.239,
       "step": 2750
     },
     {
-      "epoch": 1.5848086807538548,
-      "grad_norm": 2.436605930328369,
-      "learning_rate": 4.944444444444445e-06,
-      "loss": 0.2419,
       "step": 2775
     },
     {
-      "epoch": 1.599086236436322,
-      "grad_norm": 2.618035316467285,
-      "learning_rate": 4.888888888888889e-06,
-      "loss": 0.2295,
       "step": 2800
     },
     {
-      "epoch": 1.6133637921187893,
-      "grad_norm": 2.2901298999786377,
-      "learning_rate": 4.833333333333333e-06,
-      "loss": 0.2446,
       "step": 2825
     },
     {
-      "epoch": 1.6276413478012564,
-      "grad_norm": 2.899315595626831,
-      "learning_rate": 4.777777777777778e-06,
-      "loss": 0.2628,
       "step": 2850
     },
     {
-      "epoch": 1.6419189034837236,
-      "grad_norm": 2.616224527359009,
-      "learning_rate": 4.722222222222222e-06,
-      "loss": 0.2273,
       "step": 2875
     },
     {
-      "epoch": 1.6561964591661908,
-      "grad_norm": 2.43113112449646,
-      "learning_rate": 4.666666666666667e-06,
-      "loss": 0.2362,
       "step": 2900
     },
     {
-      "epoch": 1.6704740148486579,
-      "grad_norm": 2.5203065872192383,
-      "learning_rate": 4.611111111111112e-06,
-      "loss": 0.2428,
       "step": 2925
     },
     {
-      "epoch": 1.6847515705311251,
-      "grad_norm": 2.3064985275268555,
-      "learning_rate": 4.555555555555556e-06,
-      "loss": 0.2441,
       "step": 2950
     },
     {
-      "epoch": 1.6990291262135924,
-      "grad_norm": 2.201695680618286,
-      "learning_rate": 4.5e-06,
-      "loss": 0.2324,
       "step": 2975
     },
     {
-      "epoch": 1.7133066818960594,
-      "grad_norm": 2.442471981048584,
-      "learning_rate": 4.444444444444444e-06,
-      "loss": 0.2527,
       "step": 3000
     },
     {
-      "epoch": 1.7133066818960594,
-      "eval_loss": 0.3882293701171875,
-      "eval_runtime": 1749.1422,
-      "eval_samples_per_second": 2.23,
-      "eval_steps_per_second": 0.139,
-      "eval_wer": 0.2901091471071187,
       "step": 3000
     },
     {
-      "epoch": 1.7275842375785264,
-      "grad_norm": 2.77786922454834,
-      "learning_rate": 4.388888888888889e-06,
-      "loss": 0.2492,
       "step": 3025
     },
     {
-      "epoch": 1.7418617932609937,
-      "grad_norm": 2.5009052753448486,
-      "learning_rate": 4.333333333333334e-06,
-      "loss": 0.2341,
       "step": 3050
     },
     {
-      "epoch": 1.756139348943461,
-      "grad_norm": 2.780186176300049,
-      "learning_rate": 4.277777777777778e-06,
-      "loss": 0.2407,
       "step": 3075
     },
     {
-      "epoch": 1.770416904625928,
-      "grad_norm": 1.9574618339538574,
-      "learning_rate": 4.222222222222223e-06,
-      "loss": 0.2437,
       "step": 3100
     },
     {
-      "epoch": 1.7846944603083952,
-      "grad_norm": 2.151125907897949,
-      "learning_rate": 4.166666666666667e-06,
-      "loss": 0.2341,
       "step": 3125
     },
     {
-      "epoch": 1.7989720159908624,
-      "grad_norm": 2.170015811920166,
-      "learning_rate": 4.111111111111111e-06,
-      "loss": 0.2373,
       "step": 3150
     },
     {
-      "epoch": 1.8132495716733295,
-      "grad_norm": 3.0467231273651123,
-      "learning_rate": 4.055555555555556e-06,
-      "loss": 0.2317,
       "step": 3175
     },
     {
-      "epoch": 1.8275271273557967,
-      "grad_norm": 3.0150015354156494,
-      "learning_rate": 4.000000000000001e-06,
-      "loss": 0.228,
       "step": 3200
     },
     {
-      "epoch": 1.841804683038264,
-      "grad_norm": 3.275949001312256,
-      "learning_rate": 3.944444444444445e-06,
-      "loss": 0.2438,
       "step": 3225
     },
     {
-      "epoch": 1.856082238720731,
-      "grad_norm": 3.0381839275360107,
-      "learning_rate": 3.88888888888889e-06,
-      "loss": 0.2478,
       "step": 3250
     },
     {
-      "epoch": 1.8703597944031982,
-      "grad_norm": 2.770716428756714,
-      "learning_rate": 3.833333333333334e-06,
-      "loss": 0.2312,
       "step": 3275
     },
     {
-      "epoch": 1.8846373500856655,
-      "grad_norm": 2.6976678371429443,
-      "learning_rate": 3.777777777777778e-06,
-      "loss": 0.2284,
       "step": 3300
     },
     {
-      "epoch": 1.8989149057681325,
-      "grad_norm": 2.8799102306365967,
-      "learning_rate": 3.7222222222222225e-06,
-      "loss": 0.2484,
       "step": 3325
     },
     {
-      "epoch": 1.9131924614505995,
-      "grad_norm": 2.574629545211792,
-      "learning_rate": 3.6666666666666666e-06,
-      "loss": 0.2295,
       "step": 3350
     },
     {
-      "epoch": 1.927470017133067,
-      "grad_norm": 2.4746835231781006,
-      "learning_rate": 3.6111111111111115e-06,
-      "loss": 0.2335,
       "step": 3375
     },
     {
-      "epoch": 1.941747572815534,
-      "grad_norm": 3.084383964538574,
-      "learning_rate": 3.555555555555556e-06,
-      "loss": 0.212,
       "step": 3400
     },
     {
-      "epoch": 1.956025128498001,
-      "grad_norm": 2.4441068172454834,
-      "learning_rate": 3.5e-06,
-      "loss": 0.221,
       "step": 3425
     },
     {
-      "epoch": 1.9703026841804683,
-      "grad_norm": 3.031568765640259,
-      "learning_rate": 3.444444444444445e-06,
-      "loss": 0.2341,
       "step": 3450
     },
     {
-      "epoch": 1.9845802398629355,
-      "grad_norm": 2.3584327697753906,
-      "learning_rate": 3.3888888888888893e-06,
-      "loss": 0.2431,
       "step": 3475
     },
     {
-      "epoch": 1.9988577955454025,
-      "grad_norm": 2.1590421199798584,
-      "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.2357,
       "step": 3500
     },
     {
-      "epoch": 2.0131353512278696,
-      "grad_norm": 2.2845587730407715,
-      "learning_rate": 3.277777777777778e-06,
-      "loss": 0.1576,
       "step": 3525
     },
     {
-      "epoch": 2.027412906910337,
-      "grad_norm": 2.033133029937744,
-      "learning_rate": 3.2222222222222227e-06,
-      "loss": 0.1422,
       "step": 3550
     },
     {
-      "epoch": 2.041690462592804,
-      "grad_norm": 2.2549259662628174,
-      "learning_rate": 3.1666666666666667e-06,
-      "loss": 0.1473,
       "step": 3575
     },
     {
-      "epoch": 2.055968018275271,
-      "grad_norm": 1.5837754011154175,
-      "learning_rate": 3.1111111111111116e-06,
-      "loss": 0.143,
       "step": 3600
     },
     {
-      "epoch": 2.0702455739577386,
-      "grad_norm": 1.9988360404968262,
-      "learning_rate": 3.055555555555556e-06,
-      "loss": 0.1416,
       "step": 3625
     },
     {
-      "epoch": 2.0845231296402056,
-      "grad_norm": 2.148613929748535,
-      "learning_rate": 3e-06,
-      "loss": 0.1338,
       "step": 3650
     },
     {
-      "epoch": 2.0988006853226726,
-      "grad_norm": 1.8176393508911133,
-      "learning_rate": 2.944444444444445e-06,
-      "loss": 0.1514,
       "step": 3675
     },
     {
-      "epoch": 2.11307824100514,
-      "grad_norm": 2.60271954536438,
-      "learning_rate": 2.888888888888889e-06,
-      "loss": 0.1533,
       "step": 3700
     },
     {
-      "epoch": 2.127355796687607,
-      "grad_norm": 2.120281457901001,
-      "learning_rate": 2.8333333333333335e-06,
-      "loss": 0.1404,
       "step": 3725
     },
     {
-      "epoch": 2.141633352370074,
-      "grad_norm": 2.3522286415100098,
-      "learning_rate": 2.7777777777777783e-06,
-      "loss": 0.1511,
       "step": 3750
     },
     {
-      "epoch": 2.1559109080525416,
-      "grad_norm": 1.8738924264907837,
-      "learning_rate": 2.7222222222222224e-06,
-      "loss": 0.1417,
       "step": 3775
     },
     {
-      "epoch": 2.1701884637350086,
-      "grad_norm": 2.255291223526001,
-      "learning_rate": 2.666666666666667e-06,
-      "loss": 0.1437,
       "step": 3800
     },
     {
-      "epoch": 2.1844660194174756,
-      "grad_norm": 1.7046154737472534,
-      "learning_rate": 2.6111111111111113e-06,
-      "loss": 0.1446,
       "step": 3825
     },
     {
-      "epoch": 2.198743575099943,
-      "grad_norm": 2.0543861389160156,
-      "learning_rate": 2.5555555555555557e-06,
-      "loss": 0.1504,
       "step": 3850
     },
     {
-      "epoch": 2.21302113078241,
-      "grad_norm": 2.139716863632202,
-      "learning_rate": 2.5e-06,
-      "loss": 0.1345,
       "step": 3875
     },
     {
-      "epoch": 2.227298686464877,
-      "grad_norm": 1.7999951839447021,
-      "learning_rate": 2.4444444444444447e-06,
-      "loss": 0.1389,
       "step": 3900
     },
     {
-      "epoch": 2.241576242147344,
-      "grad_norm": 1.7282090187072754,
-      "learning_rate": 2.388888888888889e-06,
-      "loss": 0.1324,
       "step": 3925
     },
     {
-      "epoch": 2.2558537978298117,
-      "grad_norm": 2.6271605491638184,
-      "learning_rate": 2.3333333333333336e-06,
-      "loss": 0.1551,
       "step": 3950
     },
     {
-      "epoch": 2.2701313535122787,
-      "grad_norm": 2.170382022857666,
-      "learning_rate": 2.277777777777778e-06,
-      "loss": 0.144,
       "step": 3975
     },
     {
-      "epoch": 2.2844089091947457,
-      "grad_norm": 1.796635627746582,
-      "learning_rate": 2.222222222222222e-06,
-      "loss": 0.1568,
       "step": 4000
     },
     {
-      "epoch": 2.2844089091947457,
-      "eval_loss": 0.3901652991771698,
-      "eval_runtime": 1765.3609,
-      "eval_samples_per_second": 2.21,
-      "eval_steps_per_second": 0.138,
-      "eval_wer": 0.28160919540229884,
       "step": 4000
     },
     {
-      "epoch": 2.298686464877213,
-      "grad_norm": 2.0357980728149414,
-      "learning_rate": 2.166666666666667e-06,
-      "loss": 0.161,
       "step": 4025
     },
     {
-      "epoch": 2.31296402055968,
-      "grad_norm": 2.027215003967285,
-      "learning_rate": 2.1111111111111114e-06,
-      "loss": 0.1353,
       "step": 4050
     },
     {
-      "epoch": 2.3272415762421472,
-      "grad_norm": 2.8169405460357666,
-      "learning_rate": 2.0555555555555555e-06,
-      "loss": 0.1449,
       "step": 4075
     },
     {
-      "epoch": 2.3415191319246147,
-      "grad_norm": 1.9528751373291016,
-      "learning_rate": 2.0000000000000003e-06,
-      "loss": 0.1376,
       "step": 4100
     },
     {
-      "epoch": 2.3557966876070817,
-      "grad_norm": 2.5781335830688477,
-      "learning_rate": 1.944444444444445e-06,
-      "loss": 0.1383,
       "step": 4125
     },
     {
-      "epoch": 2.3700742432895487,
-      "grad_norm": 2.083077907562256,
-      "learning_rate": 1.888888888888889e-06,
-      "loss": 0.1362,
       "step": 4150
     },
     {
-      "epoch": 2.384351798972016,
-      "grad_norm": 2.431272029876709,
-      "learning_rate": 1.8333333333333333e-06,
-      "loss": 0.1329,
       "step": 4175
     },
     {
-      "epoch": 2.3986293546544832,
-      "grad_norm": 2.157139539718628,
-      "learning_rate": 1.777777777777778e-06,
-      "loss": 0.1377,
       "step": 4200
     },
     {
-      "epoch": 2.4129069103369503,
-      "grad_norm": 2.5328071117401123,
-      "learning_rate": 1.7222222222222224e-06,
-      "loss": 0.1361,
       "step": 4225
     },
     {
-      "epoch": 2.4271844660194173,
-      "grad_norm": 2.433239459991455,
-      "learning_rate": 1.6666666666666667e-06,
-      "loss": 0.157,
       "step": 4250
     },
     {
-      "epoch": 2.4414620217018848,
-      "grad_norm": 2.5167510509490967,
-      "learning_rate": 1.6111111111111113e-06,
-      "loss": 0.132,
       "step": 4275
     },
     {
-      "epoch": 2.455739577384352,
-      "grad_norm": 1.9507442712783813,
-      "learning_rate": 1.5555555555555558e-06,
-      "loss": 0.1625,
       "step": 4300
     },
     {
-      "epoch": 2.470017133066819,
-      "grad_norm": 2.2467007637023926,
-      "learning_rate": 1.5e-06,
-      "loss": 0.1333,
       "step": 4325
     },
     {
-      "epoch": 2.4842946887492863,
-      "grad_norm": 2.4816768169403076,
-      "learning_rate": 1.4444444444444445e-06,
-      "loss": 0.1499,
       "step": 4350
     },
     {
-      "epoch": 2.4985722444317533,
-      "grad_norm": 2.0616416931152344,
-      "learning_rate": 1.3888888888888892e-06,
-      "loss": 0.1508,
       "step": 4375
     },
     {
-      "epoch": 2.5128498001142203,
-      "grad_norm": 2.089355230331421,
-      "learning_rate": 1.3333333333333334e-06,
-      "loss": 0.1344,
       "step": 4400
     },
     {
-      "epoch": 2.5271273557966873,
-      "grad_norm": 2.2235498428344727,
       "learning_rate": 1.28e-06,
-      "loss": 0.1717,
       "step": 4425
     },
     {
-      "epoch": 2.541404911479155,
-      "grad_norm": 1.9268138408660889,
       "learning_rate": 1.2244444444444445e-06,
-      "loss": 0.143,
       "step": 4450
     },
     {
-      "epoch": 2.555682467161622,
-      "grad_norm": 1.8911551237106323,
       "learning_rate": 1.168888888888889e-06,
-      "loss": 0.1439,
       "step": 4475
     },
     {
-      "epoch": 2.5699600228440893,
-      "grad_norm": 2.5078868865966797,
-      "learning_rate": 1.1133333333333334e-06,
-      "loss": 0.1341,
       "step": 4500
     },
     {
-      "epoch": 2.5842375785265563,
-      "grad_norm": 2.1232492923736572,
-      "learning_rate": 1.0577777777777779e-06,
-      "loss": 0.1415,
       "step": 4525
     },
     {
-      "epoch": 2.5985151342090234,
-      "grad_norm": 1.9214311838150024,
-      "learning_rate": 1.0022222222222223e-06,
-      "loss": 0.1301,
       "step": 4550
     },
     {
-      "epoch": 2.6127926898914904,
-      "grad_norm": 2.4226858615875244,
-      "learning_rate": 9.466666666666667e-07,
-      "loss": 0.1438,
       "step": 4575
     },
     {
-      "epoch": 2.627070245573958,
-      "grad_norm": 2.324777126312256,
-      "learning_rate": 8.911111111111112e-07,
-      "loss": 0.1306,
       "step": 4600
     },
     {
-      "epoch": 2.641347801256425,
-      "grad_norm": 2.427114486694336,
-      "learning_rate": 8.355555555555556e-07,
-      "loss": 0.1359,
       "step": 4625
     },
     {
-      "epoch": 2.655625356938892,
-      "grad_norm": 1.989882469177246,
-      "learning_rate": 7.8e-07,
-      "loss": 0.1386,
       "step": 4650
     },
     {
-      "epoch": 2.6699029126213594,
-      "grad_norm": 2.6079118251800537,
-      "learning_rate": 7.244444444444446e-07,
-      "loss": 0.135,
       "step": 4675
     },
     {
-      "epoch": 2.6841804683038264,
-      "grad_norm": 2.3429243564605713,
-      "learning_rate": 6.68888888888889e-07,
-      "loss": 0.1356,
       "step": 4700
     },
     {
-      "epoch": 2.6984580239862934,
-      "grad_norm": 2.3358540534973145,
-      "learning_rate": 6.133333333333333e-07,
-      "loss": 0.1304,
       "step": 4725
     },
     {
-      "epoch": 2.7127355796687604,
-      "grad_norm": 1.917809247970581,
-      "learning_rate": 5.577777777777779e-07,
-      "loss": 0.1395,
       "step": 4750
     },
     {
-      "epoch": 2.727013135351228,
-      "grad_norm": 2.0677952766418457,
-      "learning_rate": 5.022222222222222e-07,
-      "loss": 0.1309,
       "step": 4775
     },
     {
-      "epoch": 2.741290691033695,
-      "grad_norm": 2.135127305984497,
-      "learning_rate": 4.466666666666667e-07,
-      "loss": 0.1424,
       "step": 4800
     },
     {
-      "epoch": 2.7555682467161624,
-      "grad_norm": 2.3306682109832764,
-      "learning_rate": 3.9111111111111115e-07,
-      "loss": 0.1318,
       "step": 4825
     },
     {
-      "epoch": 2.7698458023986294,
-      "grad_norm": 2.0700454711914062,
-      "learning_rate": 3.3555555555555556e-07,
-      "loss": 0.1566,
       "step": 4850
     },
     {
-      "epoch": 2.7841233580810965,
-      "grad_norm": 1.8561683893203735,
-      "learning_rate": 2.8e-07,
-      "loss": 0.1453,
       "step": 4875
     },
     {
-      "epoch": 2.7984009137635635,
-      "grad_norm": 2.2682347297668457,
-      "learning_rate": 2.2444444444444445e-07,
-      "loss": 0.1415,
       "step": 4900
     },
     {
-      "epoch": 2.812678469446031,
-      "grad_norm": 2.2898778915405273,
-      "learning_rate": 1.6888888888888888e-07,
-      "loss": 0.1427,
       "step": 4925
     },
     {
-      "epoch": 2.826956025128498,
-      "grad_norm": 2.328401803970337,
-      "learning_rate": 1.1333333333333336e-07,
-      "loss": 0.1357,
       "step": 4950
     },
     {
-      "epoch": 2.841233580810965,
-      "grad_norm": 2.2169013023376465,
-      "learning_rate": 5.777777777777778e-08,
-      "loss": 0.1343,
       "step": 4975
     },
     {
-      "epoch": 2.8555111364934325,
-      "grad_norm": 2.42340350151062,
-      "learning_rate": 2.2222222222222225e-09,
-      "loss": 0.1313,
       "step": 5000
     },
     {
-      "epoch": 2.8555111364934325,
-      "eval_loss": 0.38383349776268005,
-      "eval_runtime": 1820.062,
-      "eval_samples_per_second": 2.143,
-      "eval_steps_per_second": 0.134,
-      "eval_wer": 0.27318168646769053,
       "step": 5000
     },
     {
-      "epoch": 2.8555111364934325,
       "step": 5000,
-      "total_flos": 5.435589590699213e+20,
-      "train_loss": 0.3002769865989685,
-      "train_runtime": 59305.2217,
-      "train_samples_per_second": 2.698,
-      "train_steps_per_second": 0.084
     }
   ],
   "logging_steps": 25,
   "max_steps": 5000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1480,7 +1480,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.435589590699213e+20,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.619795885306982,
   "eval_steps": 1000,
   "global_step": 5000,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.008099789405475458,
+      "grad_norm": 8.217827796936035,
       "learning_rate": 5.000000000000001e-07,
+      "loss": 1.6162,
       "step": 25
     },
     {
+      "epoch": 0.016199578810950917,
+      "grad_norm": 5.221391677856445,
       "learning_rate": 1.0000000000000002e-06,
+      "loss": 1.3426,
       "step": 50
     },
     {
+      "epoch": 0.02429936821642637,
+      "grad_norm": 6.4570441246032715,
       "learning_rate": 1.5e-06,
+      "loss": 1.0591,
       "step": 75
     },
     {
+      "epoch": 0.03239915762190183,
+      "grad_norm": 4.746372699737549,
       "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.9419,
       "step": 100
     },
     {
+      "epoch": 0.04049894702737729,
+      "grad_norm": 5.625121593475342,
       "learning_rate": 2.5e-06,
+      "loss": 0.8389,
       "step": 125
     },
     {
+      "epoch": 0.04859873643285274,
+      "grad_norm": 6.477604866027832,
       "learning_rate": 3e-06,
+      "loss": 0.8019,
       "step": 150
     },
     {
+      "epoch": 0.056698525838328205,
+      "grad_norm": 4.935534954071045,
       "learning_rate": 3.5e-06,
+      "loss": 0.8007,
       "step": 175
     },
     {
+      "epoch": 0.06479831524380367,
+      "grad_norm": 5.263591289520264,
       "learning_rate": 4.000000000000001e-06,
+      "loss": 0.7419,
       "step": 200
     },
     {
+      "epoch": 0.07289810464927912,
+      "grad_norm": 5.378949165344238,
       "learning_rate": 4.5e-06,
+      "loss": 0.7391,
       "step": 225
     },
     {
+      "epoch": 0.08099789405475458,
+      "grad_norm": 5.626790523529053,
       "learning_rate": 5e-06,
+      "loss": 0.7243,
       "step": 250
     },
     {
+      "epoch": 0.08909768346023003,
+      "grad_norm": 5.457970142364502,
       "learning_rate": 5.500000000000001e-06,
+      "loss": 0.7273,
       "step": 275
     },
     {
+      "epoch": 0.09719747286570549,
+      "grad_norm": 4.948482036590576,
       "learning_rate": 6e-06,
+      "loss": 0.7105,
       "step": 300
     },
     {
+      "epoch": 0.10529726227118096,
+      "grad_norm": 4.352142333984375,
       "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.7075,
       "step": 325
     },
     {
+      "epoch": 0.11339705167665641,
+      "grad_norm": 4.84460973739624,
       "learning_rate": 7e-06,
+      "loss": 0.6808,
       "step": 350
     },
     {
+      "epoch": 0.12149684108213187,
+      "grad_norm": 5.333044052124023,
       "learning_rate": 7.500000000000001e-06,
+      "loss": 0.6855,
       "step": 375
     },
     {
+      "epoch": 0.12959663048760733,
+      "grad_norm": 5.835122585296631,
       "learning_rate": 8.000000000000001e-06,
+      "loss": 0.642,
       "step": 400
     },
     {
+      "epoch": 0.1376964198930828,
+      "grad_norm": 6.060296058654785,
       "learning_rate": 8.5e-06,
+      "loss": 0.6443,
       "step": 425
     },
     {
+      "epoch": 0.14579620929855824,
+      "grad_norm": 4.375275135040283,
       "learning_rate": 9e-06,
+      "loss": 0.6477,
       "step": 450
     },
     {
+      "epoch": 0.1538959987040337,
+      "grad_norm": 4.223667144775391,
       "learning_rate": 9.5e-06,
+      "loss": 0.6369,
       "step": 475
     },
     {
+      "epoch": 0.16199578810950915,
+      "grad_norm": 10.034436225891113,
       "learning_rate": 1e-05,
+      "loss": 0.6853,
       "step": 500
     },
     {
+      "epoch": 0.1700955775149846,
+      "grad_norm": 4.590435028076172,
       "learning_rate": 9.944444444444445e-06,
+      "loss": 0.6149,
       "step": 525
     },
     {
+      "epoch": 0.17819536692046006,
+      "grad_norm": 4.104828357696533,
       "learning_rate": 9.88888888888889e-06,
+      "loss": 0.6267,
       "step": 550
     },
     {
+      "epoch": 0.18629515632593552,
+      "grad_norm": 3.9677858352661133,
       "learning_rate": 9.833333333333333e-06,
+      "loss": 0.5788,
       "step": 575
     },
     {
+      "epoch": 0.19439494573141097,
+      "grad_norm": 3.9867312908172607,
       "learning_rate": 9.777777777777779e-06,
+      "loss": 0.616,
       "step": 600
     },
     {
+      "epoch": 0.20249473513688643,
+      "grad_norm": 4.993474960327148,
       "learning_rate": 9.722222222222223e-06,
+      "loss": 0.6151,
       "step": 625
     },
     {
+      "epoch": 0.2105945245423619,
+      "grad_norm": 4.049670219421387,
       "learning_rate": 9.666666666666667e-06,
+      "loss": 0.5898,
       "step": 650
     },
     {
+      "epoch": 0.21869431394783737,
+      "grad_norm": 3.711517095565796,
       "learning_rate": 9.611111111111112e-06,
+      "loss": 0.5654,
       "step": 675
     },
     {
+      "epoch": 0.22679410335331282,
+      "grad_norm": 4.081414222717285,
       "learning_rate": 9.555555555555556e-06,
+      "loss": 0.5608,
       "step": 700
     },
     {
+      "epoch": 0.23489389275878828,
+      "grad_norm": 4.10880708694458,
       "learning_rate": 9.5e-06,
+      "loss": 0.5576,
       "step": 725
     },
     {
+      "epoch": 0.24299368216426373,
+      "grad_norm": 3.764904737472534,
       "learning_rate": 9.444444444444445e-06,
+      "loss": 0.5249,
       "step": 750
     },
     {
+      "epoch": 0.2510934715697392,
+      "grad_norm": 3.7500803470611572,
       "learning_rate": 9.38888888888889e-06,
+      "loss": 0.5724,
       "step": 775
     },
     {
+      "epoch": 0.25919326097521467,
+      "grad_norm": 4.319125175476074,
       "learning_rate": 9.333333333333334e-06,
+      "loss": 0.5368,
       "step": 800
     },
     {
+      "epoch": 0.2672930503806901,
+      "grad_norm": 3.590097665786743,
       "learning_rate": 9.277777777777778e-06,
+      "loss": 0.5494,
       "step": 825
     },
     {
+      "epoch": 0.2753928397861656,
+      "grad_norm": 5.081935405731201,
       "learning_rate": 9.222222222222224e-06,
+      "loss": 0.5443,
       "step": 850
     },
     {
+      "epoch": 0.28349262919164103,
+      "grad_norm": 3.8603386878967285,
       "learning_rate": 9.166666666666666e-06,
+      "loss": 0.5378,
       "step": 875
     },
     {
+      "epoch": 0.2915924185971165,
+      "grad_norm": 3.7635509967803955,
       "learning_rate": 9.111111111111112e-06,
+      "loss": 0.5121,
       "step": 900
     },
     {
+      "epoch": 0.29969220800259194,
+      "grad_norm": 4.4741692543029785,
       "learning_rate": 9.055555555555556e-06,
+      "loss": 0.5313,
       "step": 925
     },
     {
+      "epoch": 0.3077919974080674,
+      "grad_norm": 4.126248836517334,
       "learning_rate": 9e-06,
+      "loss": 0.5036,
       "step": 950
     },
     {
+      "epoch": 0.31589178681354285,
+      "grad_norm": 3.2901930809020996,
       "learning_rate": 8.944444444444446e-06,
+      "loss": 0.537,
       "step": 975
     },
     {
+      "epoch": 0.3239915762190183,
+      "grad_norm": 4.152955532073975,
       "learning_rate": 8.888888888888888e-06,
+      "loss": 0.5304,
       "step": 1000
     },
     {
+      "epoch": 0.3239915762190183,
+      "eval_loss": 0.5235934853553772,
+      "eval_runtime": 2073.7226,
+      "eval_samples_per_second": 1.879,
+      "eval_steps_per_second": 0.118,
+      "eval_wer": 0.3785823799976412,
       "step": 1000
     },
     {
+      "epoch": 0.33209136562449376,
+      "grad_norm": 3.5854649543762207,
       "learning_rate": 8.833333333333334e-06,
+      "loss": 0.5265,
       "step": 1025
     },
     {
+      "epoch": 0.3401911550299692,
+      "grad_norm": 3.5874733924865723,
       "learning_rate": 8.777777777777778e-06,
+      "loss": 0.4957,
       "step": 1050
     },
     {
+      "epoch": 0.34829094443544467,
+      "grad_norm": 4.2191338539123535,
       "learning_rate": 8.722222222222224e-06,
+      "loss": 0.4892,
       "step": 1075
     },
     {
+      "epoch": 0.3563907338409201,
+      "grad_norm": 4.080557823181152,
       "learning_rate": 8.666666666666668e-06,
+      "loss": 0.4992,
       "step": 1100
     },
     {
+      "epoch": 0.3644905232463956,
+      "grad_norm": 3.3749568462371826,
       "learning_rate": 8.611111111111112e-06,
+      "loss": 0.4999,
       "step": 1125
     },
     {
+      "epoch": 0.37259031265187104,
+      "grad_norm": 4.65897798538208,
       "learning_rate": 8.555555555555556e-06,
+      "loss": 0.4893,
       "step": 1150
     },
     {
+      "epoch": 0.3806901020573465,
+      "grad_norm": 4.345097541809082,
       "learning_rate": 8.5e-06,
+      "loss": 0.5078,
       "step": 1175
     },
     {
+      "epoch": 0.38878989146282195,
+      "grad_norm": 3.885808229446411,
       "learning_rate": 8.444444444444446e-06,
+      "loss": 0.4683,
       "step": 1200
     },
     {
+      "epoch": 0.3968896808682974,
+      "grad_norm": 3.44722318649292,
       "learning_rate": 8.38888888888889e-06,
+      "loss": 0.488,
       "step": 1225
     },
     {
+      "epoch": 0.40498947027377286,
+      "grad_norm": 3.6947743892669678,
       "learning_rate": 8.333333333333334e-06,
+      "loss": 0.4743,
       "step": 1250
     },
     {
+      "epoch": 0.41308925967924837,
+      "grad_norm": 4.338139533996582,
       "learning_rate": 8.277777777777778e-06,
+      "loss": 0.4913,
       "step": 1275
     },
     {
+      "epoch": 0.4211890490847238,
+      "grad_norm": 3.298166513442993,
       "learning_rate": 8.222222222222222e-06,
+      "loss": 0.4865,
       "step": 1300
     },
     {
+      "epoch": 0.4292888384901993,
+      "grad_norm": 3.604741334915161,
       "learning_rate": 8.166666666666668e-06,
+      "loss": 0.4826,
       "step": 1325
     },
     {
+      "epoch": 0.43738862789567473,
+      "grad_norm": 3.3499221801757812,
       "learning_rate": 8.111111111111112e-06,
+      "loss": 0.4722,
       "step": 1350
     },
     {
+      "epoch": 0.4454884173011502,
+      "grad_norm": 3.690180778503418,
       "learning_rate": 8.055555555555557e-06,
+      "loss": 0.4911,
       "step": 1375
     },
     {
+      "epoch": 0.45358820670662564,
+      "grad_norm": 2.948256492614746,
       "learning_rate": 8.000000000000001e-06,
+      "loss": 0.4757,
       "step": 1400
     },
     {
+      "epoch": 0.4616879961121011,
+      "grad_norm": 3.8048160076141357,
       "learning_rate": 7.944444444444445e-06,
+      "loss": 0.4637,
       "step": 1425
     },
     {
+      "epoch": 0.46978778551757655,
+      "grad_norm": 3.5490314960479736,
       "learning_rate": 7.88888888888889e-06,
+      "loss": 0.4889,
       "step": 1450
     },
     {
+      "epoch": 0.477887574923052,
+      "grad_norm": 5.1668009757995605,
       "learning_rate": 7.833333333333333e-06,
+      "loss": 0.4595,
       "step": 1475
     },
     {
+      "epoch": 0.48598736432852746,
+      "grad_norm": 3.1844429969787598,
       "learning_rate": 7.77777777777778e-06,
+      "loss": 0.4799,
       "step": 1500
     },
     {
+      "epoch": 0.4940871537340029,
+      "grad_norm": 3.055802583694458,
       "learning_rate": 7.722222222222223e-06,
+      "loss": 0.4701,
       "step": 1525
     },
     {
+      "epoch": 0.5021869431394784,
+      "grad_norm": 3.7342355251312256,
       "learning_rate": 7.666666666666667e-06,
+      "loss": 0.4866,
       "step": 1550
     },
     {
+      "epoch": 0.5102867325449538,
+      "grad_norm": 3.3651347160339355,
       "learning_rate": 7.611111111111111e-06,
+      "loss": 0.4462,
       "step": 1575
     },
     {
+      "epoch": 0.5183865219504293,
+      "grad_norm": 3.7382657527923584,
       "learning_rate": 7.555555555555556e-06,
+      "loss": 0.4491,
       "step": 1600
     },
     {
+      "epoch": 0.5264863113559047,
+      "grad_norm": 3.2548789978027344,
       "learning_rate": 7.500000000000001e-06,
+      "loss": 0.4604,
       "step": 1625
     },
     {
+      "epoch": 0.5345861007613802,
+      "grad_norm": 3.0430402755737305,
       "learning_rate": 7.444444444444445e-06,
+      "loss": 0.4354,
       "step": 1650
     },
     {
+      "epoch": 0.5426858901668556,
+      "grad_norm": 3.766554832458496,
       "learning_rate": 7.38888888888889e-06,
+      "loss": 0.465,
       "step": 1675
     },
     {
+      "epoch": 0.5507856795723312,
+      "grad_norm": 3.198700428009033,
       "learning_rate": 7.333333333333333e-06,
+      "loss": 0.4695,
       "step": 1700
     },
     {
+      "epoch": 0.5588854689778066,
+      "grad_norm": 2.7915539741516113,
       "learning_rate": 7.277777777777778e-06,
+      "loss": 0.4511,
       "step": 1725
     },
     {
+      "epoch": 0.5669852583832821,
+      "grad_norm": 3.3938117027282715,
       "learning_rate": 7.222222222222223e-06,
+      "loss": 0.4266,
       "step": 1750
     },
     {
+      "epoch": 0.5750850477887575,
+      "grad_norm": 3.4623613357543945,
       "learning_rate": 7.166666666666667e-06,
+      "loss": 0.4483,
       "step": 1775
     },
     {
+      "epoch": 0.583184837194233,
+      "grad_norm": 2.7853918075561523,
       "learning_rate": 7.111111111111112e-06,
+      "loss": 0.4197,
       "step": 1800
     },
     {
+      "epoch": 0.5912846265997084,
+      "grad_norm": 3.4827404022216797,
       "learning_rate": 7.055555555555557e-06,
+      "loss": 0.4319,
       "step": 1825
     },
     {
+      "epoch": 0.5993844160051839,
+      "grad_norm": 3.458853244781494,
       "learning_rate": 7e-06,
+      "loss": 0.4301,
       "step": 1850
     },
     {
+      "epoch": 0.6074842054106593,
+      "grad_norm": 3.726768970489502,
       "learning_rate": 6.944444444444445e-06,
+      "loss": 0.4339,
       "step": 1875
     },
     {
+      "epoch": 0.6155839948161348,
+      "grad_norm": 3.7597055435180664,
       "learning_rate": 6.88888888888889e-06,
+      "loss": 0.4265,
       "step": 1900
     },
     {
+      "epoch": 0.6236837842216102,
+      "grad_norm": 3.6740312576293945,
       "learning_rate": 6.833333333333334e-06,
+      "loss": 0.4302,
       "step": 1925
     },
     {
+      "epoch": 0.6317835736270857,
+      "grad_norm": 3.0535056591033936,
       "learning_rate": 6.777777777777779e-06,
+      "loss": 0.4336,
       "step": 1950
     },
     {
+      "epoch": 0.6398833630325611,
+      "grad_norm": 3.295497417449951,
       "learning_rate": 6.7222222222222235e-06,
+      "loss": 0.4526,
       "step": 1975
     },
     {
+      "epoch": 0.6479831524380366,
+      "grad_norm": 3.080634832382202,
       "learning_rate": 6.666666666666667e-06,
+      "loss": 0.4409,
       "step": 2000
     },
     {
+      "epoch": 0.6479831524380366,
+      "eval_loss": 0.4457571506500244,
+      "eval_runtime": 1994.8072,
+      "eval_samples_per_second": 1.954,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.35629201556787354,
       "step": 2000
     },
     {
+      "epoch": 0.6560829418435121,
+      "grad_norm": 3.1193337440490723,
       "learning_rate": 6.6111111111111115e-06,
+      "loss": 0.4111,
       "step": 2025
     },
     {
+      "epoch": 0.6641827312489875,
+      "grad_norm": 3.554410934448242,
       "learning_rate": 6.555555555555556e-06,
+      "loss": 0.4192,
       "step": 2050
     },
     {
+      "epoch": 0.672282520654463,
+      "grad_norm": 4.468347549438477,
       "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.4329,
       "step": 2075
     },
     {
+      "epoch": 0.6803823100599384,
+      "grad_norm": 3.5781023502349854,
       "learning_rate": 6.444444444444445e-06,
+      "loss": 0.4191,
       "step": 2100
     },
     {
+      "epoch": 0.6884820994654139,
+      "grad_norm": 3.257659912109375,
       "learning_rate": 6.3888888888888885e-06,
+      "loss": 0.4046,
       "step": 2125
     },
     {
+      "epoch": 0.6965818888708893,
+      "grad_norm": 3.030454397201538,
       "learning_rate": 6.333333333333333e-06,
+      "loss": 0.4033,
       "step": 2150
     },
     {
+      "epoch": 0.7046816782763649,
+      "grad_norm": 3.3289663791656494,
       "learning_rate": 6.277777777777778e-06,
+      "loss": 0.4342,
       "step": 2175
     },
     {
+      "epoch": 0.7127814676818403,
+      "grad_norm": 3.4743051528930664,
       "learning_rate": 6.222222222222223e-06,
+      "loss": 0.4102,
       "step": 2200
     },
     {
+      "epoch": 0.7208812570873158,
+      "grad_norm": 3.300485610961914,
       "learning_rate": 6.166666666666667e-06,
+      "loss": 0.3951,
       "step": 2225
     },
     {
+      "epoch": 0.7289810464927912,
+      "grad_norm": 3.374356746673584,
       "learning_rate": 6.111111111111112e-06,
+      "loss": 0.3993,
       "step": 2250
     },
     {
+      "epoch": 0.7370808358982667,
+      "grad_norm": 3.108508586883545,
       "learning_rate": 6.055555555555555e-06,
+      "loss": 0.3927,
       "step": 2275
     },
     {
+      "epoch": 0.7451806253037421,
+      "grad_norm": 3.448174238204956,
       "learning_rate": 6e-06,
+      "loss": 0.4254,
       "step": 2300
     },
     {
+      "epoch": 0.7532804147092176,
+      "grad_norm": 3.17012095451355,
       "learning_rate": 5.944444444444445e-06,
+      "loss": 0.396,
       "step": 2325
     },
     {
+      "epoch": 0.761380204114693,
+      "grad_norm": 3.3391034603118896,
       "learning_rate": 5.88888888888889e-06,
+      "loss": 0.4035,
       "step": 2350
     },
     {
+      "epoch": 0.7694799935201685,
+      "grad_norm": 3.1390321254730225,
       "learning_rate": 5.833333333333334e-06,
+      "loss": 0.4387,
       "step": 2375
     },
     {
+      "epoch": 0.7775797829256439,
+      "grad_norm": 2.801060199737549,
+      "learning_rate": 5.78e-06,
+      "loss": 0.4101,
       "step": 2400
     },
     {
+      "epoch": 0.7856795723311194,
+      "grad_norm": 3.169654130935669,
+      "learning_rate": 5.724444444444445e-06,
+      "loss": 0.4019,
       "step": 2425
     },
     {
+      "epoch": 0.7937793617365948,
+      "grad_norm": 3.1517333984375,
+      "learning_rate": 5.6688888888888895e-06,
+      "loss": 0.3955,
       "step": 2450
     },
     {
+      "epoch": 0.8018791511420703,
+      "grad_norm": 2.812309980392456,
+      "learning_rate": 5.613333333333334e-06,
+      "loss": 0.3976,
       "step": 2475
     },
     {
+      "epoch": 0.8099789405475457,
+      "grad_norm": 3.095435619354248,
+      "learning_rate": 5.557777777777778e-06,
+      "loss": 0.4173,
       "step": 2500
     },
     {
+      "epoch": 0.8180787299530212,
+      "grad_norm": 3.530505418777466,
+      "learning_rate": 5.5022222222222224e-06,
+      "loss": 0.3968,
       "step": 2525
     },
     {
+      "epoch": 0.8261785193584967,
+      "grad_norm": 3.6718244552612305,
+      "learning_rate": 5.4466666666666665e-06,
+      "loss": 0.4365,
       "step": 2550
     },
     {
+      "epoch": 0.8342783087639721,
+      "grad_norm": 3.455793857574463,
+      "learning_rate": 5.391111111111111e-06,
+      "loss": 0.3995,
       "step": 2575
     },
     {
+      "epoch": 0.8423780981694476,
+      "grad_norm": 3.074331760406494,
+      "learning_rate": 5.335555555555556e-06,
+      "loss": 0.3995,
       "step": 2600
     },
     {
+      "epoch": 0.850477887574923,
+      "grad_norm": 3.732499361038208,
+      "learning_rate": 5.28e-06,
+      "loss": 0.3873,
       "step": 2625
     },
     {
+      "epoch": 0.8585776769803986,
+      "grad_norm": 2.719492197036743,
+      "learning_rate": 5.224444444444445e-06,
+      "loss": 0.3938,
       "step": 2650
     },
     {
+      "epoch": 0.866677466385874,
+      "grad_norm": 3.279792308807373,
+      "learning_rate": 5.168888888888889e-06,
+      "loss": 0.4087,
       "step": 2675
     },
     {
+      "epoch": 0.8747772557913495,
+      "grad_norm": 3.178786516189575,
+      "learning_rate": 5.113333333333333e-06,
+      "loss": 0.3771,
       "step": 2700
     },
     {
+      "epoch": 0.8828770451968249,
+      "grad_norm": 2.70697283744812,
+      "learning_rate": 5.057777777777778e-06,
+      "loss": 0.3991,
       "step": 2725
     },
     {
+      "epoch": 0.8909768346023004,
+      "grad_norm": 3.0300474166870117,
+      "learning_rate": 5.002222222222223e-06,
+      "loss": 0.4069,
       "step": 2750
     },
     {
+      "epoch": 0.8990766240077758,
+      "grad_norm": 4.001626491546631,
+      "learning_rate": 4.946666666666667e-06,
+      "loss": 0.4153,
       "step": 2775
     },
     {
+      "epoch": 0.9071764134132513,
+      "grad_norm": 3.1544246673583984,
+      "learning_rate": 4.891111111111111e-06,
+      "loss": 0.3733,
       "step": 2800
     },
     {
+      "epoch": 0.9152762028187267,
+      "grad_norm": 3.553840398788452,
+      "learning_rate": 4.835555555555556e-06,
+      "loss": 0.409,
       "step": 2825
     },
     {
+      "epoch": 0.9233759922242022,
+      "grad_norm": 3.6127443313598633,
+      "learning_rate": 4.78e-06,
+      "loss": 0.3728,
       "step": 2850
     },
     {
+      "epoch": 0.9314757816296776,
+      "grad_norm": 3.1611216068267822,
+      "learning_rate": 4.724444444444445e-06,
+      "loss": 0.3923,
       "step": 2875
     },
     {
+      "epoch": 0.9395755710351531,
+      "grad_norm": 3.2189152240753174,
+      "learning_rate": 4.66888888888889e-06,
+      "loss": 0.4179,
       "step": 2900
     },
     {
+      "epoch": 0.9476753604406285,
+      "grad_norm": 3.3200769424438477,
+      "learning_rate": 4.613333333333334e-06,
+      "loss": 0.4067,
       "step": 2925
     },
     {
+      "epoch": 0.955775149846104,
+      "grad_norm": 3.38618540763855,
+      "learning_rate": 4.557777777777778e-06,
+      "loss": 0.384,
       "step": 2950
     },
     {
+      "epoch": 0.9638749392515794,
+      "grad_norm": 3.5702147483825684,
+      "learning_rate": 4.502222222222223e-06,
+      "loss": 0.3949,
       "step": 2975
     },
     {
+      "epoch": 0.9719747286570549,
+      "grad_norm": 2.6733343601226807,
+      "learning_rate": 4.446666666666667e-06,
+      "loss": 0.3914,
       "step": 3000
     },
     {
+      "epoch": 0.9719747286570549,
+      "eval_loss": 0.40348634123802185,
+      "eval_runtime": 1837.3277,
+      "eval_samples_per_second": 2.121,
+      "eval_steps_per_second": 0.133,
+      "eval_wer": 0.3089751149899752,
       "step": 3000
     },
     {
+      "epoch": 0.9800745180625303,
+      "grad_norm": 3.1163229942321777,
+      "learning_rate": 4.391111111111112e-06,
+      "loss": 0.3614,
       "step": 3025
     },
     {
+      "epoch": 0.9881743074680058,
+      "grad_norm": 4.919127941131592,
+      "learning_rate": 4.3355555555555565e-06,
+      "loss": 0.3815,
       "step": 3050
     },
     {
+      "epoch": 0.9962740968734813,
+      "grad_norm": 3.523918867111206,
+      "learning_rate": 4.2800000000000005e-06,
+      "loss": 0.3679,
       "step": 3075
     },
     {
+      "epoch": 1.0042118904908472,
+      "grad_norm": 2.188014268875122,
+      "learning_rate": 4.2244444444444446e-06,
+      "loss": 0.3305,
       "step": 3100
     },
     {
+      "epoch": 1.0123116798963228,
+      "grad_norm": 3.0015525817871094,
+      "learning_rate": 4.168888888888889e-06,
+      "loss": 0.2856,
       "step": 3125
     },
     {
+      "epoch": 1.020411469301798,
+      "grad_norm": 3.565284490585327,
+      "learning_rate": 4.1133333333333335e-06,
+      "loss": 0.296,
       "step": 3150
     },
     {
+      "epoch": 1.0285112587072736,
+      "grad_norm": 2.8771865367889404,
+      "learning_rate": 4.057777777777778e-06,
+      "loss": 0.2912,
       "step": 3175
     },
     {
+      "epoch": 1.036611048112749,
+      "grad_norm": 2.7181403636932373,
+      "learning_rate": 4.002222222222222e-06,
+      "loss": 0.2871,
       "step": 3200
     },
     {
+      "epoch": 1.0447108375182246,
+      "grad_norm": 2.652308225631714,
+      "learning_rate": 3.946666666666667e-06,
+      "loss": 0.2669,
       "step": 3225
     },
     {
+      "epoch": 1.0528106269237,
+      "grad_norm": 2.390458345413208,
+      "learning_rate": 3.891111111111111e-06,
+      "loss": 0.2852,
       "step": 3250
     },
     {
+      "epoch": 1.0609104163291754,
+      "grad_norm": 3.036996603012085,
+      "learning_rate": 3.835555555555555e-06,
+      "loss": 0.2835,
       "step": 3275
     },
     {
+      "epoch": 1.0690102057346509,
+      "grad_norm": 3.0076892375946045,
+      "learning_rate": 3.7800000000000002e-06,
+      "loss": 0.2853,
       "step": 3300
     },
     {
+      "epoch": 1.0771099951401264,
+      "grad_norm": 2.6001665592193604,
+      "learning_rate": 3.724444444444445e-06,
+      "loss": 0.2552,
       "step": 3325
     },
     {
+      "epoch": 1.085209784545602,
+      "grad_norm": 2.9106733798980713,
+      "learning_rate": 3.668888888888889e-06,
+      "loss": 0.2921,
       "step": 3350
     },
     {
+      "epoch": 1.0933095739510772,
+      "grad_norm": 2.579561710357666,
+      "learning_rate": 3.6133333333333336e-06,
+      "loss": 0.2904,
       "step": 3375
     },
     {
+      "epoch": 1.1014093633565527,
+      "grad_norm": 2.4961764812469482,
+      "learning_rate": 3.5577777777777785e-06,
+      "loss": 0.2699,
       "step": 3400
     },
     {
+      "epoch": 1.1095091527620282,
+      "grad_norm": 2.9800219535827637,
+      "learning_rate": 3.5022222222222225e-06,
+      "loss": 0.2867,
       "step": 3425
     },
     {
+      "epoch": 1.1176089421675037,
+      "grad_norm": 2.7929482460021973,
+      "learning_rate": 3.446666666666667e-06,
+      "loss": 0.2707,
       "step": 3450
     },
     {
+      "epoch": 1.125708731572979,
+      "grad_norm": 3.021549940109253,
+      "learning_rate": 3.391111111111111e-06,
+      "loss": 0.2793,
       "step": 3475
     },
     {
+      "epoch": 1.1338085209784545,
+      "grad_norm": 2.6613991260528564,
+      "learning_rate": 3.335555555555556e-06,
+      "loss": 0.2705,
       "step": 3500
     },
     {
+      "epoch": 1.14190831038393,
+      "grad_norm": 2.4502217769622803,
+      "learning_rate": 3.2800000000000004e-06,
+      "loss": 0.2776,
       "step": 3525
     },
     {
+      "epoch": 1.1500080997894055,
+      "grad_norm": 2.698561668395996,
+      "learning_rate": 3.2244444444444444e-06,
+      "loss": 0.2685,
       "step": 3550
     },
     {
+      "epoch": 1.158107889194881,
+      "grad_norm": 2.5799190998077393,
+      "learning_rate": 3.1688888888888893e-06,
+      "loss": 0.2788,
       "step": 3575
     },
     {
+      "epoch": 1.1662076786003563,
+      "grad_norm": 2.5856029987335205,
+      "learning_rate": 3.1133333333333337e-06,
+      "loss": 0.2691,
       "step": 3600
     },
     {
+      "epoch": 1.1743074680058319,
+      "grad_norm": 2.861074209213257,
+      "learning_rate": 3.0577777777777778e-06,
+      "loss": 0.2862,
       "step": 3625
     },
     {
+      "epoch": 1.1824072574113074,
+      "grad_norm": 2.6794049739837646,
+      "learning_rate": 3.0022222222222227e-06,
+      "loss": 0.269,
       "step": 3650
     },
     {
+      "epoch": 1.1905070468167827,
+      "grad_norm": 2.6813509464263916,
+      "learning_rate": 2.946666666666667e-06,
+      "loss": 0.2787,
       "step": 3675
     },
     {
+      "epoch": 1.1986068362222582,
+      "grad_norm": 2.5139195919036865,
+      "learning_rate": 2.891111111111111e-06,
+      "loss": 0.2876,
       "step": 3700
     },
     {
+      "epoch": 1.2067066256277337,
+      "grad_norm": 2.5221784114837646,
+      "learning_rate": 2.835555555555556e-06,
+      "loss": 0.2629,
       "step": 3725
     },
     {
+      "epoch": 1.2148064150332092,
+      "grad_norm": 2.6317663192749023,
+      "learning_rate": 2.7800000000000005e-06,
+      "loss": 0.2792,
       "step": 3750
     },
     {
+      "epoch": 1.2229062044386847,
+      "grad_norm": 3.165544271469116,
+      "learning_rate": 2.7244444444444445e-06,
+      "loss": 0.2798,
       "step": 3775
     },
     {
+      "epoch": 1.23100599384416,
+      "grad_norm": 2.9240896701812744,
+      "learning_rate": 2.6688888888888894e-06,
+      "loss": 0.2745,
       "step": 3800
     },
     {
+      "epoch": 1.2391057832496355,
+      "grad_norm": 2.7815427780151367,
+      "learning_rate": 2.6133333333333334e-06,
+      "loss": 0.2768,
       "step": 3825
     },
     {
+      "epoch": 1.247205572655111,
+      "grad_norm": 3.016592025756836,
+      "learning_rate": 2.557777777777778e-06,
+      "loss": 0.2735,
       "step": 3850
     },
     {
+      "epoch": 1.2553053620605863,
+      "grad_norm": 2.7359392642974854,
+      "learning_rate": 2.5022222222222224e-06,
+      "loss": 0.2757,
       "step": 3875
     },
     {
+      "epoch": 1.2634051514660618,
+      "grad_norm": 2.575500726699829,
+      "learning_rate": 2.446666666666667e-06,
+      "loss": 0.2635,
       "step": 3900
     },
     {
+      "epoch": 1.2715049408715373,
+      "grad_norm": 2.202298164367676,
+      "learning_rate": 2.3911111111111113e-06,
+      "loss": 0.2682,
       "step": 3925
     },
     {
+      "epoch": 1.2796047302770128,
+      "grad_norm": 3.1898550987243652,
+      "learning_rate": 2.3355555555555557e-06,
+      "loss": 0.2708,
       "step": 3950
     },
     {
+      "epoch": 1.2877045196824883,
+      "grad_norm": 2.5168306827545166,
+      "learning_rate": 2.28e-06,
+      "loss": 0.2639,
       "step": 3975
     },
     {
+      "epoch": 1.2958043090879636,
+      "grad_norm": 2.682749032974243,
+      "learning_rate": 2.2244444444444447e-06,
+      "loss": 0.296,
       "step": 4000
     },
     {
+      "epoch": 1.2958043090879636,
+      "eval_loss": 0.3868160843849182,
+      "eval_runtime": 1836.049,
+      "eval_samples_per_second": 2.122,
+      "eval_steps_per_second": 0.133,
+      "eval_wer": 0.2977002004953414,
       "step": 4000
     },
     {
+      "epoch": 1.3039040984934391,
+      "grad_norm": 2.805448293685913,
+      "learning_rate": 2.168888888888889e-06,
+      "loss": 0.2728,
       "step": 4025
     },
     {
+      "epoch": 1.3120038878989146,
+      "grad_norm": 2.2613837718963623,
+      "learning_rate": 2.1133333333333336e-06,
+      "loss": 0.2695,
       "step": 4050
     },
     {
+      "epoch": 1.3201036773043902,
+      "grad_norm": 2.4388859272003174,
+      "learning_rate": 2.057777777777778e-06,
+      "loss": 0.286,
       "step": 4075
     },
     {
+      "epoch": 1.3282034667098657,
+      "grad_norm": 2.807706832885742,
+      "learning_rate": 2.0022222222222225e-06,
+      "loss": 0.251,
       "step": 4100
     },
     {
+      "epoch": 1.336303256115341,
+      "grad_norm": 2.927849292755127,
+      "learning_rate": 1.9466666666666665e-06,
+      "loss": 0.2747,
       "step": 4125
     },
     {
+      "epoch": 1.3444030455208165,
+      "grad_norm": 2.2061877250671387,
+      "learning_rate": 1.8911111111111114e-06,
+      "loss": 0.267,
       "step": 4150
     },
     {
+      "epoch": 1.352502834926292,
+      "grad_norm": 2.5290238857269287,
+      "learning_rate": 1.8355555555555557e-06,
+      "loss": 0.2727,
       "step": 4175
     },
     {
+      "epoch": 1.3606026243317673,
+      "grad_norm": 2.74303936958313,
+      "learning_rate": 1.7800000000000001e-06,
+      "loss": 0.2726,
       "step": 4200
     },
     {
+      "epoch": 1.3687024137372428,
+      "grad_norm": 2.194861888885498,
+      "learning_rate": 1.7244444444444448e-06,
+      "loss": 0.2645,
       "step": 4225
     },
     {
+      "epoch": 1.3768022031427183,
+      "grad_norm": 2.4960832595825195,
+      "learning_rate": 1.668888888888889e-06,
+      "loss": 0.2788,
       "step": 4250
     },
     {
+      "epoch": 1.3849019925481938,
+      "grad_norm": 2.3262386322021484,
+      "learning_rate": 1.6133333333333335e-06,
+      "loss": 0.2586,
       "step": 4275
     },
     {
+      "epoch": 1.3930017819536693,
+      "grad_norm": 2.5423128604888916,
+      "learning_rate": 1.5577777777777777e-06,
+      "loss": 0.2719,
       "step": 4300
     },
     {
+      "epoch": 1.4011015713591446,
+      "grad_norm": 2.9188232421875,
+      "learning_rate": 1.5022222222222224e-06,
+      "loss": 0.2671,
       "step": 4325
     },
     {
+      "epoch": 1.40920136076462,
+      "grad_norm": 2.624691963195801,
+      "learning_rate": 1.4466666666666669e-06,
+      "loss": 0.2809,
       "step": 4350
     },
     {
+      "epoch": 1.4173011501700956,
+      "grad_norm": 2.674189329147339,
+      "learning_rate": 1.3911111111111111e-06,
+      "loss": 0.2651,
       "step": 4375
     },
     {
+      "epoch": 1.425400939575571,
+      "grad_norm": 2.832871913909912,
+      "learning_rate": 1.3355555555555558e-06,
+      "loss": 0.2676,
       "step": 4400
     },
     {
+      "epoch": 1.4335007289810464,
+      "grad_norm": 2.8886163234710693,
       "learning_rate": 1.28e-06,
+      "loss": 0.2717,
       "step": 4425
     },
     {
+      "epoch": 1.441600518386522,
+      "grad_norm": 2.9759998321533203,
       "learning_rate": 1.2244444444444445e-06,
+      "loss": 0.2709,
       "step": 4450
     },
     {
+      "epoch": 1.4497003077919974,
+      "grad_norm": 2.8396642208099365,
       "learning_rate": 1.168888888888889e-06,
+      "loss": 0.2701,
       "step": 4475
     },
     {
+      "epoch": 1.457800097197473,
+      "grad_norm": 3.0574100017547607,
+      "learning_rate": 1.1155555555555558e-06,
+      "loss": 0.2592,
       "step": 4500
     },
     {
+      "epoch": 1.4658998866029482,
+      "grad_norm": 2.318142890930176,
+      "learning_rate": 1.06e-06,
+      "loss": 0.2731,
       "step": 4525
     },
     {
+      "epoch": 1.4739996760084237,
+      "grad_norm": 2.372235059738159,
+      "learning_rate": 1.0044444444444445e-06,
+      "loss": 0.2694,
       "step": 4550
     },
     {
+      "epoch": 1.4820994654138993,
+      "grad_norm": 2.6232292652130127,
+      "learning_rate": 9.488888888888889e-07,
+      "loss": 0.2529,
       "step": 4575
     },
     {
+      "epoch": 1.4901992548193748,
+      "grad_norm": 2.717992067337036,
+      "learning_rate": 8.933333333333334e-07,
+      "loss": 0.2779,
       "step": 4600
     },
     {
+      "epoch": 1.4982990442248503,
+      "grad_norm": 2.852125406265259,
+      "learning_rate": 8.37777777777778e-07,
+      "loss": 0.2596,
       "step": 4625
     },
     {
+      "epoch": 1.5063988336303256,
+      "grad_norm": 2.2071590423583984,
+      "learning_rate": 7.822222222222223e-07,
+      "loss": 0.2765,
       "step": 4650
     },
     {
+      "epoch": 1.514498623035801,
+      "grad_norm": 2.871159315109253,
+      "learning_rate": 7.266666666666668e-07,
+      "loss": 0.2594,
       "step": 4675
     },
     {
+      "epoch": 1.5225984124412766,
+      "grad_norm": 2.287871837615967,
+      "learning_rate": 6.711111111111111e-07,
+      "loss": 0.2703,
       "step": 4700
     },
     {
+      "epoch": 1.5306982018467519,
+      "grad_norm": 2.345743417739868,
+      "learning_rate": 6.155555555555556e-07,
+      "loss": 0.2641,
       "step": 4725
     },
     {
+      "epoch": 1.5387979912522276,
+      "grad_norm": 2.734402656555176,
+      "learning_rate": 5.6e-07,
+      "loss": 0.2644,
       "step": 4750
     },
     {
+      "epoch": 1.546897780657703,
+      "grad_norm": 2.6672370433807373,
+      "learning_rate": 5.044444444444445e-07,
+      "loss": 0.2568,
       "step": 4775
     },
     {
+      "epoch": 1.5549975700631784,
+      "grad_norm": 2.9469447135925293,
+      "learning_rate": 4.488888888888889e-07,
+      "loss": 0.2646,
       "step": 4800
     },
     {
+      "epoch": 1.563097359468654,
+      "grad_norm": 3.1269147396087646,
+      "learning_rate": 3.9333333333333336e-07,
+      "loss": 0.2643,
       "step": 4825
     },
     {
+      "epoch": 1.5711971488741292,
+      "grad_norm": 2.543921709060669,
+      "learning_rate": 3.3777777777777777e-07,
+      "loss": 0.2738,
       "step": 4850
     },
     {
+      "epoch": 1.5792969382796047,
+      "grad_norm": 2.7174246311187744,
+      "learning_rate": 2.822222222222222e-07,
+      "loss": 0.2439,
       "step": 4875
     },
     {
+      "epoch": 1.5873967276850802,
+      "grad_norm": 2.381450891494751,
+      "learning_rate": 2.266666666666667e-07,
+      "loss": 0.2773,
       "step": 4900
     },
     {
+      "epoch": 1.5954965170905555,
+      "grad_norm": 2.9978244304656982,
+      "learning_rate": 1.7111111111111114e-07,
+      "loss": 0.2653,
       "step": 4925
     },
     {
+      "epoch": 1.6035963064960312,
+      "grad_norm": 2.594560384750366,
+      "learning_rate": 1.1555555555555556e-07,
+      "loss": 0.2472,
       "step": 4950
     },
     {
+      "epoch": 1.6116960959015065,
+      "grad_norm": 2.8399264812469482,
+      "learning_rate": 6.000000000000001e-08,
+      "loss": 0.258,
       "step": 4975
     },
     {
+      "epoch": 1.619795885306982,
+      "grad_norm": 2.9382212162017822,
+      "learning_rate": 4.444444444444445e-09,
+      "loss": 0.274,
       "step": 5000
     },
     {
+      "epoch": 1.619795885306982,
+      "eval_loss": 0.3738669753074646,
+      "eval_runtime": 1856.8663,
+      "eval_samples_per_second": 2.099,
+      "eval_steps_per_second": 0.131,
+      "eval_wer": 0.29154381412902464,
       "step": 5000
     },
     {
+      "epoch": 1.619795885306982,
       "step": 5000,
+      "total_flos": 5.435419715783885e+20,
+      "train_loss": 0.4225531764030456,
+      "train_runtime": 64153.0147,
+      "train_samples_per_second": 2.494,
+      "train_steps_per_second": 0.078
     }
   ],
   "logging_steps": 25,
   "max_steps": 5000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 5.435419715783885e+20,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52d863451b68ca001911093c50580b07ade53625439e9961dceca82905be4d2f
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3ec45a0f94508361d7a8afc788e43452d0d48a3e9839538d81547b065babf44
+size 5560