Uploading checkpoint-99000 for xlm-r - uzn-latn

Browse files

Files changed (14) hide show

.gitattributes +1 -0
README.md +67 -0
config.json +34 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +15 -0
tokenizer.json +3 -0
tokenizer_config.json +54 -0
trainer_state.json +3201 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+license: mit
+base_model: FacebookAI/xlm-roberta-base
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: uzn-Latn
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# uzn-Latn
+This model is a fine-tuned version of [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6229
+- Accuracy: 0.8653
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- training_steps: 100000
+    ### Citation Information
+    If you use this model in your work, please cite the following paper. Additionally, if you require more details on training and performance, refer to the paper:
+    @misc{gurgurov2025smallmodelsbigimpact,
+        title={Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages},
+        author={Daniil Gurgurov and Ivan Vykopal and Josef van Genabith and Simon Ostermann},
+        year={2025},
+        eprint={2502.10140},
+        archivePrefix={arXiv},
+        primaryClass={cs.CL},
+        url={https://arxiv.org/abs/2502.10140},
+    }

config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "FacebookAI/xlm-roberta-base",
+  "adapters": {
+    "adapters": {},
+    "config_map": {},
+    "fusion_config_map": {},
+    "fusions": {}
+  },
+  "architectures": [
+    "XLMRobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:332cea4539e1cadc20089ac3ef1ade6245aa13ba9248f2a0b7eb7da1dfe4bf9e
+size 1113205088

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb607eaff897112bbbc2731509030fc74f29b8d9b2a8995cfc1fde5817b19057
+size 2226530490

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e8b0c40741c3ca3d58b24396b7779893a066d87b35191d3858caf8b8c764edb
+size 14512

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6ef4f664da58ec5c5db88234f7495dc67b3e9b75bb64d714f5cd8d137a3a81e
+size 14512

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4415404b182ca8f419ce636856a8efa57ef9cce9de682e39e40579cf7bbd5cfa
+size 1064

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a56def25aa40facc030ea8b0b87f3688e4b3c39eb8b45d5702b3a1300fe2a20
+size 17082734

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3201 @@

+{
+  "best_metric": 0.6234558820724487,
+  "best_model_checkpoint": "./model_fine-tune/glot/xlm-r/uzn-Latn/checkpoint-99000",
+  "epoch": 41.89589504866695,
+  "eval_steps": 500,
+  "global_step": 99000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.21159542953872196,
+      "grad_norm": 4.434164524078369,
+      "learning_rate": 9.95e-05,
+      "loss": 1.5949,
+      "step": 500
+    },
+    {
+      "epoch": 0.21159542953872196,
+      "eval_accuracy": 0.7415006903887,
+      "eval_loss": 1.3261646032333374,
+      "eval_runtime": 265.0068,
+      "eval_samples_per_second": 71.308,
+      "eval_steps_per_second": 2.23,
+      "step": 500
+    },
+    {
+      "epoch": 0.4231908590774439,
+      "grad_norm": 3.693413019180298,
+      "learning_rate": 9.900000000000001e-05,
+      "loss": 1.4055,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4231908590774439,
+      "eval_accuracy": 0.7583639306343546,
+      "eval_loss": 1.227454423904419,
+      "eval_runtime": 262.5029,
+      "eval_samples_per_second": 71.988,
+      "eval_steps_per_second": 2.251,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6347862886161659,
+      "grad_norm": 3.762786626815796,
+      "learning_rate": 9.850000000000001e-05,
+      "loss": 1.3153,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6347862886161659,
+      "eval_accuracy": 0.7683719424177892,
+      "eval_loss": 1.165597915649414,
+      "eval_runtime": 264.0264,
+      "eval_samples_per_second": 71.572,
+      "eval_steps_per_second": 2.238,
+      "step": 1500
+    },
+    {
+      "epoch": 0.8463817181548878,
+      "grad_norm": 3.268561363220215,
+      "learning_rate": 9.8e-05,
+      "loss": 1.2465,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8463817181548878,
+      "eval_accuracy": 0.7746318121371659,
+      "eval_loss": 1.129242181777954,
+      "eval_runtime": 267.1986,
+      "eval_samples_per_second": 70.723,
+      "eval_steps_per_second": 2.212,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0579771476936097,
+      "grad_norm": 3.4465203285217285,
+      "learning_rate": 9.75e-05,
+      "loss": 1.1997,
+      "step": 2500
+    },
+    {
+      "epoch": 1.0579771476936097,
+      "eval_accuracy": 0.7807192546952261,
+      "eval_loss": 1.0862959623336792,
+      "eval_runtime": 265.0077,
+      "eval_samples_per_second": 71.307,
+      "eval_steps_per_second": 2.23,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2695725772323319,
+      "grad_norm": 3.1835036277770996,
+      "learning_rate": 9.7e-05,
+      "loss": 1.1632,
+      "step": 3000
+    },
+    {
+      "epoch": 1.2695725772323319,
+      "eval_accuracy": 0.786845547424612,
+      "eval_loss": 1.0550775527954102,
+      "eval_runtime": 268.1524,
+      "eval_samples_per_second": 70.471,
+      "eval_steps_per_second": 2.204,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4811680067710538,
+      "grad_norm": 3.164971351623535,
+      "learning_rate": 9.65e-05,
+      "loss": 1.1396,
+      "step": 3500
+    },
+    {
+      "epoch": 1.4811680067710538,
+      "eval_accuracy": 0.7906282636002393,
+      "eval_loss": 1.0312221050262451,
+      "eval_runtime": 261.0188,
+      "eval_samples_per_second": 72.397,
+      "eval_steps_per_second": 2.264,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6927634363097757,
+      "grad_norm": 3.152045726776123,
+      "learning_rate": 9.6e-05,
+      "loss": 1.1218,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6927634363097757,
+      "eval_accuracy": 0.7939129095846292,
+      "eval_loss": 1.0148138999938965,
+      "eval_runtime": 261.2127,
+      "eval_samples_per_second": 72.343,
+      "eval_steps_per_second": 2.263,
+      "step": 4000
+    },
+    {
+      "epoch": 1.9043588658484976,
+      "grad_norm": 3.2000935077667236,
+      "learning_rate": 9.55e-05,
+      "loss": 1.0952,
+      "step": 4500
+    },
+    {
+      "epoch": 1.9043588658484976,
+      "eval_accuracy": 0.796421854478171,
+      "eval_loss": 1.0022459030151367,
+      "eval_runtime": 262.0826,
+      "eval_samples_per_second": 72.103,
+      "eval_steps_per_second": 2.255,
+      "step": 4500
+    },
+    {
+      "epoch": 2.1159542953872195,
+      "grad_norm": 3.313800096511841,
+      "learning_rate": 9.5e-05,
+      "loss": 1.0685,
+      "step": 5000
+    },
+    {
+      "epoch": 2.1159542953872195,
+      "eval_accuracy": 0.7985224751944007,
+      "eval_loss": 0.988966703414917,
+      "eval_runtime": 264.052,
+      "eval_samples_per_second": 71.565,
+      "eval_steps_per_second": 2.238,
+      "step": 5000
+    },
+    {
+      "epoch": 2.327549724925942,
+      "grad_norm": 3.2013304233551025,
+      "learning_rate": 9.449999999999999e-05,
+      "loss": 1.0523,
+      "step": 5500
+    },
+    {
+      "epoch": 2.327549724925942,
+      "eval_accuracy": 0.8012577871302939,
+      "eval_loss": 0.9748390316963196,
+      "eval_runtime": 269.8704,
+      "eval_samples_per_second": 70.023,
+      "eval_steps_per_second": 2.19,
+      "step": 5500
+    },
+    {
+      "epoch": 2.5391451544646637,
+      "grad_norm": 3.0251410007476807,
+      "learning_rate": 9.4e-05,
+      "loss": 1.044,
+      "step": 6000
+    },
+    {
+      "epoch": 2.5391451544646637,
+      "eval_accuracy": 0.8029170301339402,
+      "eval_loss": 0.9601685404777527,
+      "eval_runtime": 268.4232,
+      "eval_samples_per_second": 70.4,
+      "eval_steps_per_second": 2.202,
+      "step": 6000
+    },
+    {
+      "epoch": 2.7507405840033856,
+      "grad_norm": 2.930997848510742,
+      "learning_rate": 9.350000000000001e-05,
+      "loss": 1.0343,
+      "step": 6500
+    },
+    {
+      "epoch": 2.7507405840033856,
+      "eval_accuracy": 0.805052253217078,
+      "eval_loss": 0.9487553238868713,
+      "eval_runtime": 264.5768,
+      "eval_samples_per_second": 71.423,
+      "eval_steps_per_second": 2.234,
+      "step": 6500
+    },
+    {
+      "epoch": 2.9623360135421075,
+      "grad_norm": 3.306950092315674,
+      "learning_rate": 9.300000000000001e-05,
+      "loss": 1.0207,
+      "step": 7000
+    },
+    {
+      "epoch": 2.9623360135421075,
+      "eval_accuracy": 0.8072712938050743,
+      "eval_loss": 0.9344848990440369,
+      "eval_runtime": 261.3121,
+      "eval_samples_per_second": 72.316,
+      "eval_steps_per_second": 2.262,
+      "step": 7000
+    },
+    {
+      "epoch": 3.1739314430808294,
+      "grad_norm": 3.1234290599823,
+      "learning_rate": 9.250000000000001e-05,
+      "loss": 0.9968,
+      "step": 7500
+    },
+    {
+      "epoch": 3.1739314430808294,
+      "eval_accuracy": 0.8097116174930715,
+      "eval_loss": 0.9220897555351257,
+      "eval_runtime": 261.4242,
+      "eval_samples_per_second": 72.285,
+      "eval_steps_per_second": 2.261,
+      "step": 7500
+    },
+    {
+      "epoch": 3.3855268726195513,
+      "grad_norm": 2.843127489089966,
+      "learning_rate": 9.200000000000001e-05,
+      "loss": 0.9911,
+      "step": 8000
+    },
+    {
+      "epoch": 3.3855268726195513,
+      "eval_accuracy": 0.8093441915469591,
+      "eval_loss": 0.9209358096122742,
+      "eval_runtime": 262.059,
+      "eval_samples_per_second": 72.11,
+      "eval_steps_per_second": 2.255,
+      "step": 8000
+    },
+    {
+      "epoch": 3.597122302158273,
+      "grad_norm": 2.881608486175537,
+      "learning_rate": 9.15e-05,
+      "loss": 0.9814,
+      "step": 8500
+    },
+    {
+      "epoch": 3.597122302158273,
+      "eval_accuracy": 0.8116044495854465,
+      "eval_loss": 0.9110698103904724,
+      "eval_runtime": 262.9803,
+      "eval_samples_per_second": 71.857,
+      "eval_steps_per_second": 2.247,
+      "step": 8500
+    },
+    {
+      "epoch": 3.808717731696995,
+      "grad_norm": 2.61930775642395,
+      "learning_rate": 9.1e-05,
+      "loss": 0.9771,
+      "step": 9000
+    },
+    {
+      "epoch": 3.808717731696995,
+      "eval_accuracy": 0.8128892549218165,
+      "eval_loss": 0.9043537974357605,
+      "eval_runtime": 262.8053,
+      "eval_samples_per_second": 71.905,
+      "eval_steps_per_second": 2.249,
+      "step": 9000
+    },
+    {
+      "epoch": 4.020313161235717,
+      "grad_norm": 2.6366899013519287,
+      "learning_rate": 9.05e-05,
+      "loss": 0.9672,
+      "step": 9500
+    },
+    {
+      "epoch": 4.020313161235717,
+      "eval_accuracy": 0.8148536051761858,
+      "eval_loss": 0.8920000791549683,
+      "eval_runtime": 261.5431,
+      "eval_samples_per_second": 72.252,
+      "eval_steps_per_second": 2.26,
+      "step": 9500
+    },
+    {
+      "epoch": 4.231908590774439,
+      "grad_norm": 2.441375494003296,
+      "learning_rate": 9e-05,
+      "loss": 0.9449,
+      "step": 10000
+    },
+    {
+      "epoch": 4.231908590774439,
+      "eval_accuracy": 0.814937091817134,
+      "eval_loss": 0.8959429860115051,
+      "eval_runtime": 261.984,
+      "eval_samples_per_second": 72.13,
+      "eval_steps_per_second": 2.256,
+      "step": 10000
+    },
+    {
+      "epoch": 4.443504020313161,
+      "grad_norm": 2.8624706268310547,
+      "learning_rate": 8.950000000000001e-05,
+      "loss": 0.9437,
+      "step": 10500
+    },
+    {
+      "epoch": 4.443504020313161,
+      "eval_accuracy": 0.8163062854097559,
+      "eval_loss": 0.8837795257568359,
+      "eval_runtime": 263.0741,
+      "eval_samples_per_second": 71.831,
+      "eval_steps_per_second": 2.247,
+      "step": 10500
+    },
+    {
+      "epoch": 4.655099449851884,
+      "grad_norm": 2.6085846424102783,
+      "learning_rate": 8.900000000000001e-05,
+      "loss": 0.9411,
+      "step": 11000
+    },
+    {
+      "epoch": 4.655099449851884,
+      "eval_accuracy": 0.8171731998620368,
+      "eval_loss": 0.8850966691970825,
+      "eval_runtime": 261.6176,
+      "eval_samples_per_second": 72.231,
+      "eval_steps_per_second": 2.259,
+      "step": 11000
+    },
+    {
+      "epoch": 4.8666948793906055,
+      "grad_norm": 2.5416243076324463,
+      "learning_rate": 8.850000000000001e-05,
+      "loss": 0.933,
+      "step": 11500
+    },
+    {
+      "epoch": 4.8666948793906055,
+      "eval_accuracy": 0.8185834466131473,
+      "eval_loss": 0.8731749057769775,
+      "eval_runtime": 261.782,
+      "eval_samples_per_second": 72.186,
+      "eval_steps_per_second": 2.258,
+      "step": 11500
+    },
+    {
+      "epoch": 5.078290308929327,
+      "grad_norm": 2.612407922744751,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 0.9315,
+      "step": 12000
+    },
+    {
+      "epoch": 5.078290308929327,
+      "eval_accuracy": 0.8187567458175931,
+      "eval_loss": 0.869110107421875,
+      "eval_runtime": 261.1101,
+      "eval_samples_per_second": 72.372,
+      "eval_steps_per_second": 2.263,
+      "step": 12000
+    },
+    {
+      "epoch": 5.289885738468049,
+      "grad_norm": 2.8483285903930664,
+      "learning_rate": 8.75e-05,
+      "loss": 0.9088,
+      "step": 12500
+    },
+    {
+      "epoch": 5.289885738468049,
+      "eval_accuracy": 0.8201638435459165,
+      "eval_loss": 0.8674561381340027,
+      "eval_runtime": 261.9262,
+      "eval_samples_per_second": 72.146,
+      "eval_steps_per_second": 2.256,
+      "step": 12500
+    },
+    {
+      "epoch": 5.501481168006771,
+      "grad_norm": 2.5588083267211914,
+      "learning_rate": 8.7e-05,
+      "loss": 0.9058,
+      "step": 13000
+    },
+    {
+      "epoch": 5.501481168006771,
+      "eval_accuracy": 0.8214759119665203,
+      "eval_loss": 0.8570760488510132,
+      "eval_runtime": 262.1678,
+      "eval_samples_per_second": 72.08,
+      "eval_steps_per_second": 2.254,
+      "step": 13000
+    },
+    {
+      "epoch": 5.713076597545493,
+      "grad_norm": 2.814786911010742,
+      "learning_rate": 8.65e-05,
+      "loss": 0.9167,
+      "step": 13500
+    },
+    {
+      "epoch": 5.713076597545493,
+      "eval_accuracy": 0.8220026413735142,
+      "eval_loss": 0.855957567691803,
+      "eval_runtime": 260.6428,
+      "eval_samples_per_second": 72.502,
+      "eval_steps_per_second": 2.267,
+      "step": 13500
+    },
+    {
+      "epoch": 5.924672027084215,
+      "grad_norm": 2.5954926013946533,
+      "learning_rate": 8.6e-05,
+      "loss": 0.9028,
+      "step": 14000
+    },
+    {
+      "epoch": 5.924672027084215,
+      "eval_accuracy": 0.8231700035983244,
+      "eval_loss": 0.8471564054489136,
+      "eval_runtime": 260.6102,
+      "eval_samples_per_second": 72.511,
+      "eval_steps_per_second": 2.268,
+      "step": 14000
+    },
+    {
+      "epoch": 6.136267456622937,
+      "grad_norm": 2.6153945922851562,
+      "learning_rate": 8.55e-05,
+      "loss": 0.8881,
+      "step": 14500
+    },
+    {
+      "epoch": 6.136267456622937,
+      "eval_accuracy": 0.8229755783030882,
+      "eval_loss": 0.8483458161354065,
+      "eval_runtime": 260.6741,
+      "eval_samples_per_second": 72.493,
+      "eval_steps_per_second": 2.267,
+      "step": 14500
+    },
+    {
+      "epoch": 6.347862886161659,
+      "grad_norm": 2.49493408203125,
+      "learning_rate": 8.5e-05,
+      "loss": 0.8925,
+      "step": 15000
+    },
+    {
+      "epoch": 6.347862886161659,
+      "eval_accuracy": 0.8240020605106504,
+      "eval_loss": 0.8421888947486877,
+      "eval_runtime": 260.6914,
+      "eval_samples_per_second": 72.488,
+      "eval_steps_per_second": 2.267,
+      "step": 15000
+    },
+    {
+      "epoch": 6.559458315700381,
+      "grad_norm": 2.2969086170196533,
+      "learning_rate": 8.450000000000001e-05,
+      "loss": 0.8837,
+      "step": 15500
+    },
+    {
+      "epoch": 6.559458315700381,
+      "eval_accuracy": 0.8250350160210288,
+      "eval_loss": 0.8379595875740051,
+      "eval_runtime": 260.8836,
+      "eval_samples_per_second": 72.435,
+      "eval_steps_per_second": 2.265,
+      "step": 15500
+    },
+    {
+      "epoch": 6.771053745239103,
+      "grad_norm": 2.4784414768218994,
+      "learning_rate": 8.4e-05,
+      "loss": 0.8821,
+      "step": 16000
+    },
+    {
+      "epoch": 6.771053745239103,
+      "eval_accuracy": 0.8252737240886805,
+      "eval_loss": 0.8320221304893494,
+      "eval_runtime": 261.1567,
+      "eval_samples_per_second": 72.359,
+      "eval_steps_per_second": 2.263,
+      "step": 16000
+    },
+    {
+      "epoch": 6.9826491747778245,
+      "grad_norm": 2.628394603729248,
+      "learning_rate": 8.35e-05,
+      "loss": 0.8791,
+      "step": 16500
+    },
+    {
+      "epoch": 6.9826491747778245,
+      "eval_accuracy": 0.8262492314392581,
+      "eval_loss": 0.8314688801765442,
+      "eval_runtime": 261.3176,
+      "eval_samples_per_second": 72.314,
+      "eval_steps_per_second": 2.262,
+      "step": 16500
+    },
+    {
+      "epoch": 7.194244604316546,
+      "grad_norm": 2.6256425380706787,
+      "learning_rate": 8.3e-05,
+      "loss": 0.8665,
+      "step": 17000
+    },
+    {
+      "epoch": 7.194244604316546,
+      "eval_accuracy": 0.8275952388580949,
+      "eval_loss": 0.8231970071792603,
+      "eval_runtime": 260.9874,
+      "eval_samples_per_second": 72.406,
+      "eval_steps_per_second": 2.264,
+      "step": 17000
+    },
+    {
+      "epoch": 7.405840033855268,
+      "grad_norm": 2.7044148445129395,
+      "learning_rate": 8.25e-05,
+      "loss": 0.8575,
+      "step": 17500
+    },
+    {
+      "epoch": 7.405840033855268,
+      "eval_accuracy": 0.827272144082883,
+      "eval_loss": 0.8277395963668823,
+      "eval_runtime": 260.9238,
+      "eval_samples_per_second": 72.423,
+      "eval_steps_per_second": 2.265,
+      "step": 17500
+    },
+    {
+      "epoch": 7.61743546339399,
+      "grad_norm": 2.6002700328826904,
+      "learning_rate": 8.2e-05,
+      "loss": 0.8604,
+      "step": 18000
+    },
+    {
+      "epoch": 7.61743546339399,
+      "eval_accuracy": 0.8280005094263907,
+      "eval_loss": 0.8207961916923523,
+      "eval_runtime": 260.4739,
+      "eval_samples_per_second": 72.549,
+      "eval_steps_per_second": 2.269,
+      "step": 18000
+    },
+    {
+      "epoch": 7.829030892932713,
+      "grad_norm": 2.5834431648254395,
+      "learning_rate": 8.15e-05,
+      "loss": 0.8607,
+      "step": 18500
+    },
+    {
+      "epoch": 7.829030892932713,
+      "eval_accuracy": 0.8286160780694416,
+      "eval_loss": 0.8186063170433044,
+      "eval_runtime": 260.9354,
+      "eval_samples_per_second": 72.42,
+      "eval_steps_per_second": 2.265,
+      "step": 18500
+    },
+    {
+      "epoch": 8.040626322471434,
+      "grad_norm": 2.450000286102295,
+      "learning_rate": 8.1e-05,
+      "loss": 0.8533,
+      "step": 19000
+    },
+    {
+      "epoch": 8.040626322471434,
+      "eval_accuracy": 0.8295623170703325,
+      "eval_loss": 0.8106991052627563,
+      "eval_runtime": 260.8924,
+      "eval_samples_per_second": 72.432,
+      "eval_steps_per_second": 2.265,
+      "step": 19000
+    },
+    {
+      "epoch": 8.252221752010156,
+      "grad_norm": 2.3678555488586426,
+      "learning_rate": 8.05e-05,
+      "loss": 0.8405,
+      "step": 19500
+    },
+    {
+      "epoch": 8.252221752010156,
+      "eval_accuracy": 0.8299051887495135,
+      "eval_loss": 0.810931384563446,
+      "eval_runtime": 260.8981,
+      "eval_samples_per_second": 72.431,
+      "eval_steps_per_second": 2.265,
+      "step": 19500
+    },
+    {
+      "epoch": 8.463817181548878,
+      "grad_norm": 2.7959389686584473,
+      "learning_rate": 8e-05,
+      "loss": 0.8354,
+      "step": 20000
+    },
+    {
+      "epoch": 8.463817181548878,
+      "eval_accuracy": 0.8304909138003899,
+      "eval_loss": 0.8072193264961243,
+      "eval_runtime": 261.9921,
+      "eval_samples_per_second": 72.128,
+      "eval_steps_per_second": 2.256,
+      "step": 20000
+    },
+    {
+      "epoch": 8.6754126110876,
+      "grad_norm": 2.338129997253418,
+      "learning_rate": 7.950000000000001e-05,
+      "loss": 0.8426,
+      "step": 20500
+    },
+    {
+      "epoch": 8.6754126110876,
+      "eval_accuracy": 0.8310040911785016,
+      "eval_loss": 0.8057392239570618,
+      "eval_runtime": 260.6048,
+      "eval_samples_per_second": 72.512,
+      "eval_steps_per_second": 2.268,
+      "step": 20500
+    },
+    {
+      "epoch": 8.887008040626322,
+      "grad_norm": 2.18009090423584,
+      "learning_rate": 7.900000000000001e-05,
+      "loss": 0.8349,
+      "step": 21000
+    },
+    {
+      "epoch": 8.887008040626322,
+      "eval_accuracy": 0.8315544812495695,
+      "eval_loss": 0.7978902459144592,
+      "eval_runtime": 266.29,
+      "eval_samples_per_second": 70.964,
+      "eval_steps_per_second": 2.219,
+      "step": 21000
+    },
+    {
+      "epoch": 9.098603470165044,
+      "grad_norm": 2.4883456230163574,
+      "learning_rate": 7.850000000000001e-05,
+      "loss": 0.8358,
+      "step": 21500
+    },
+    {
+      "epoch": 9.098603470165044,
+      "eval_accuracy": 0.8323593887562322,
+      "eval_loss": 0.7970295548439026,
+      "eval_runtime": 263.7984,
+      "eval_samples_per_second": 71.634,
+      "eval_steps_per_second": 2.24,
+      "step": 21500
+    },
+    {
+      "epoch": 9.310198899703767,
+      "grad_norm": 2.4879238605499268,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 0.8206,
+      "step": 22000
+    },
+    {
+      "epoch": 9.310198899703767,
+      "eval_accuracy": 0.8331990692449651,
+      "eval_loss": 0.7973175048828125,
+      "eval_runtime": 267.0614,
+      "eval_samples_per_second": 70.759,
+      "eval_steps_per_second": 2.213,
+      "step": 22000
+    },
+    {
+      "epoch": 9.52179432924249,
+      "grad_norm": 2.8056328296661377,
+      "learning_rate": 7.75e-05,
+      "loss": 0.8194,
+      "step": 22500
+    },
+    {
+      "epoch": 9.52179432924249,
+      "eval_accuracy": 0.8330543390157401,
+      "eval_loss": 0.7971208095550537,
+      "eval_runtime": 262.488,
+      "eval_samples_per_second": 71.992,
+      "eval_steps_per_second": 2.252,
+      "step": 22500
+    },
+    {
+      "epoch": 9.733389758781211,
+      "grad_norm": 2.286165714263916,
+      "learning_rate": 7.7e-05,
+      "loss": 0.824,
+      "step": 23000
+    },
+    {
+      "epoch": 9.733389758781211,
+      "eval_accuracy": 0.8331955207712376,
+      "eval_loss": 0.789832353591919,
+      "eval_runtime": 260.7374,
+      "eval_samples_per_second": 72.475,
+      "eval_steps_per_second": 2.267,
+      "step": 23000
+    },
+    {
+      "epoch": 9.944985188319933,
+      "grad_norm": 2.6393661499023438,
+      "learning_rate": 7.65e-05,
+      "loss": 0.8178,
+      "step": 23500
+    },
+    {
+      "epoch": 9.944985188319933,
+      "eval_accuracy": 0.8337563908619574,
+      "eval_loss": 0.7869353294372559,
+      "eval_runtime": 261.6316,
+      "eval_samples_per_second": 72.228,
+      "eval_steps_per_second": 2.259,
+      "step": 23500
+    },
+    {
+      "epoch": 10.156580617858655,
+      "grad_norm": 2.399764060974121,
+      "learning_rate": 7.6e-05,
+      "loss": 0.8042,
+      "step": 24000
+    },
+    {
+      "epoch": 10.156580617858655,
+      "eval_accuracy": 0.8345873580205752,
+      "eval_loss": 0.7825269103050232,
+      "eval_runtime": 265.2886,
+      "eval_samples_per_second": 71.232,
+      "eval_steps_per_second": 2.228,
+      "step": 24000
+    },
+    {
+      "epoch": 10.368176047397377,
+      "grad_norm": 2.473830461502075,
+      "learning_rate": 7.55e-05,
+      "loss": 0.8074,
+      "step": 24500
+    },
+    {
+      "epoch": 10.368176047397377,
+      "eval_accuracy": 0.8340295887180998,
+      "eval_loss": 0.7838293313980103,
+      "eval_runtime": 268.7934,
+      "eval_samples_per_second": 70.303,
+      "eval_steps_per_second": 2.199,
+      "step": 24500
+    },
+    {
+      "epoch": 10.579771476936099,
+      "grad_norm": 2.013901948928833,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.8119,
+      "step": 25000
+    },
+    {
+      "epoch": 10.579771476936099,
+      "eval_accuracy": 0.8350909261154785,
+      "eval_loss": 0.7770436406135559,
+      "eval_runtime": 266.5797,
+      "eval_samples_per_second": 70.887,
+      "eval_steps_per_second": 2.217,
+      "step": 25000
+    },
+    {
+      "epoch": 10.79136690647482,
+      "grad_norm": 2.4371135234832764,
+      "learning_rate": 7.450000000000001e-05,
+      "loss": 0.8021,
+      "step": 25500
+    },
+    {
+      "epoch": 10.79136690647482,
+      "eval_accuracy": 0.8355361070660176,
+      "eval_loss": 0.7797753810882568,
+      "eval_runtime": 263.0347,
+      "eval_samples_per_second": 71.842,
+      "eval_steps_per_second": 2.247,
+      "step": 25500
+    },
+    {
+      "epoch": 11.002962336013542,
+      "grad_norm": 2.2847490310668945,
+      "learning_rate": 7.4e-05,
+      "loss": 0.7981,
+      "step": 26000
+    },
+    {
+      "epoch": 11.002962336013542,
+      "eval_accuracy": 0.8359570415218256,
+      "eval_loss": 0.779441773891449,
+      "eval_runtime": 268.5697,
+      "eval_samples_per_second": 70.362,
+      "eval_steps_per_second": 2.201,
+      "step": 26000
+    },
+    {
+      "epoch": 11.214557765552264,
+      "grad_norm": 2.7268359661102295,
+      "learning_rate": 7.35e-05,
+      "loss": 0.7903,
+      "step": 26500
+    },
+    {
+      "epoch": 11.214557765552264,
+      "eval_accuracy": 0.8356099402770645,
+      "eval_loss": 0.7818348407745361,
+      "eval_runtime": 266.2476,
+      "eval_samples_per_second": 70.975,
+      "eval_steps_per_second": 2.22,
+      "step": 26500
+    },
+    {
+      "epoch": 11.426153195090986,
+      "grad_norm": 2.162554979324341,
+      "learning_rate": 7.3e-05,
+      "loss": 0.79,
+      "step": 27000
+    },
+    {
+      "epoch": 11.426153195090986,
+      "eval_accuracy": 0.8370433109128258,
+      "eval_loss": 0.7704750299453735,
+      "eval_runtime": 266.2241,
+      "eval_samples_per_second": 70.982,
+      "eval_steps_per_second": 2.22,
+      "step": 27000
+    },
+    {
+      "epoch": 11.637748624629708,
+      "grad_norm": 2.788860321044922,
+      "learning_rate": 7.25e-05,
+      "loss": 0.7905,
+      "step": 27500
+    },
+    {
+      "epoch": 11.637748624629708,
+      "eval_accuracy": 0.8371296992285593,
+      "eval_loss": 0.7727912664413452,
+      "eval_runtime": 273.499,
+      "eval_samples_per_second": 69.093,
+      "eval_steps_per_second": 2.161,
+      "step": 27500
+    },
+    {
+      "epoch": 11.84934405416843,
+      "grad_norm": 2.227642774581909,
+      "learning_rate": 7.2e-05,
+      "loss": 0.7926,
+      "step": 28000
+    },
+    {
+      "epoch": 11.84934405416843,
+      "eval_accuracy": 0.8374719388838708,
+      "eval_loss": 0.7698901295661926,
+      "eval_runtime": 263.3039,
+      "eval_samples_per_second": 71.769,
+      "eval_steps_per_second": 2.245,
+      "step": 28000
+    },
+    {
+      "epoch": 12.060939483707152,
+      "grad_norm": 2.4474525451660156,
+      "learning_rate": 7.15e-05,
+      "loss": 0.7903,
+      "step": 28500
+    },
+    {
+      "epoch": 12.060939483707152,
+      "eval_accuracy": 0.8376879218674613,
+      "eval_loss": 0.7695074081420898,
+      "eval_runtime": 261.3712,
+      "eval_samples_per_second": 72.299,
+      "eval_steps_per_second": 2.261,
+      "step": 28500
+    },
+    {
+      "epoch": 12.272534913245874,
+      "grad_norm": 2.3459694385528564,
+      "learning_rate": 7.1e-05,
+      "loss": 0.7798,
+      "step": 29000
+    },
+    {
+      "epoch": 12.272534913245874,
+      "eval_accuracy": 0.8386430385584847,
+      "eval_loss": 0.7657772898674011,
+      "eval_runtime": 261.1287,
+      "eval_samples_per_second": 72.367,
+      "eval_steps_per_second": 2.263,
+      "step": 29000
+    },
+    {
+      "epoch": 12.484130342784596,
+      "grad_norm": 2.8267855644226074,
+      "learning_rate": 7.05e-05,
+      "loss": 0.7824,
+      "step": 29500
+    },
+    {
+      "epoch": 12.484130342784596,
+      "eval_accuracy": 0.83865240976173,
+      "eval_loss": 0.7589637041091919,
+      "eval_runtime": 261.5078,
+      "eval_samples_per_second": 72.262,
+      "eval_steps_per_second": 2.26,
+      "step": 29500
+    },
+    {
+      "epoch": 12.695725772323318,
+      "grad_norm": 2.4693596363067627,
+      "learning_rate": 7e-05,
+      "loss": 0.771,
+      "step": 30000
+    },
+    {
+      "epoch": 12.695725772323318,
+      "eval_accuracy": 0.8388216056579841,
+      "eval_loss": 0.7633172869682312,
+      "eval_runtime": 261.1053,
+      "eval_samples_per_second": 72.373,
+      "eval_steps_per_second": 2.263,
+      "step": 30000
+    },
+    {
+      "epoch": 12.90732120186204,
+      "grad_norm": 2.1850833892822266,
+      "learning_rate": 6.95e-05,
+      "loss": 0.7764,
+      "step": 30500
+    },
+    {
+      "epoch": 12.90732120186204,
+      "eval_accuracy": 0.838965407496659,
+      "eval_loss": 0.7610173225402832,
+      "eval_runtime": 261.8408,
+      "eval_samples_per_second": 72.17,
+      "eval_steps_per_second": 2.257,
+      "step": 30500
+    },
+    {
+      "epoch": 13.118916631400761,
+      "grad_norm": 2.372281312942505,
+      "learning_rate": 6.9e-05,
+      "loss": 0.7769,
+      "step": 31000
+    },
+    {
+      "epoch": 13.118916631400761,
+      "eval_accuracy": 0.8399309188023576,
+      "eval_loss": 0.7513373494148254,
+      "eval_runtime": 261.812,
+      "eval_samples_per_second": 72.178,
+      "eval_steps_per_second": 2.257,
+      "step": 31000
+    },
+    {
+      "epoch": 13.330512060939483,
+      "grad_norm": 2.3523917198181152,
+      "learning_rate": 6.850000000000001e-05,
+      "loss": 0.7571,
+      "step": 31500
+    },
+    {
+      "epoch": 13.330512060939483,
+      "eval_accuracy": 0.8400002567389975,
+      "eval_loss": 0.7555217146873474,
+      "eval_runtime": 261.9857,
+      "eval_samples_per_second": 72.13,
+      "eval_steps_per_second": 2.256,
+      "step": 31500
+    },
+    {
+      "epoch": 13.542107490478205,
+      "grad_norm": 2.5546875,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 0.7711,
+      "step": 32000
+    },
+    {
+      "epoch": 13.542107490478205,
+      "eval_accuracy": 0.8401856806369851,
+      "eval_loss": 0.7534090876579285,
+      "eval_runtime": 261.8701,
+      "eval_samples_per_second": 72.162,
+      "eval_steps_per_second": 2.257,
+      "step": 32000
+    },
+    {
+      "epoch": 13.753702920016927,
+      "grad_norm": 2.729142904281616,
+      "learning_rate": 6.750000000000001e-05,
+      "loss": 0.7643,
+      "step": 32500
+    },
+    {
+      "epoch": 13.753702920016927,
+      "eval_accuracy": 0.841193752527165,
+      "eval_loss": 0.7479578256607056,
+      "eval_runtime": 261.4353,
+      "eval_samples_per_second": 72.282,
+      "eval_steps_per_second": 2.261,
+      "step": 32500
+    },
+    {
+      "epoch": 13.965298349555649,
+      "grad_norm": 2.3321564197540283,
+      "learning_rate": 6.7e-05,
+      "loss": 0.7648,
+      "step": 33000
+    },
+    {
+      "epoch": 13.965298349555649,
+      "eval_accuracy": 0.8406841418969273,
+      "eval_loss": 0.7506685853004456,
+      "eval_runtime": 267.8316,
+      "eval_samples_per_second": 70.556,
+      "eval_steps_per_second": 2.207,
+      "step": 33000
+    },
+    {
+      "epoch": 14.176893779094371,
+      "grad_norm": 2.1938509941101074,
+      "learning_rate": 6.65e-05,
+      "loss": 0.7522,
+      "step": 33500
+    },
+    {
+      "epoch": 14.176893779094371,
+      "eval_accuracy": 0.8420869264352184,
+      "eval_loss": 0.7437397837638855,
+      "eval_runtime": 265.5397,
+      "eval_samples_per_second": 71.164,
+      "eval_steps_per_second": 2.226,
+      "step": 33500
+    },
+    {
+      "epoch": 14.388489208633093,
+      "grad_norm": 2.3408265113830566,
+      "learning_rate": 6.6e-05,
+      "loss": 0.7545,
+      "step": 34000
+    },
+    {
+      "epoch": 14.388489208633093,
+      "eval_accuracy": 0.8420721318818438,
+      "eval_loss": 0.7433295845985413,
+      "eval_runtime": 279.4181,
+      "eval_samples_per_second": 67.63,
+      "eval_steps_per_second": 2.115,
+      "step": 34000
+    },
+    {
+      "epoch": 14.600084638171815,
+      "grad_norm": 2.3642425537109375,
+      "learning_rate": 6.55e-05,
+      "loss": 0.7523,
+      "step": 34500
+    },
+    {
+      "epoch": 14.600084638171815,
+      "eval_accuracy": 0.841832391549054,
+      "eval_loss": 0.7465565800666809,
+      "eval_runtime": 278.6488,
+      "eval_samples_per_second": 67.817,
+      "eval_steps_per_second": 2.121,
+      "step": 34500
+    },
+    {
+      "epoch": 14.811680067710537,
+      "grad_norm": 2.3556783199310303,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 0.7496,
+      "step": 35000
+    },
+    {
+      "epoch": 14.811680067710537,
+      "eval_accuracy": 0.8428309818822357,
+      "eval_loss": 0.7405665516853333,
+      "eval_runtime": 276.2738,
+      "eval_samples_per_second": 68.4,
+      "eval_steps_per_second": 2.139,
+      "step": 35000
+    },
+    {
+      "epoch": 15.023275497249259,
+      "grad_norm": 2.837651491165161,
+      "learning_rate": 6.450000000000001e-05,
+      "loss": 0.7533,
+      "step": 35500
+    },
+    {
+      "epoch": 15.023275497249259,
+      "eval_accuracy": 0.8429478388054593,
+      "eval_loss": 0.7408010959625244,
+      "eval_runtime": 282.8574,
+      "eval_samples_per_second": 66.808,
+      "eval_steps_per_second": 2.089,
+      "step": 35500
+    },
+    {
+      "epoch": 15.23487092678798,
+      "grad_norm": 2.484907865524292,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 0.741,
+      "step": 36000
+    },
+    {
+      "epoch": 15.23487092678798,
+      "eval_accuracy": 0.8431191814913817,
+      "eval_loss": 0.7387997508049011,
+      "eval_runtime": 265.4939,
+      "eval_samples_per_second": 71.177,
+      "eval_steps_per_second": 2.226,
+      "step": 36000
+    },
+    {
+      "epoch": 15.446466356326704,
+      "grad_norm": 2.2897565364837646,
+      "learning_rate": 6.35e-05,
+      "loss": 0.739,
+      "step": 36500
+    },
+    {
+      "epoch": 15.446466356326704,
+      "eval_accuracy": 0.8429932212483634,
+      "eval_loss": 0.7370153069496155,
+      "eval_runtime": 266.1635,
+      "eval_samples_per_second": 70.998,
+      "eval_steps_per_second": 2.22,
+      "step": 36500
+    },
+    {
+      "epoch": 15.658061785865426,
+      "grad_norm": 2.395829439163208,
+      "learning_rate": 6.3e-05,
+      "loss": 0.7362,
+      "step": 37000
+    },
+    {
+      "epoch": 15.658061785865426,
+      "eval_accuracy": 0.8434715599093532,
+      "eval_loss": 0.7342710494995117,
+      "eval_runtime": 260.2141,
+      "eval_samples_per_second": 72.621,
+      "eval_steps_per_second": 2.271,
+      "step": 37000
+    },
+    {
+      "epoch": 15.869657215404148,
+      "grad_norm": 2.2993245124816895,
+      "learning_rate": 6.25e-05,
+      "loss": 0.7345,
+      "step": 37500
+    },
+    {
+      "epoch": 15.869657215404148,
+      "eval_accuracy": 0.8440801185874258,
+      "eval_loss": 0.7322931885719299,
+      "eval_runtime": 260.5377,
+      "eval_samples_per_second": 72.531,
+      "eval_steps_per_second": 2.268,
+      "step": 37500
+    },
+    {
+      "epoch": 16.081252644942868,
+      "grad_norm": 2.0374865531921387,
+      "learning_rate": 6.2e-05,
+      "loss": 0.734,
+      "step": 38000
+    },
+    {
+      "epoch": 16.081252644942868,
+      "eval_accuracy": 0.8445575827804235,
+      "eval_loss": 0.7281063795089722,
+      "eval_runtime": 261.0336,
+      "eval_samples_per_second": 72.393,
+      "eval_steps_per_second": 2.264,
+      "step": 38000
+    },
+    {
+      "epoch": 16.29284807448159,
+      "grad_norm": 1.9428036212921143,
+      "learning_rate": 6.15e-05,
+      "loss": 0.7273,
+      "step": 38500
+    },
+    {
+      "epoch": 16.29284807448159,
+      "eval_accuracy": 0.8445456344326528,
+      "eval_loss": 0.7325382828712463,
+      "eval_runtime": 261.464,
+      "eval_samples_per_second": 72.274,
+      "eval_steps_per_second": 2.26,
+      "step": 38500
+    },
+    {
+      "epoch": 16.504443504020312,
+      "grad_norm": 2.049518346786499,
+      "learning_rate": 6.1e-05,
+      "loss": 0.7281,
+      "step": 39000
+    },
+    {
+      "epoch": 16.504443504020312,
+      "eval_accuracy": 0.8447958861444306,
+      "eval_loss": 0.7262031435966492,
+      "eval_runtime": 261.1414,
+      "eval_samples_per_second": 72.363,
+      "eval_steps_per_second": 2.263,
+      "step": 39000
+    },
+    {
+      "epoch": 16.716038933559034,
+      "grad_norm": 2.4844846725463867,
+      "learning_rate": 6.05e-05,
+      "loss": 0.7325,
+      "step": 39500
+    },
+    {
+      "epoch": 16.716038933559034,
+      "eval_accuracy": 0.8454549752513528,
+      "eval_loss": 0.7258022427558899,
+      "eval_runtime": 261.1057,
+      "eval_samples_per_second": 72.373,
+      "eval_steps_per_second": 2.263,
+      "step": 39500
+    },
+    {
+      "epoch": 16.927634363097756,
+      "grad_norm": 2.2778096199035645,
+      "learning_rate": 6e-05,
+      "loss": 0.7363,
+      "step": 40000
+    },
+    {
+      "epoch": 16.927634363097756,
+      "eval_accuracy": 0.8453596619012534,
+      "eval_loss": 0.7246570587158203,
+      "eval_runtime": 261.1612,
+      "eval_samples_per_second": 72.358,
+      "eval_steps_per_second": 2.263,
+      "step": 40000
+    },
+    {
+      "epoch": 17.139229792636478,
+      "grad_norm": 2.290127992630005,
+      "learning_rate": 5.95e-05,
+      "loss": 0.7189,
+      "step": 40500
+    },
+    {
+      "epoch": 17.139229792636478,
+      "eval_accuracy": 0.8452580795667168,
+      "eval_loss": 0.7274061441421509,
+      "eval_runtime": 260.9127,
+      "eval_samples_per_second": 72.427,
+      "eval_steps_per_second": 2.265,
+      "step": 40500
+    },
+    {
+      "epoch": 17.3508252221752,
+      "grad_norm": 2.1813712120056152,
+      "learning_rate": 5.9e-05,
+      "loss": 0.7139,
+      "step": 41000
+    },
+    {
+      "epoch": 17.3508252221752,
+      "eval_accuracy": 0.8454752596859075,
+      "eval_loss": 0.7260879278182983,
+      "eval_runtime": 260.8824,
+      "eval_samples_per_second": 72.435,
+      "eval_steps_per_second": 2.265,
+      "step": 41000
+    },
+    {
+      "epoch": 17.56242065171392,
+      "grad_norm": 2.2149229049682617,
+      "learning_rate": 5.85e-05,
+      "loss": 0.7194,
+      "step": 41500
+    },
+    {
+      "epoch": 17.56242065171392,
+      "eval_accuracy": 0.8460950844980895,
+      "eval_loss": 0.719237208366394,
+      "eval_runtime": 261.2966,
+      "eval_samples_per_second": 72.32,
+      "eval_steps_per_second": 2.262,
+      "step": 41500
+    },
+    {
+      "epoch": 17.774016081252643,
+      "grad_norm": 2.15328049659729,
+      "learning_rate": 5.8e-05,
+      "loss": 0.7193,
+      "step": 42000
+    },
+    {
+      "epoch": 17.774016081252643,
+      "eval_accuracy": 0.84683571242145,
+      "eval_loss": 0.7155909538269043,
+      "eval_runtime": 264.1513,
+      "eval_samples_per_second": 71.539,
+      "eval_steps_per_second": 2.237,
+      "step": 42000
+    },
+    {
+      "epoch": 17.985611510791365,
+      "grad_norm": 2.626013994216919,
+      "learning_rate": 5.7499999999999995e-05,
+      "loss": 0.7229,
+      "step": 42500
+    },
+    {
+      "epoch": 17.985611510791365,
+      "eval_accuracy": 0.8466394382574675,
+      "eval_loss": 0.717660129070282,
+      "eval_runtime": 264.2125,
+      "eval_samples_per_second": 71.522,
+      "eval_steps_per_second": 2.237,
+      "step": 42500
+    },
+    {
+      "epoch": 18.197206940330087,
+      "grad_norm": 2.2431325912475586,
+      "learning_rate": 5.6999999999999996e-05,
+      "loss": 0.7178,
+      "step": 43000
+    },
+    {
+      "epoch": 18.197206940330087,
+      "eval_accuracy": 0.8470451753896858,
+      "eval_loss": 0.7178626656532288,
+      "eval_runtime": 261.814,
+      "eval_samples_per_second": 72.177,
+      "eval_steps_per_second": 2.257,
+      "step": 43000
+    },
+    {
+      "epoch": 18.408802369868813,
+      "grad_norm": 2.2828872203826904,
+      "learning_rate": 5.65e-05,
+      "loss": 0.7109,
+      "step": 43500
+    },
+    {
+      "epoch": 18.408802369868813,
+      "eval_accuracy": 0.8475503883432827,
+      "eval_loss": 0.7156932950019836,
+      "eval_runtime": 261.3176,
+      "eval_samples_per_second": 72.314,
+      "eval_steps_per_second": 2.262,
+      "step": 43500
+    },
+    {
+      "epoch": 18.620397799407534,
+      "grad_norm": 2.293168067932129,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.7097,
+      "step": 44000
+    },
+    {
+      "epoch": 18.620397799407534,
+      "eval_accuracy": 0.8471641618793598,
+      "eval_loss": 0.7158520817756653,
+      "eval_runtime": 264.9783,
+      "eval_samples_per_second": 71.315,
+      "eval_steps_per_second": 2.23,
+      "step": 44000
+    },
+    {
+      "epoch": 18.831993228946256,
+      "grad_norm": 2.209135055541992,
+      "learning_rate": 5.550000000000001e-05,
+      "loss": 0.7075,
+      "step": 44500
+    },
+    {
+      "epoch": 18.831993228946256,
+      "eval_accuracy": 0.8479372379494904,
+      "eval_loss": 0.7122641801834106,
+      "eval_runtime": 266.5578,
+      "eval_samples_per_second": 70.893,
+      "eval_steps_per_second": 2.217,
+      "step": 44500
+    },
+    {
+      "epoch": 19.04358865848498,
+      "grad_norm": 2.8488004207611084,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.6993,
+      "step": 45000
+    },
+    {
+      "epoch": 19.04358865848498,
+      "eval_accuracy": 0.8484116180173235,
+      "eval_loss": 0.7104758620262146,
+      "eval_runtime": 262.5945,
+      "eval_samples_per_second": 71.963,
+      "eval_steps_per_second": 2.251,
+      "step": 45000
+    },
+    {
+      "epoch": 19.2551840880237,
+      "grad_norm": 2.4979331493377686,
+      "learning_rate": 5.45e-05,
+      "loss": 0.7026,
+      "step": 45500
+    },
+    {
+      "epoch": 19.2551840880237,
+      "eval_accuracy": 0.8484528706135355,
+      "eval_loss": 0.710627555847168,
+      "eval_runtime": 263.766,
+      "eval_samples_per_second": 71.643,
+      "eval_steps_per_second": 2.241,
+      "step": 45500
+    },
+    {
+      "epoch": 19.466779517562422,
+      "grad_norm": 2.259174346923828,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.6991,
+      "step": 46000
+    },
+    {
+      "epoch": 19.466779517562422,
+      "eval_accuracy": 0.8491558457182731,
+      "eval_loss": 0.7077752351760864,
+      "eval_runtime": 271.656,
+      "eval_samples_per_second": 69.562,
+      "eval_steps_per_second": 2.176,
+      "step": 46000
+    },
+    {
+      "epoch": 19.678374947101144,
+      "grad_norm": 2.1358423233032227,
+      "learning_rate": 5.3500000000000006e-05,
+      "loss": 0.6979,
+      "step": 46500
+    },
+    {
+      "epoch": 19.678374947101144,
+      "eval_accuracy": 0.8489283235752786,
+      "eval_loss": 0.7064626812934875,
+      "eval_runtime": 271.737,
+      "eval_samples_per_second": 69.542,
+      "eval_steps_per_second": 2.175,
+      "step": 46500
+    },
+    {
+      "epoch": 19.889970376639866,
+      "grad_norm": 2.1546921730041504,
+      "learning_rate": 5.300000000000001e-05,
+      "loss": 0.7006,
+      "step": 47000
+    },
+    {
+      "epoch": 19.889970376639866,
+      "eval_accuracy": 0.8492702435567641,
+      "eval_loss": 0.7036093473434448,
+      "eval_runtime": 277.9449,
+      "eval_samples_per_second": 67.988,
+      "eval_steps_per_second": 2.126,
+      "step": 47000
+    },
+    {
+      "epoch": 20.101565806178588,
+      "grad_norm": 2.1608192920684814,
+      "learning_rate": 5.25e-05,
+      "loss": 0.6933,
+      "step": 47500
+    },
+    {
+      "epoch": 20.101565806178588,
+      "eval_accuracy": 0.8492879788056962,
+      "eval_loss": 0.7073326110839844,
+      "eval_runtime": 264.5416,
+      "eval_samples_per_second": 71.433,
+      "eval_steps_per_second": 2.234,
+      "step": 47500
+    },
+    {
+      "epoch": 20.31316123571731,
+      "grad_norm": 2.209718704223633,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.6929,
+      "step": 48000
+    },
+    {
+      "epoch": 20.31316123571731,
+      "eval_accuracy": 0.849034550282722,
+      "eval_loss": 0.7043500542640686,
+      "eval_runtime": 261.2331,
+      "eval_samples_per_second": 72.338,
+      "eval_steps_per_second": 2.262,
+      "step": 48000
+    },
+    {
+      "epoch": 20.52475666525603,
+      "grad_norm": 2.2029993534088135,
+      "learning_rate": 5.1500000000000005e-05,
+      "loss": 0.6957,
+      "step": 48500
+    },
+    {
+      "epoch": 20.52475666525603,
+      "eval_accuracy": 0.8498242169829373,
+      "eval_loss": 0.7020756006240845,
+      "eval_runtime": 261.9223,
+      "eval_samples_per_second": 72.147,
+      "eval_steps_per_second": 2.256,
+      "step": 48500
+    },
+    {
+      "epoch": 20.736352094794753,
+      "grad_norm": 2.0258734226226807,
+      "learning_rate": 5.1000000000000006e-05,
+      "loss": 0.6895,
+      "step": 49000
+    },
+    {
+      "epoch": 20.736352094794753,
+      "eval_accuracy": 0.8496045816205492,
+      "eval_loss": 0.7028811573982239,
+      "eval_runtime": 261.5838,
+      "eval_samples_per_second": 72.241,
+      "eval_steps_per_second": 2.259,
+      "step": 49000
+    },
+    {
+      "epoch": 20.947947524333475,
+      "grad_norm": 2.161635637283325,
+      "learning_rate": 5.05e-05,
+      "loss": 0.6939,
+      "step": 49500
+    },
+    {
+      "epoch": 20.947947524333475,
+      "eval_accuracy": 0.8499337372662576,
+      "eval_loss": 0.7002370953559875,
+      "eval_runtime": 261.979,
+      "eval_samples_per_second": 72.132,
+      "eval_steps_per_second": 2.256,
+      "step": 49500
+    },
+    {
+      "epoch": 21.159542953872197,
+      "grad_norm": 2.678370475769043,
+      "learning_rate": 5e-05,
+      "loss": 0.6858,
+      "step": 50000
+    },
+    {
+      "epoch": 21.159542953872197,
+      "eval_accuracy": 0.8506112039186475,
+      "eval_loss": 0.6987473964691162,
+      "eval_runtime": 260.5609,
+      "eval_samples_per_second": 72.524,
+      "eval_steps_per_second": 2.268,
+      "step": 50000
+    },
+    {
+      "epoch": 21.37113838341092,
+      "grad_norm": 3.00466251373291,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.6799,
+      "step": 50500
+    },
+    {
+      "epoch": 21.37113838341092,
+      "eval_accuracy": 0.8507862585554932,
+      "eval_loss": 0.6941798329353333,
+      "eval_runtime": 262.2224,
+      "eval_samples_per_second": 72.065,
+      "eval_steps_per_second": 2.254,
+      "step": 50500
+    },
+    {
+      "epoch": 21.58273381294964,
+      "grad_norm": 2.565237283706665,
+      "learning_rate": 4.9e-05,
+      "loss": 0.6851,
+      "step": 51000
+    },
+    {
+      "epoch": 21.58273381294964,
+      "eval_accuracy": 0.8506672404993625,
+      "eval_loss": 0.6992844939231873,
+      "eval_runtime": 260.0932,
+      "eval_samples_per_second": 72.655,
+      "eval_steps_per_second": 2.272,
+      "step": 51000
+    },
+    {
+      "epoch": 21.794329242488363,
+      "grad_norm": 2.7111079692840576,
+      "learning_rate": 4.85e-05,
+      "loss": 0.6844,
+      "step": 51500
+    },
+    {
+      "epoch": 21.794329242488363,
+      "eval_accuracy": 0.8515609185893287,
+      "eval_loss": 0.6955757737159729,
+      "eval_runtime": 257.0908,
+      "eval_samples_per_second": 73.503,
+      "eval_steps_per_second": 2.299,
+      "step": 51500
+    },
+    {
+      "epoch": 22.005924672027085,
+      "grad_norm": 1.9302952289581299,
+      "learning_rate": 4.8e-05,
+      "loss": 0.6789,
+      "step": 52000
+    },
+    {
+      "epoch": 22.005924672027085,
+      "eval_accuracy": 0.8520686377908865,
+      "eval_loss": 0.6876618266105652,
+      "eval_runtime": 257.3651,
+      "eval_samples_per_second": 73.425,
+      "eval_steps_per_second": 2.296,
+      "step": 52000
+    },
+    {
+      "epoch": 22.217520101565807,
+      "grad_norm": 2.519709825515747,
+      "learning_rate": 4.75e-05,
+      "loss": 0.6712,
+      "step": 52500
+    },
+    {
+      "epoch": 22.217520101565807,
+      "eval_accuracy": 0.8512203875084602,
+      "eval_loss": 0.693385899066925,
+      "eval_runtime": 257.4402,
+      "eval_samples_per_second": 73.403,
+      "eval_steps_per_second": 2.296,
+      "step": 52500
+    },
+    {
+      "epoch": 22.42911553110453,
+      "grad_norm": 2.112175226211548,
+      "learning_rate": 4.7e-05,
+      "loss": 0.6753,
+      "step": 53000
+    },
+    {
+      "epoch": 22.42911553110453,
+      "eval_accuracy": 0.8517220351098194,
+      "eval_loss": 0.694888710975647,
+      "eval_runtime": 258.386,
+      "eval_samples_per_second": 73.135,
+      "eval_steps_per_second": 2.287,
+      "step": 53000
+    },
+    {
+      "epoch": 22.64071096064325,
+      "grad_norm": 2.1871020793914795,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.6758,
+      "step": 53500
+    },
+    {
+      "epoch": 22.64071096064325,
+      "eval_accuracy": 0.8519381025267055,
+      "eval_loss": 0.6896358132362366,
+      "eval_runtime": 257.0766,
+      "eval_samples_per_second": 73.507,
+      "eval_steps_per_second": 2.299,
+      "step": 53500
+    },
+    {
+      "epoch": 22.852306390181973,
+      "grad_norm": 2.269576072692871,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.6804,
+      "step": 54000
+    },
+    {
+      "epoch": 22.852306390181973,
+      "eval_accuracy": 0.8526405239761581,
+      "eval_loss": 0.6887140870094299,
+      "eval_runtime": 257.9174,
+      "eval_samples_per_second": 73.268,
+      "eval_steps_per_second": 2.291,
+      "step": 54000
+    },
+    {
+      "epoch": 23.063901819720694,
+      "grad_norm": 2.3919832706451416,
+      "learning_rate": 4.55e-05,
+      "loss": 0.6695,
+      "step": 54500
+    },
+    {
+      "epoch": 23.063901819720694,
+      "eval_accuracy": 0.8523709744856521,
+      "eval_loss": 0.6889607310295105,
+      "eval_runtime": 258.3624,
+      "eval_samples_per_second": 73.141,
+      "eval_steps_per_second": 2.287,
+      "step": 54500
+    },
+    {
+      "epoch": 23.275497249259416,
+      "grad_norm": 2.0920586585998535,
+      "learning_rate": 4.5e-05,
+      "loss": 0.6698,
+      "step": 55000
+    },
+    {
+      "epoch": 23.275497249259416,
+      "eval_accuracy": 0.8523748107261463,
+      "eval_loss": 0.6941008567810059,
+      "eval_runtime": 257.6034,
+      "eval_samples_per_second": 73.357,
+      "eval_steps_per_second": 2.294,
+      "step": 55000
+    },
+    {
+      "epoch": 23.487092678798138,
+      "grad_norm": 2.1779608726501465,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.6718,
+      "step": 55500
+    },
+    {
+      "epoch": 23.487092678798138,
+      "eval_accuracy": 0.8525962559096781,
+      "eval_loss": 0.6863034963607788,
+      "eval_runtime": 257.3784,
+      "eval_samples_per_second": 73.421,
+      "eval_steps_per_second": 2.296,
+      "step": 55500
+    },
+    {
+      "epoch": 23.69868810833686,
+      "grad_norm": 2.148618459701538,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.6715,
+      "step": 56000
+    },
+    {
+      "epoch": 23.69868810833686,
+      "eval_accuracy": 0.8526106664187645,
+      "eval_loss": 0.6828573346138,
+      "eval_runtime": 258.3374,
+      "eval_samples_per_second": 73.149,
+      "eval_steps_per_second": 2.288,
+      "step": 56000
+    },
+    {
+      "epoch": 23.910283537875582,
+      "grad_norm": 2.0527496337890625,
+      "learning_rate": 4.35e-05,
+      "loss": 0.6656,
+      "step": 56500
+    },
+    {
+      "epoch": 23.910283537875582,
+      "eval_accuracy": 0.8535395868625563,
+      "eval_loss": 0.6810089349746704,
+      "eval_runtime": 257.4041,
+      "eval_samples_per_second": 73.414,
+      "eval_steps_per_second": 2.296,
+      "step": 56500
+    },
+    {
+      "epoch": 24.121878967414304,
+      "grad_norm": 2.237309455871582,
+      "learning_rate": 4.3e-05,
+      "loss": 0.658,
+      "step": 57000
+    },
+    {
+      "epoch": 24.121878967414304,
+      "eval_accuracy": 0.8535104972419953,
+      "eval_loss": 0.6827386021614075,
+      "eval_runtime": 258.089,
+      "eval_samples_per_second": 73.219,
+      "eval_steps_per_second": 2.29,
+      "step": 57000
+    },
+    {
+      "epoch": 24.333474396953026,
+      "grad_norm": 2.237787961959839,
+      "learning_rate": 4.25e-05,
+      "loss": 0.6572,
+      "step": 57500
+    },
+    {
+      "epoch": 24.333474396953026,
+      "eval_accuracy": 0.8534880491057201,
+      "eval_loss": 0.685437023639679,
+      "eval_runtime": 255.9723,
+      "eval_samples_per_second": 73.824,
+      "eval_steps_per_second": 2.309,
+      "step": 57500
+    },
+    {
+      "epoch": 24.545069826491748,
+      "grad_norm": 2.1690523624420166,
+      "learning_rate": 4.2e-05,
+      "loss": 0.6631,
+      "step": 58000
+    },
+    {
+      "epoch": 24.545069826491748,
+      "eval_accuracy": 0.8535779828246594,
+      "eval_loss": 0.6842165589332581,
+      "eval_runtime": 256.7529,
+      "eval_samples_per_second": 73.6,
+      "eval_steps_per_second": 2.302,
+      "step": 58000
+    },
+    {
+      "epoch": 24.75666525603047,
+      "grad_norm": 2.1989362239837646,
+      "learning_rate": 4.15e-05,
+      "loss": 0.6564,
+      "step": 58500
+    },
+    {
+      "epoch": 24.75666525603047,
+      "eval_accuracy": 0.8541202565678292,
+      "eval_loss": 0.6805217862129211,
+      "eval_runtime": 256.6862,
+      "eval_samples_per_second": 73.619,
+      "eval_steps_per_second": 2.302,
+      "step": 58500
+    },
+    {
+      "epoch": 24.96826068556919,
+      "grad_norm": 1.8871691226959229,
+      "learning_rate": 4.1e-05,
+      "loss": 0.6647,
+      "step": 59000
+    },
+    {
+      "epoch": 24.96826068556919,
+      "eval_accuracy": 0.8543647630949314,
+      "eval_loss": 0.6778047680854797,
+      "eval_runtime": 255.7578,
+      "eval_samples_per_second": 73.886,
+      "eval_steps_per_second": 2.311,
+      "step": 59000
+    },
+    {
+      "epoch": 25.179856115107913,
+      "grad_norm": 2.1955065727233887,
+      "learning_rate": 4.05e-05,
+      "loss": 0.6554,
+      "step": 59500
+    },
+    {
+      "epoch": 25.179856115107913,
+      "eval_accuracy": 0.8550391736178592,
+      "eval_loss": 0.6758434772491455,
+      "eval_runtime": 256.2245,
+      "eval_samples_per_second": 73.752,
+      "eval_steps_per_second": 2.307,
+      "step": 59500
+    },
+    {
+      "epoch": 25.391451544646635,
+      "grad_norm": 2.249420404434204,
+      "learning_rate": 4e-05,
+      "loss": 0.6512,
+      "step": 60000
+    },
+    {
+      "epoch": 25.391451544646635,
+      "eval_accuracy": 0.8543816693378058,
+      "eval_loss": 0.6784859895706177,
+      "eval_runtime": 255.845,
+      "eval_samples_per_second": 73.861,
+      "eval_steps_per_second": 2.31,
+      "step": 60000
+    },
+    {
+      "epoch": 25.603046974185357,
+      "grad_norm": 2.0552549362182617,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.6452,
+      "step": 60500
+    },
+    {
+      "epoch": 25.603046974185357,
+      "eval_accuracy": 0.8548483107764363,
+      "eval_loss": 0.673579216003418,
+      "eval_runtime": 255.913,
+      "eval_samples_per_second": 73.841,
+      "eval_steps_per_second": 2.309,
+      "step": 60500
+    },
+    {
+      "epoch": 25.81464240372408,
+      "grad_norm": 2.267648220062256,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.651,
+      "step": 61000
+    },
+    {
+      "epoch": 25.81464240372408,
+      "eval_accuracy": 0.855136708283999,
+      "eval_loss": 0.6740577816963196,
+      "eval_runtime": 256.0258,
+      "eval_samples_per_second": 73.809,
+      "eval_steps_per_second": 2.308,
+      "step": 61000
+    },
+    {
+      "epoch": 26.0262378332628,
+      "grad_norm": 2.2565786838531494,
+      "learning_rate": 3.85e-05,
+      "loss": 0.6563,
+      "step": 61500
+    },
+    {
+      "epoch": 26.0262378332628,
+      "eval_accuracy": 0.8556452428053658,
+      "eval_loss": 0.6709764003753662,
+      "eval_runtime": 257.0015,
+      "eval_samples_per_second": 73.529,
+      "eval_steps_per_second": 2.3,
+      "step": 61500
+    },
+    {
+      "epoch": 26.237833262801523,
+      "grad_norm": 2.354966402053833,
+      "learning_rate": 3.8e-05,
+      "loss": 0.6486,
+      "step": 62000
+    },
+    {
+      "epoch": 26.237833262801523,
+      "eval_accuracy": 0.8552881243161131,
+      "eval_loss": 0.6740285158157349,
+      "eval_runtime": 256.9093,
+      "eval_samples_per_second": 73.555,
+      "eval_steps_per_second": 2.3,
+      "step": 62000
+    },
+    {
+      "epoch": 26.449428692340245,
+      "grad_norm": 2.258758068084717,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.6433,
+      "step": 62500
+    },
+    {
+      "epoch": 26.449428692340245,
+      "eval_accuracy": 0.8559563495341208,
+      "eval_loss": 0.6719037890434265,
+      "eval_runtime": 256.7204,
+      "eval_samples_per_second": 73.609,
+      "eval_steps_per_second": 2.302,
+      "step": 62500
+    },
+    {
+      "epoch": 26.661024121878967,
+      "grad_norm": 2.0206925868988037,
+      "learning_rate": 3.7e-05,
+      "loss": 0.6447,
+      "step": 63000
+    },
+    {
+      "epoch": 26.661024121878967,
+      "eval_accuracy": 0.8555157197350896,
+      "eval_loss": 0.6732048988342285,
+      "eval_runtime": 257.8814,
+      "eval_samples_per_second": 73.278,
+      "eval_steps_per_second": 2.292,
+      "step": 63000
+    },
+    {
+      "epoch": 26.87261955141769,
+      "grad_norm": 1.9449124336242676,
+      "learning_rate": 3.65e-05,
+      "loss": 0.64,
+      "step": 63500
+    },
+    {
+      "epoch": 26.87261955141769,
+      "eval_accuracy": 0.8556555560363271,
+      "eval_loss": 0.6709502339363098,
+      "eval_runtime": 256.9555,
+      "eval_samples_per_second": 73.542,
+      "eval_steps_per_second": 2.3,
+      "step": 63500
+    },
+    {
+      "epoch": 27.08421498095641,
+      "grad_norm": 2.1372838020324707,
+      "learning_rate": 3.6e-05,
+      "loss": 0.6422,
+      "step": 64000
+    },
+    {
+      "epoch": 27.08421498095641,
+      "eval_accuracy": 0.8565842307319391,
+      "eval_loss": 0.6674957871437073,
+      "eval_runtime": 257.0374,
+      "eval_samples_per_second": 73.518,
+      "eval_steps_per_second": 2.299,
+      "step": 64000
+    },
+    {
+      "epoch": 27.295810410495132,
+      "grad_norm": 2.483285427093506,
+      "learning_rate": 3.55e-05,
+      "loss": 0.6384,
+      "step": 64500
+    },
+    {
+      "epoch": 27.295810410495132,
+      "eval_accuracy": 0.8569286551620731,
+      "eval_loss": 0.6650407910346985,
+      "eval_runtime": 256.3823,
+      "eval_samples_per_second": 73.706,
+      "eval_steps_per_second": 2.305,
+      "step": 64500
+    },
+    {
+      "epoch": 27.507405840033854,
+      "grad_norm": 2.1632394790649414,
+      "learning_rate": 3.5e-05,
+      "loss": 0.6393,
+      "step": 65000
+    },
+    {
+      "epoch": 27.507405840033854,
+      "eval_accuracy": 0.8567457924280502,
+      "eval_loss": 0.6690070033073425,
+      "eval_runtime": 256.1477,
+      "eval_samples_per_second": 73.774,
+      "eval_steps_per_second": 2.307,
+      "step": 65000
+    },
+    {
+      "epoch": 27.719001269572576,
+      "grad_norm": 2.0060813426971436,
+      "learning_rate": 3.45e-05,
+      "loss": 0.6361,
+      "step": 65500
+    },
+    {
+      "epoch": 27.719001269572576,
+      "eval_accuracy": 0.8566723165879284,
+      "eval_loss": 0.6661916375160217,
+      "eval_runtime": 256.9049,
+      "eval_samples_per_second": 73.556,
+      "eval_steps_per_second": 2.3,
+      "step": 65500
+    },
+    {
+      "epoch": 27.930596699111298,
+      "grad_norm": 2.366732120513916,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.6399,
+      "step": 66000
+    },
+    {
+      "epoch": 27.930596699111298,
+      "eval_accuracy": 0.8576545068142329,
+      "eval_loss": 0.6571604609489441,
+      "eval_runtime": 256.8265,
+      "eval_samples_per_second": 73.579,
+      "eval_steps_per_second": 2.301,
+      "step": 66000
+    },
+    {
+      "epoch": 28.14219212865002,
+      "grad_norm": 2.05325984954834,
+      "learning_rate": 3.35e-05,
+      "loss": 0.6316,
+      "step": 66500
+    },
+    {
+      "epoch": 28.14219212865002,
+      "eval_accuracy": 0.8577938738865952,
+      "eval_loss": 0.6611051559448242,
+      "eval_runtime": 257.9314,
+      "eval_samples_per_second": 73.264,
+      "eval_steps_per_second": 2.291,
+      "step": 66500
+    },
+    {
+      "epoch": 28.353787558188742,
+      "grad_norm": 2.4425783157348633,
+      "learning_rate": 3.3e-05,
+      "loss": 0.6333,
+      "step": 67000
+    },
+    {
+      "epoch": 28.353787558188742,
+      "eval_accuracy": 0.8570879720234849,
+      "eval_loss": 0.6641367673873901,
+      "eval_runtime": 257.739,
+      "eval_samples_per_second": 73.318,
+      "eval_steps_per_second": 2.293,
+      "step": 67000
+    },
+    {
+      "epoch": 28.565382987727464,
+      "grad_norm": 2.383317232131958,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.6278,
+      "step": 67500
+    },
+    {
+      "epoch": 28.565382987727464,
+      "eval_accuracy": 0.857644581785577,
+      "eval_loss": 0.6594184041023254,
+      "eval_runtime": 257.9504,
+      "eval_samples_per_second": 73.258,
+      "eval_steps_per_second": 2.291,
+      "step": 67500
+    },
+    {
+      "epoch": 28.776978417266186,
+      "grad_norm": 2.2662878036499023,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.6352,
+      "step": 68000
+    },
+    {
+      "epoch": 28.776978417266186,
+      "eval_accuracy": 0.8572105229777692,
+      "eval_loss": 0.6648845672607422,
+      "eval_runtime": 256.9284,
+      "eval_samples_per_second": 73.55,
+      "eval_steps_per_second": 2.3,
+      "step": 68000
+    },
+    {
+      "epoch": 28.988573846804908,
+      "grad_norm": 2.10282039642334,
+      "learning_rate": 3.15e-05,
+      "loss": 0.6311,
+      "step": 68500
+    },
+    {
+      "epoch": 28.988573846804908,
+      "eval_accuracy": 0.857648309378422,
+      "eval_loss": 0.662155032157898,
+      "eval_runtime": 257.3538,
+      "eval_samples_per_second": 73.428,
+      "eval_steps_per_second": 2.296,
+      "step": 68500
+    },
+    {
+      "epoch": 29.20016927634363,
+      "grad_norm": 1.9128146171569824,
+      "learning_rate": 3.1e-05,
+      "loss": 0.6251,
+      "step": 69000
+    },
+    {
+      "epoch": 29.20016927634363,
+      "eval_accuracy": 0.8576574897406316,
+      "eval_loss": 0.6601685285568237,
+      "eval_runtime": 256.4327,
+      "eval_samples_per_second": 73.692,
+      "eval_steps_per_second": 2.305,
+      "step": 69000
+    },
+    {
+      "epoch": 29.41176470588235,
+      "grad_norm": 2.0687811374664307,
+      "learning_rate": 3.05e-05,
+      "loss": 0.629,
+      "step": 69500
+    },
+    {
+      "epoch": 29.41176470588235,
+      "eval_accuracy": 0.8573801438738243,
+      "eval_loss": 0.6639636158943176,
+      "eval_runtime": 258.0604,
+      "eval_samples_per_second": 73.227,
+      "eval_steps_per_second": 2.29,
+      "step": 69500
+    },
+    {
+      "epoch": 29.623360135421073,
+      "grad_norm": 2.125612497329712,
+      "learning_rate": 3e-05,
+      "loss": 0.6202,
+      "step": 70000
+    },
+    {
+      "epoch": 29.623360135421073,
+      "eval_accuracy": 0.8588090607527782,
+      "eval_loss": 0.6577702760696411,
+      "eval_runtime": 256.9418,
+      "eval_samples_per_second": 73.546,
+      "eval_steps_per_second": 2.3,
+      "step": 70000
+    },
+    {
+      "epoch": 29.834955564959795,
+      "grad_norm": 2.214634418487549,
+      "learning_rate": 2.95e-05,
+      "loss": 0.6289,
+      "step": 70500
+    },
+    {
+      "epoch": 29.834955564959795,
+      "eval_accuracy": 0.8582736032372443,
+      "eval_loss": 0.6563034057617188,
+      "eval_runtime": 256.8652,
+      "eval_samples_per_second": 73.568,
+      "eval_steps_per_second": 2.301,
+      "step": 70500
+    },
+    {
+      "epoch": 30.046550994498517,
+      "grad_norm": 2.4563674926757812,
+      "learning_rate": 2.9e-05,
+      "loss": 0.6294,
+      "step": 71000
+    },
+    {
+      "epoch": 30.046550994498517,
+      "eval_accuracy": 0.8587331893872896,
+      "eval_loss": 0.6563076972961426,
+      "eval_runtime": 258.276,
+      "eval_samples_per_second": 73.166,
+      "eval_steps_per_second": 2.288,
+      "step": 71000
+    },
+    {
+      "epoch": 30.25814642403724,
+      "grad_norm": 2.4619274139404297,
+      "learning_rate": 2.8499999999999998e-05,
+      "loss": 0.6241,
+      "step": 71500
+    },
+    {
+      "epoch": 30.25814642403724,
+      "eval_accuracy": 0.8585391289001553,
+      "eval_loss": 0.6559957265853882,
+      "eval_runtime": 256.7684,
+      "eval_samples_per_second": 73.596,
+      "eval_steps_per_second": 2.302,
+      "step": 71500
+    },
+    {
+      "epoch": 30.46974185357596,
+      "grad_norm": 2.163997173309326,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.6155,
+      "step": 72000
+    },
+    {
+      "epoch": 30.46974185357596,
+      "eval_accuracy": 0.859176163457185,
+      "eval_loss": 0.6534537076950073,
+      "eval_runtime": 257.735,
+      "eval_samples_per_second": 73.319,
+      "eval_steps_per_second": 2.293,
+      "step": 72000
+    },
+    {
+      "epoch": 30.681337283114686,
+      "grad_norm": 1.9971330165863037,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.6183,
+      "step": 72500
+    },
+    {
+      "epoch": 30.681337283114686,
+      "eval_accuracy": 0.8587832893264497,
+      "eval_loss": 0.6570005416870117,
+      "eval_runtime": 257.2991,
+      "eval_samples_per_second": 73.444,
+      "eval_steps_per_second": 2.297,
+      "step": 72500
+    },
+    {
+      "epoch": 30.89293271265341,
+      "grad_norm": 4.3704094886779785,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.6231,
+      "step": 73000
+    },
+    {
+      "epoch": 30.89293271265341,
+      "eval_accuracy": 0.8594968426256769,
+      "eval_loss": 0.6512365937232971,
+      "eval_runtime": 258.4527,
+      "eval_samples_per_second": 73.116,
+      "eval_steps_per_second": 2.287,
+      "step": 73000
+    },
+    {
+      "epoch": 31.10452814219213,
+      "grad_norm": 2.284454345703125,
+      "learning_rate": 2.6500000000000004e-05,
+      "loss": 0.6184,
+      "step": 73500
+    },
+    {
+      "epoch": 31.10452814219213,
+      "eval_accuracy": 0.8589339862375011,
+      "eval_loss": 0.6561238169670105,
+      "eval_runtime": 258.2978,
+      "eval_samples_per_second": 73.16,
+      "eval_steps_per_second": 2.288,
+      "step": 73500
+    },
+    {
+      "epoch": 31.316123571730852,
+      "grad_norm": 2.543968439102173,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.6092,
+      "step": 74000
+    },
+    {
+      "epoch": 31.316123571730852,
+      "eval_accuracy": 0.8592627955677871,
+      "eval_loss": 0.6557057499885559,
+      "eval_runtime": 257.2962,
+      "eval_samples_per_second": 73.445,
+      "eval_steps_per_second": 2.297,
+      "step": 74000
+    },
+    {
+      "epoch": 31.527719001269574,
+      "grad_norm": 2.426683187484741,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 0.6153,
+      "step": 74500
+    },
+    {
+      "epoch": 31.527719001269574,
+      "eval_accuracy": 0.8598612185667269,
+      "eval_loss": 0.6516777276992798,
+      "eval_runtime": 258.0853,
+      "eval_samples_per_second": 73.22,
+      "eval_steps_per_second": 2.29,
+      "step": 74500
+    },
+    {
+      "epoch": 31.739314430808296,
+      "grad_norm": 2.08836030960083,
+      "learning_rate": 2.5e-05,
+      "loss": 0.618,
+      "step": 75000
+    },
+    {
+      "epoch": 31.739314430808296,
+      "eval_accuracy": 0.8595358144606893,
+      "eval_loss": 0.6520631313323975,
+      "eval_runtime": 257.4064,
+      "eval_samples_per_second": 73.413,
+      "eval_steps_per_second": 2.296,
+      "step": 75000
+    },
+    {
+      "epoch": 31.950909860347018,
+      "grad_norm": 2.1859846115112305,
+      "learning_rate": 2.45e-05,
+      "loss": 0.6112,
+      "step": 75500
+    },
+    {
+      "epoch": 31.950909860347018,
+      "eval_accuracy": 0.8599916972277075,
+      "eval_loss": 0.6482178568840027,
+      "eval_runtime": 256.9388,
+      "eval_samples_per_second": 73.547,
+      "eval_steps_per_second": 2.3,
+      "step": 75500
+    },
+    {
+      "epoch": 32.162505289885736,
+      "grad_norm": 2.3875808715820312,
+      "learning_rate": 2.4e-05,
+      "loss": 0.6085,
+      "step": 76000
+    },
+    {
+      "epoch": 32.162505289885736,
+      "eval_accuracy": 0.8600822452406449,
+      "eval_loss": 0.6499439477920532,
+      "eval_runtime": 257.7978,
+      "eval_samples_per_second": 73.302,
+      "eval_steps_per_second": 2.292,
+      "step": 76000
+    },
+    {
+      "epoch": 32.37410071942446,
+      "grad_norm": 2.2975618839263916,
+      "learning_rate": 2.35e-05,
+      "loss": 0.6089,
+      "step": 76500
+    },
+    {
+      "epoch": 32.37410071942446,
+      "eval_accuracy": 0.8597950415026119,
+      "eval_loss": 0.6512751579284668,
+      "eval_runtime": 257.8607,
+      "eval_samples_per_second": 73.284,
+      "eval_steps_per_second": 2.292,
+      "step": 76500
+    },
+    {
+      "epoch": 32.58569614896318,
+      "grad_norm": 2.033182144165039,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.6126,
+      "step": 77000
+    },
+    {
+      "epoch": 32.58569614896318,
+      "eval_accuracy": 0.8606486981089672,
+      "eval_loss": 0.6454304456710815,
+      "eval_runtime": 257.2959,
+      "eval_samples_per_second": 73.445,
+      "eval_steps_per_second": 2.297,
+      "step": 77000
+    },
+    {
+      "epoch": 32.797291578501905,
+      "grad_norm": 2.5422468185424805,
+      "learning_rate": 2.25e-05,
+      "loss": 0.609,
+      "step": 77500
+    },
+    {
+      "epoch": 32.797291578501905,
+      "eval_accuracy": 0.8601956382296344,
+      "eval_loss": 0.6503181457519531,
+      "eval_runtime": 257.0398,
+      "eval_samples_per_second": 73.518,
+      "eval_steps_per_second": 2.299,
+      "step": 77500
+    },
+    {
+      "epoch": 33.008887008040624,
+      "grad_norm": 2.5468478202819824,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.607,
+      "step": 78000
+    },
+    {
+      "epoch": 33.008887008040624,
+      "eval_accuracy": 0.8605192171260687,
+      "eval_loss": 0.6505276560783386,
+      "eval_runtime": 258.1255,
+      "eval_samples_per_second": 73.209,
+      "eval_steps_per_second": 2.29,
+      "step": 78000
+    },
+    {
+      "epoch": 33.22048243757935,
+      "grad_norm": 2.286163568496704,
+      "learning_rate": 2.15e-05,
+      "loss": 0.6041,
+      "step": 78500
+    },
+    {
+      "epoch": 33.22048243757935,
+      "eval_accuracy": 0.861103987485214,
+      "eval_loss": 0.64560866355896,
+      "eval_runtime": 256.8052,
+      "eval_samples_per_second": 73.585,
+      "eval_steps_per_second": 2.301,
+      "step": 78500
+    },
+    {
+      "epoch": 33.43207786711807,
+      "grad_norm": 2.1206068992614746,
+      "learning_rate": 2.1e-05,
+      "loss": 0.6004,
+      "step": 79000
+    },
+    {
+      "epoch": 33.43207786711807,
+      "eval_accuracy": 0.8612596031308194,
+      "eval_loss": 0.6434536576271057,
+      "eval_runtime": 256.8337,
+      "eval_samples_per_second": 73.577,
+      "eval_steps_per_second": 2.301,
+      "step": 79000
+    },
+    {
+      "epoch": 33.64367329665679,
+      "grad_norm": 2.3370916843414307,
+      "learning_rate": 2.05e-05,
+      "loss": 0.5997,
+      "step": 79500
+    },
+    {
+      "epoch": 33.64367329665679,
+      "eval_accuracy": 0.8612788680646235,
+      "eval_loss": 0.6443224549293518,
+      "eval_runtime": 257.8264,
+      "eval_samples_per_second": 73.294,
+      "eval_steps_per_second": 2.292,
+      "step": 79500
+    },
+    {
+      "epoch": 33.85526872619551,
+      "grad_norm": 2.10185170173645,
+      "learning_rate": 2e-05,
+      "loss": 0.6065,
+      "step": 80000
+    },
+    {
+      "epoch": 33.85526872619551,
+      "eval_accuracy": 0.8613491274220454,
+      "eval_loss": 0.6434569358825684,
+      "eval_runtime": 257.5668,
+      "eval_samples_per_second": 73.367,
+      "eval_steps_per_second": 2.295,
+      "step": 80000
+    },
+    {
+      "epoch": 34.06686415573424,
+      "grad_norm": 2.255119562149048,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.6078,
+      "step": 80500
+    },
+    {
+      "epoch": 34.06686415573424,
+      "eval_accuracy": 0.8615438826911834,
+      "eval_loss": 0.6406592130661011,
+      "eval_runtime": 257.2887,
+      "eval_samples_per_second": 73.447,
+      "eval_steps_per_second": 2.297,
+      "step": 80500
+    },
+    {
+      "epoch": 34.278459585272955,
+      "grad_norm": 2.3236851692199707,
+      "learning_rate": 1.9e-05,
+      "loss": 0.6011,
+      "step": 81000
+    },
+    {
+      "epoch": 34.278459585272955,
+      "eval_accuracy": 0.861335263892077,
+      "eval_loss": 0.6425759196281433,
+      "eval_runtime": 256.7557,
+      "eval_samples_per_second": 73.599,
+      "eval_steps_per_second": 2.302,
+      "step": 81000
+    },
+    {
+      "epoch": 34.49005501481168,
+      "grad_norm": 2.623793601989746,
+      "learning_rate": 1.85e-05,
+      "loss": 0.5983,
+      "step": 81500
+    },
+    {
+      "epoch": 34.49005501481168,
+      "eval_accuracy": 0.8618512666970425,
+      "eval_loss": 0.6408096551895142,
+      "eval_runtime": 257.0997,
+      "eval_samples_per_second": 73.501,
+      "eval_steps_per_second": 2.299,
+      "step": 81500
+    },
+    {
+      "epoch": 34.7016504443504,
+      "grad_norm": 2.2693755626678467,
+      "learning_rate": 1.8e-05,
+      "loss": 0.5998,
+      "step": 82000
+    },
+    {
+      "epoch": 34.7016504443504,
+      "eval_accuracy": 0.861604997597309,
+      "eval_loss": 0.6423314809799194,
+      "eval_runtime": 256.4954,
+      "eval_samples_per_second": 73.674,
+      "eval_steps_per_second": 2.304,
+      "step": 82000
+    },
+    {
+      "epoch": 34.913245873889124,
+      "grad_norm": 2.0999703407287598,
+      "learning_rate": 1.75e-05,
+      "loss": 0.5889,
+      "step": 82500
+    },
+    {
+      "epoch": 34.913245873889124,
+      "eval_accuracy": 0.8619206213704296,
+      "eval_loss": 0.6381680369377136,
+      "eval_runtime": 257.1218,
+      "eval_samples_per_second": 73.494,
+      "eval_steps_per_second": 2.299,
+      "step": 82500
+    },
+    {
+      "epoch": 35.12484130342784,
+      "grad_norm": 2.395651340484619,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.599,
+      "step": 83000
+    },
+    {
+      "epoch": 35.12484130342784,
+      "eval_accuracy": 0.8622469017017651,
+      "eval_loss": 0.6387470960617065,
+      "eval_runtime": 257.8611,
+      "eval_samples_per_second": 73.284,
+      "eval_steps_per_second": 2.292,
+      "step": 83000
+    },
+    {
+      "epoch": 35.33643673296657,
+      "grad_norm": 2.2825937271118164,
+      "learning_rate": 1.65e-05,
+      "loss": 0.5918,
+      "step": 83500
+    },
+    {
+      "epoch": 35.33643673296657,
+      "eval_accuracy": 0.861704426322655,
+      "eval_loss": 0.6450377702713013,
+      "eval_runtime": 256.473,
+      "eval_samples_per_second": 73.68,
+      "eval_steps_per_second": 2.304,
+      "step": 83500
+    },
+    {
+      "epoch": 35.54803216250529,
+      "grad_norm": 1.9914382696151733,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.5926,
+      "step": 84000
+    },
+    {
+      "epoch": 35.54803216250529,
+      "eval_accuracy": 0.8618985060279569,
+      "eval_loss": 0.6395832896232605,
+      "eval_runtime": 257.6863,
+      "eval_samples_per_second": 73.333,
+      "eval_steps_per_second": 2.293,
+      "step": 84000
+    },
+    {
+      "epoch": 35.75962759204401,
+      "grad_norm": 2.521775484085083,
+      "learning_rate": 1.55e-05,
+      "loss": 0.5943,
+      "step": 84500
+    },
+    {
+      "epoch": 35.75962759204401,
+      "eval_accuracy": 0.8627831533978407,
+      "eval_loss": 0.6390488147735596,
+      "eval_runtime": 257.0675,
+      "eval_samples_per_second": 73.51,
+      "eval_steps_per_second": 2.299,
+      "step": 84500
+    },
+    {
+      "epoch": 35.97122302158273,
+      "grad_norm": 1.8525476455688477,
+      "learning_rate": 1.5e-05,
+      "loss": 0.5893,
+      "step": 85000
+    },
+    {
+      "epoch": 35.97122302158273,
+      "eval_accuracy": 0.8626250614990874,
+      "eval_loss": 0.6369556188583374,
+      "eval_runtime": 257.9689,
+      "eval_samples_per_second": 73.253,
+      "eval_steps_per_second": 2.291,
+      "step": 85000
+    },
+    {
+      "epoch": 36.182818451121456,
+      "grad_norm": 2.334683895111084,
+      "learning_rate": 1.45e-05,
+      "loss": 0.5903,
+      "step": 85500
+    },
+    {
+      "epoch": 36.182818451121456,
+      "eval_accuracy": 0.8625046820722551,
+      "eval_loss": 0.6342423558235168,
+      "eval_runtime": 256.664,
+      "eval_samples_per_second": 73.625,
+      "eval_steps_per_second": 2.303,
+      "step": 85500
+    },
+    {
+      "epoch": 36.394413880660174,
+      "grad_norm": 2.0412280559539795,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.5858,
+      "step": 86000
+    },
+    {
+      "epoch": 36.394413880660174,
+      "eval_accuracy": 0.863331290272893,
+      "eval_loss": 0.6328237652778625,
+      "eval_runtime": 258.0586,
+      "eval_samples_per_second": 73.228,
+      "eval_steps_per_second": 2.29,
+      "step": 86000
+    },
+    {
+      "epoch": 36.6060093101989,
+      "grad_norm": 2.3417727947235107,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.5892,
+      "step": 86500
+    },
+    {
+      "epoch": 36.6060093101989,
+      "eval_accuracy": 0.8630195888770026,
+      "eval_loss": 0.63493412733078,
+      "eval_runtime": 257.2339,
+      "eval_samples_per_second": 73.462,
+      "eval_steps_per_second": 2.298,
+      "step": 86500
+    },
+    {
+      "epoch": 36.817604739737625,
+      "grad_norm": 2.4106574058532715,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.5868,
+      "step": 87000
+    },
+    {
+      "epoch": 36.817604739737625,
+      "eval_accuracy": 0.8629305255186842,
+      "eval_loss": 0.6359015703201294,
+      "eval_runtime": 257.4402,
+      "eval_samples_per_second": 73.403,
+      "eval_steps_per_second": 2.296,
+      "step": 87000
+    },
+    {
+      "epoch": 37.02920016927634,
+      "grad_norm": 2.1081981658935547,
+      "learning_rate": 1.25e-05,
+      "loss": 0.5829,
+      "step": 87500
+    },
+    {
+      "epoch": 37.02920016927634,
+      "eval_accuracy": 0.8632634435698987,
+      "eval_loss": 0.6348563432693481,
+      "eval_runtime": 257.811,
+      "eval_samples_per_second": 73.298,
+      "eval_steps_per_second": 2.292,
+      "step": 87500
+    },
+    {
+      "epoch": 37.24079559881507,
+      "grad_norm": 1.9520829916000366,
+      "learning_rate": 1.2e-05,
+      "loss": 0.5786,
+      "step": 88000
+    },
+    {
+      "epoch": 37.24079559881507,
+      "eval_accuracy": 0.8635603072851765,
+      "eval_loss": 0.6330804824829102,
+      "eval_runtime": 258.3549,
+      "eval_samples_per_second": 73.144,
+      "eval_steps_per_second": 2.288,
+      "step": 88000
+    },
+    {
+      "epoch": 37.45239102835379,
+      "grad_norm": 2.665600299835205,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.5853,
+      "step": 88500
+    },
+    {
+      "epoch": 37.45239102835379,
+      "eval_accuracy": 0.86310256785702,
+      "eval_loss": 0.635982096195221,
+      "eval_runtime": 258.5477,
+      "eval_samples_per_second": 73.089,
+      "eval_steps_per_second": 2.286,
+      "step": 88500
+    },
+    {
+      "epoch": 37.66398645789251,
+      "grad_norm": 2.0741140842437744,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.5892,
+      "step": 89000
+    },
+    {
+      "epoch": 37.66398645789251,
+      "eval_accuracy": 0.8633460044988377,
+      "eval_loss": 0.6328010559082031,
+      "eval_runtime": 257.8523,
+      "eval_samples_per_second": 73.286,
+      "eval_steps_per_second": 2.292,
+      "step": 89000
+    },
+    {
+      "epoch": 37.87558188743123,
+      "grad_norm": 2.241579055786133,
+      "learning_rate": 1.05e-05,
+      "loss": 0.586,
+      "step": 89500
+    },
+    {
+      "epoch": 37.87558188743123,
+      "eval_accuracy": 0.8636331592270965,
+      "eval_loss": 0.6322268843650818,
+      "eval_runtime": 257.8127,
+      "eval_samples_per_second": 73.297,
+      "eval_steps_per_second": 2.292,
+      "step": 89500
+    },
+    {
+      "epoch": 38.08717731696996,
+      "grad_norm": 2.2971644401550293,
+      "learning_rate": 1e-05,
+      "loss": 0.5836,
+      "step": 90000
+    },
+    {
+      "epoch": 38.08717731696996,
+      "eval_accuracy": 0.8638041667935695,
+      "eval_loss": 0.6331207752227783,
+      "eval_runtime": 257.2744,
+      "eval_samples_per_second": 73.451,
+      "eval_steps_per_second": 2.297,
+      "step": 90000
+    },
+    {
+      "epoch": 38.298772746508675,
+      "grad_norm": 2.16782808303833,
+      "learning_rate": 9.5e-06,
+      "loss": 0.5804,
+      "step": 90500
+    },
+    {
+      "epoch": 38.298772746508675,
+      "eval_accuracy": 0.8636841097398482,
+      "eval_loss": 0.6297397613525391,
+      "eval_runtime": 257.3039,
+      "eval_samples_per_second": 73.442,
+      "eval_steps_per_second": 2.297,
+      "step": 90500
+    },
+    {
+      "epoch": 38.5103681760474,
+      "grad_norm": 2.5972766876220703,
+      "learning_rate": 9e-06,
+      "loss": 0.5749,
+      "step": 91000
+    },
+    {
+      "epoch": 38.5103681760474,
+      "eval_accuracy": 0.8642539234476619,
+      "eval_loss": 0.6277257204055786,
+      "eval_runtime": 256.7372,
+      "eval_samples_per_second": 73.604,
+      "eval_steps_per_second": 2.302,
+      "step": 91000
+    },
+    {
+      "epoch": 38.72196360558612,
+      "grad_norm": 2.135735511779785,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.5822,
+      "step": 91500
+    },
+    {
+      "epoch": 38.72196360558612,
+      "eval_accuracy": 0.8645455867243863,
+      "eval_loss": 0.6260649561882019,
+      "eval_runtime": 256.3537,
+      "eval_samples_per_second": 73.715,
+      "eval_steps_per_second": 2.305,
+      "step": 91500
+    },
+    {
+      "epoch": 38.933559035124844,
+      "grad_norm": 2.3427000045776367,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.5789,
+      "step": 92000
+    },
+    {
+      "epoch": 38.933559035124844,
+      "eval_accuracy": 0.8643548693082614,
+      "eval_loss": 0.6279270052909851,
+      "eval_runtime": 256.8121,
+      "eval_samples_per_second": 73.583,
+      "eval_steps_per_second": 2.301,
+      "step": 92000
+    },
+    {
+      "epoch": 39.14515446466356,
+      "grad_norm": 1.8570456504821777,
+      "learning_rate": 7.5e-06,
+      "loss": 0.5759,
+      "step": 92500
+    },
+    {
+      "epoch": 39.14515446466356,
+      "eval_accuracy": 0.8645723102469411,
+      "eval_loss": 0.6275793313980103,
+      "eval_runtime": 257.1396,
+      "eval_samples_per_second": 73.489,
+      "eval_steps_per_second": 2.298,
+      "step": 92500
+    },
+    {
+      "epoch": 39.35674989420229,
+      "grad_norm": 1.9811420440673828,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.5828,
+      "step": 93000
+    },
+    {
+      "epoch": 39.35674989420229,
+      "eval_accuracy": 0.8645656034410188,
+      "eval_loss": 0.6268828511238098,
+      "eval_runtime": 257.3243,
+      "eval_samples_per_second": 73.437,
+      "eval_steps_per_second": 2.297,
+      "step": 93000
+    },
+    {
+      "epoch": 39.568345323741006,
+      "grad_norm": 2.0771069526672363,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.5751,
+      "step": 93500
+    },
+    {
+      "epoch": 39.568345323741006,
+      "eval_accuracy": 0.8639147501323294,
+      "eval_loss": 0.6303614377975464,
+      "eval_runtime": 257.7297,
+      "eval_samples_per_second": 73.321,
+      "eval_steps_per_second": 2.293,
+      "step": 93500
+    },
+    {
+      "epoch": 39.77994075327973,
+      "grad_norm": 2.240673303604126,
+      "learning_rate": 6e-06,
+      "loss": 0.5815,
+      "step": 94000
+    },
+    {
+      "epoch": 39.77994075327973,
+      "eval_accuracy": 0.8643407518760727,
+      "eval_loss": 0.6293367743492126,
+      "eval_runtime": 256.9997,
+      "eval_samples_per_second": 73.529,
+      "eval_steps_per_second": 2.3,
+      "step": 94000
+    },
+    {
+      "epoch": 39.99153618281845,
+      "grad_norm": 2.0342483520507812,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.5706,
+      "step": 94500
+    },
+    {
+      "epoch": 39.99153618281845,
+      "eval_accuracy": 0.8641492850194513,
+      "eval_loss": 0.6290746927261353,
+      "eval_runtime": 257.7049,
+      "eval_samples_per_second": 73.328,
+      "eval_steps_per_second": 2.293,
+      "step": 94500
+    },
+    {
+      "epoch": 40.203131612357176,
+      "grad_norm": 2.2806169986724854,
+      "learning_rate": 5e-06,
+      "loss": 0.5769,
+      "step": 95000
+    },
+    {
+      "epoch": 40.203131612357176,
+      "eval_accuracy": 0.8643460240222336,
+      "eval_loss": 0.6276535391807556,
+      "eval_runtime": 258.0893,
+      "eval_samples_per_second": 73.219,
+      "eval_steps_per_second": 2.29,
+      "step": 95000
+    },
+    {
+      "epoch": 40.414727041895894,
+      "grad_norm": 2.274801015853882,
+      "learning_rate": 4.5e-06,
+      "loss": 0.5745,
+      "step": 95500
+    },
+    {
+      "epoch": 40.414727041895894,
+      "eval_accuracy": 0.8645701969504193,
+      "eval_loss": 0.6263399124145508,
+      "eval_runtime": 257.9172,
+      "eval_samples_per_second": 73.268,
+      "eval_steps_per_second": 2.291,
+      "step": 95500
+    },
+    {
+      "epoch": 40.62632247143462,
+      "grad_norm": 1.9795494079589844,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.5725,
+      "step": 96000
+    },
+    {
+      "epoch": 40.62632247143462,
+      "eval_accuracy": 0.8639941855847747,
+      "eval_loss": 0.628220796585083,
+      "eval_runtime": 256.7265,
+      "eval_samples_per_second": 73.608,
+      "eval_steps_per_second": 2.302,
+      "step": 96000
+    },
+    {
+      "epoch": 40.83791790097334,
+      "grad_norm": 2.1582834720611572,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.5698,
+      "step": 96500
+    },
+    {
+      "epoch": 40.83791790097334,
+      "eval_accuracy": 0.8640015054090628,
+      "eval_loss": 0.6307675242424011,
+      "eval_runtime": 256.4521,
+      "eval_samples_per_second": 73.686,
+      "eval_steps_per_second": 2.305,
+      "step": 96500
+    },
+    {
+      "epoch": 41.04951333051206,
+      "grad_norm": 2.10416579246521,
+      "learning_rate": 3e-06,
+      "loss": 0.5724,
+      "step": 97000
+    },
+    {
+      "epoch": 41.04951333051206,
+      "eval_accuracy": 0.8648230139892127,
+      "eval_loss": 0.6243485808372498,
+      "eval_runtime": 256.012,
+      "eval_samples_per_second": 73.813,
+      "eval_steps_per_second": 2.308,
+      "step": 97000
+    },
+    {
+      "epoch": 41.26110876005078,
+      "grad_norm": 2.0425074100494385,
+      "learning_rate": 2.5e-06,
+      "loss": 0.5651,
+      "step": 97500
+    },
+    {
+      "epoch": 41.26110876005078,
+      "eval_accuracy": 0.864510138245159,
+      "eval_loss": 0.6273527145385742,
+      "eval_runtime": 257.4944,
+      "eval_samples_per_second": 73.388,
+      "eval_steps_per_second": 2.295,
+      "step": 97500
+    },
+    {
+      "epoch": 41.47270418958951,
+      "grad_norm": 2.218738555908203,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.5786,
+      "step": 98000
+    },
+    {
+      "epoch": 41.47270418958951,
+      "eval_accuracy": 0.8649183862199398,
+      "eval_loss": 0.6246976852416992,
+      "eval_runtime": 256.2595,
+      "eval_samples_per_second": 73.742,
+      "eval_steps_per_second": 2.306,
+      "step": 98000
+    },
+    {
+      "epoch": 41.684299619128225,
+      "grad_norm": 2.116130828857422,
+      "learning_rate": 1.5e-06,
+      "loss": 0.5684,
+      "step": 98500
+    },
+    {
+      "epoch": 41.684299619128225,
+      "eval_accuracy": 0.8649372814063708,
+      "eval_loss": 0.6239222884178162,
+      "eval_runtime": 257.5904,
+      "eval_samples_per_second": 73.361,
+      "eval_steps_per_second": 2.294,
+      "step": 98500
+    },
+    {
+      "epoch": 41.89589504866695,
+      "grad_norm": 1.968195915222168,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.5737,
+      "step": 99000
+    },
+    {
+      "epoch": 41.89589504866695,
+      "eval_accuracy": 0.8654995695922106,
+      "eval_loss": 0.6234558820724487,
+      "eval_runtime": 257.2353,
+      "eval_samples_per_second": 73.462,
+      "eval_steps_per_second": 2.298,
+      "step": 99000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 100000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 43,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.359688283315241e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e7848843ecb99b15713ad10603659fa7917d47419ee24025c547230880ed7ac
+size 5176