Training in progress, epoch 0

Browse files

Files changed (12) hide show

README.md +85 -0
all_results.json +27 -0
config.json +57 -0
eval_results.json +13 -0
model.safetensors +3 -0
special_tokens_map.json +62 -0
test_results.json +12 -0
tokenizer.json +0 -0
tokenizer_config.json +286 -0
train_results.json +7 -0
trainer_state.json +2535 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,85 @@

+---
+library_name: transformers
+tags:
+- generated_from_trainer
+model-index:
+- name: vi-modernbert-VLSP2016_SA-ep20
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# vi-modernbert-VLSP2016_SA-ep20
+This model was trained from scratch on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.9834
+- Micro F1: 74.4762
+- Micro Precision: 74.4762
+- Micro Recall: 74.4762
+- Macro F1: 74.4952
+- Macro Precision: 74.5167
+- Macro Recall: 74.4762
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- distributed_type: multi-GPU
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.01
+- num_epochs: 20.0
+### Training results
+| Training Loss | Epoch   | Step | Validation Loss | Micro F1 | Micro Precision | Micro Recall | Macro F1 | Macro Precision | Macro Recall |
+|:-------------:|:-------:|:----:|:---------------:|:--------:|:---------------:|:------------:|:--------:|:---------------:|:------------:|
+| 2.2395        | 1.0     | 80   | 0.6337          | 73.1429  | 73.1429         | 73.1429      | 73.2675  | 75.2452         | 73.1429      |
+| 1.0835        | 2.0     | 160  | 0.7826          | 73.9048  | 73.9048         | 73.9048      | 73.5690  | 73.7349         | 73.9048      |
+| 0.2647        | 3.0     | 240  | 1.3780          | 73.2381  | 73.2381         | 73.2381      | 73.1154  | 73.2290         | 73.2381      |
+| 0.3228        | 4.0     | 320  | 1.7462          | 72.7619  | 72.7619         | 72.7619      | 72.7257  | 72.7147         | 72.7619      |
+| 0.0747        | 5.0     | 400  | 1.7594          | 74.0     | 74.0            | 74.0         | 74.1705  | 75.0419         | 74.0000      |
+| 0.0868        | 6.0     | 480  | 1.5809          | 73.6190  | 73.6190         | 73.6190      | 73.2438  | 73.6195         | 73.6190      |
+| 0.0801        | 7.0     | 560  | 1.7074          | 74.3810  | 74.3810         | 74.3810      | 74.3996  | 74.4326         | 74.3810      |
+| 0.1489        | 8.0     | 640  | 3.0942          | 73.5238  | 73.5238         | 73.5238      | 73.7559  | 74.9712         | 73.5238      |
+| 0.1558        | 9.0     | 720  | 3.2612          | 72.3810  | 72.3810         | 72.3810      | 72.5636  | 74.4763         | 72.3810      |
+| 0.0           | 10.0    | 800  | 3.0012          | 74.8571  | 74.8571         | 74.8571      | 74.9893  | 75.3648         | 74.8571      |
+| 0.0           | 11.0    | 880  | 2.9445          | 74.0     | 74.0            | 74.0         | 73.9497  | 73.9142         | 74.0000      |
+| 0.0           | 12.0    | 960  | 2.9618          | 74.4762  | 74.4762         | 74.4762      | 74.4845  | 74.4934         | 74.4762      |
+| 0.0           | 13.0    | 1040 | 2.9744          | 74.4762  | 74.4762         | 74.4762      | 74.4952  | 74.5167         | 74.4762      |
+| 0.0           | 14.0    | 1120 | 2.9787          | 74.3810  | 74.3810         | 74.3810      | 74.3974  | 74.4156         | 74.3810      |
+| 0.0           | 15.0    | 1200 | 2.9775          | 74.5714  | 74.5714         | 74.5714      | 74.5929  | 74.6181         | 74.5714      |
+| 0.0           | 16.0    | 1280 | 2.9835          | 74.2857  | 74.2857         | 74.2857      | 74.3051  | 74.3270         | 74.2857      |
+| 0.0           | 17.0    | 1360 | 2.9836          | 74.4762  | 74.4762         | 74.4762      | 74.4869  | 74.4985         | 74.4762      |
+| 0.0           | 18.0    | 1440 | 2.9821          | 74.4762  | 74.4762         | 74.4762      | 74.4944  | 74.5153         | 74.4762      |
+| 0.0           | 19.0    | 1520 | 2.9836          | 74.5714  | 74.5714         | 74.5714      | 74.5929  | 74.6181         | 74.5714      |
+| 0.0           | 19.7524 | 1580 | 2.9834          | 74.4762  | 74.4762         | 74.4762      | 74.4952  | 74.5167         | 74.4762      |
+### Framework versions
+- Transformers 4.50.0
+- Pytorch 2.6.0+cu124
+- Datasets 2.15.0
+- Tokenizers 0.21.1

all_results.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+    "epoch": 19.752351097178682,
+    "eval_loss": 2.983431816101074,
+    "eval_macro_f1": 74.495166799055,
+    "eval_macro_precision": 74.51671347356447,
+    "eval_macro_recall": 74.47619047619047,
+    "eval_micro_f1": 74.47619047619047,
+    "eval_micro_precision": 74.47619047619047,
+    "eval_micro_recall": 74.47619047619047,
+    "eval_runtime": 3.4211,
+    "eval_samples_per_second": 306.923,
+    "eval_steps_per_second": 19.292,
+    "test_loss": 2.983431816101074,
+    "test_macro_f1": 74.495166799055,
+    "test_macro_precision": 74.51671347356447,
+    "test_macro_recall": 74.47619047619047,
+    "test_micro_f1": 74.47619047619047,
+    "test_micro_precision": 74.47619047619047,
+    "test_micro_recall": 74.47619047619047,
+    "test_runtime": 4.1608,
+    "test_samples_per_second": 252.353,
+    "test_steps_per_second": 15.862,
+    "train_loss": 0.2892922113949427,
+    "train_runtime": 830.7771,
+    "train_samples_per_second": 122.777,
+    "train_steps_per_second": 1.902
+}

config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "architectures": [
+    "ModernBertForSequenceClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 3,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 3,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "embedding_dropout": 0.0,
+  "eos_token_id": 4,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "id2label": {
+    "0": "CLEAN",
+    "1": "HATE",
+    "2": "OFFENSIVE"
+  },
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "label2id": {
+    "CLEAN": 0,
+    "HATE": 1,
+    "OFFENSIVE": 2
+  },
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 5,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "reference_compile": true,
+  "repad_logits_with_grad": false,
+  "sep_token_id": 4,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "vocab_size": 50368
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 19.752351097178682,
+    "eval_loss": 2.983431816101074,
+    "eval_macro_f1": 74.495166799055,
+    "eval_macro_precision": 74.51671347356447,
+    "eval_macro_recall": 74.47619047619047,
+    "eval_micro_f1": 74.47619047619047,
+    "eval_micro_precision": 74.47619047619047,
+    "eval_micro_recall": 74.47619047619047,
+    "eval_runtime": 3.4211,
+    "eval_samples_per_second": 306.923,
+    "eval_steps_per_second": 19.292
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41892dde0c38d11fc3ad43796e3af4a153a3ca2353abccf77fe45b8c5394189d
+size 299228630

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "additional_special_tokens": [
+    "<|UNUSED_0|>",
+    "<|UNUSED_1|>",
+    "<|UNUSED_2|>",
+    "<|UNUSED_3|>",
+    "<|UNUSED_4|>",
+    "<|UNUSED_5|>",
+    "<|UNUSED_6|>",
+    "<|UNUSED_7|>",
+    "<|UNUSED_8|>",
+    "<|UNUSED_9|>",
+    "<|UNUSED_10|>",
+    "<|UNUSED_11|>",
+    "<|UNUSED_12|>",
+    "<|UNUSED_13|>",
+    "<|UNUSED_14|>",
+    "<|UNUSED_15|>",
+    "<|HISTORY|>",
+    "<|PHONE_NUMBER|>",
+    "<|EMAIL|>",
+    "<|IP_ADDRESS|>",
+    "<|URL|>",
+    "<|DATE|>",
+    "<|TIME|>"
+  ],
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

test_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "test_loss": 2.983431816101074,
+    "test_macro_f1": 74.495166799055,
+    "test_macro_precision": 74.51671347356447,
+    "test_macro_recall": 74.47619047619047,
+    "test_micro_f1": 74.47619047619047,
+    "test_micro_precision": 74.47619047619047,
+    "test_micro_recall": 74.47619047619047,
+    "test_runtime": 4.1608,
+    "test_samples_per_second": 252.353,
+    "test_steps_per_second": 15.862
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,286 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "[MASK]",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<|UNUSED_0|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<|UNUSED_1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<|UNUSED_2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<|UNUSED_3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<|UNUSED_4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<|UNUSED_5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<|UNUSED_6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<|UNUSED_7|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<|UNUSED_8|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<|UNUSED_9|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<|UNUSED_10|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<|UNUSED_11|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "19": {
+      "content": "<|UNUSED_12|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "20": {
+      "content": "<|UNUSED_13|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "21": {
+      "content": "<|UNUSED_14|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "22": {
+      "content": "<|UNUSED_15|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "23": {
+      "content": "<|HISTORY|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "24": {
+      "content": "<|PHONE_NUMBER|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "25": {
+      "content": "<|EMAIL|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "26": {
+      "content": "<|IP_ADDRESS|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "27": {
+      "content": "<|URL|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "28": {
+      "content": "<|DATE|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "29": {
+      "content": "<|TIME|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|UNUSED_0|>",
+    "<|UNUSED_1|>",
+    "<|UNUSED_2|>",
+    "<|UNUSED_3|>",
+    "<|UNUSED_4|>",
+    "<|UNUSED_5|>",
+    "<|UNUSED_6|>",
+    "<|UNUSED_7|>",
+    "<|UNUSED_8|>",
+    "<|UNUSED_9|>",
+    "<|UNUSED_10|>",
+    "<|UNUSED_11|>",
+    "<|UNUSED_12|>",
+    "<|UNUSED_13|>",
+    "<|UNUSED_14|>",
+    "<|UNUSED_15|>",
+    "<|HISTORY|>",
+    "<|PHONE_NUMBER|>",
+    "<|EMAIL|>",
+    "<|IP_ADDRESS|>",
+    "<|URL|>",
+    "<|DATE|>",
+    "<|TIME|>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_len": 512,
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 8192,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "return_tensors": "pt",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "PreTrainedTokenizer",
+  "truncation": true,
+  "unk_token": "[UNK]"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 19.752351097178682,
+    "train_loss": 0.2892922113949427,
+    "train_runtime": 830.7771,
+    "train_samples_per_second": 122.777,
+    "train_steps_per_second": 1.902
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2535 @@

+{
+  "best_global_step": 800,
+  "best_metric": 74.85714285714286,
+  "best_model_checkpoint": "/data/datht163/benchmark/checkpoint-800",
+  "epoch": 19.752351097178682,
+  "eval_steps": 500,
+  "global_step": 1580,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06269592476489028,
+      "grad_norm": 20.461719512939453,
+      "learning_rate": 6.25e-05,
+      "loss": 4.5641,
+      "step": 5
+    },
+    {
+      "epoch": 0.12539184952978055,
+      "grad_norm": 45.15224075317383,
+      "learning_rate": 0.000125,
+      "loss": 4.8469,
+      "step": 10
+    },
+    {
+      "epoch": 0.18808777429467086,
+      "grad_norm": 22.794708251953125,
+      "learning_rate": 0.0001875,
+      "loss": 4.368,
+      "step": 15
+    },
+    {
+      "epoch": 0.2507836990595611,
+      "grad_norm": 19.09231185913086,
+      "learning_rate": 0.00019999677214588312,
+      "loss": 3.9258,
+      "step": 20
+    },
+    {
+      "epoch": 0.31347962382445144,
+      "grad_norm": 15.92790412902832,
+      "learning_rate": 0.0001999836593456696,
+      "loss": 3.2234,
+      "step": 25
+    },
+    {
+      "epoch": 0.3761755485893417,
+      "grad_norm": 19.797821044921875,
+      "learning_rate": 0.00019996046118014955,
+      "loss": 3.2684,
+      "step": 30
+    },
+    {
+      "epoch": 0.438871473354232,
+      "grad_norm": 19.880847930908203,
+      "learning_rate": 0.00019992717998932507,
+      "loss": 3.1656,
+      "step": 35
+    },
+    {
+      "epoch": 0.5015673981191222,
+      "grad_norm": 19.707406997680664,
+      "learning_rate": 0.00019988381913027442,
+      "loss": 3.0031,
+      "step": 40
+    },
+    {
+      "epoch": 0.5642633228840125,
+      "grad_norm": 14.307902336120605,
+      "learning_rate": 0.00019983038297681336,
+      "loss": 2.7219,
+      "step": 45
+    },
+    {
+      "epoch": 0.6269592476489029,
+      "grad_norm": 13.697257995605469,
+      "learning_rate": 0.00019976687691905393,
+      "loss": 2.6117,
+      "step": 50
+    },
+    {
+      "epoch": 0.6896551724137931,
+      "grad_norm": 20.15327262878418,
+      "learning_rate": 0.0001996933073628608,
+      "loss": 2.7996,
+      "step": 55
+    },
+    {
+      "epoch": 0.7523510971786834,
+      "grad_norm": 20.71539878845215,
+      "learning_rate": 0.00019960968172920516,
+      "loss": 2.5578,
+      "step": 60
+    },
+    {
+      "epoch": 0.8150470219435737,
+      "grad_norm": 8.937211036682129,
+      "learning_rate": 0.00019951600845341595,
+      "loss": 2.9141,
+      "step": 65
+    },
+    {
+      "epoch": 0.877742946708464,
+      "grad_norm": 8.478225708007812,
+      "learning_rate": 0.0001994122969843293,
+      "loss": 2.8832,
+      "step": 70
+    },
+    {
+      "epoch": 0.9404388714733543,
+      "grad_norm": 15.695404052734375,
+      "learning_rate": 0.00019929855778333516,
+      "loss": 2.7437,
+      "step": 75
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 19.672351837158203,
+      "learning_rate": 0.00019917480232332224,
+      "loss": 2.2395,
+      "step": 80
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.6336904764175415,
+      "eval_macro_f1": 73.26745178358081,
+      "eval_macro_precision": 75.24521017228876,
+      "eval_macro_recall": 73.14285714285714,
+      "eval_micro_f1": 73.14285714285714,
+      "eval_micro_precision": 73.14285714285714,
+      "eval_micro_recall": 73.14285714285714,
+      "eval_runtime": 5.7289,
+      "eval_samples_per_second": 183.283,
+      "eval_steps_per_second": 11.521,
+      "step": 80
+    },
+    {
+      "epoch": 1.0626959247648902,
+      "grad_norm": 14.15684700012207,
+      "learning_rate": 0.0001990410430875205,
+      "loss": 1.4396,
+      "step": 85
+    },
+    {
+      "epoch": 1.1253918495297806,
+      "grad_norm": 20.00255012512207,
+      "learning_rate": 0.00019889729356824235,
+      "loss": 1.3728,
+      "step": 90
+    },
+    {
+      "epoch": 1.188087774294671,
+      "grad_norm": 13.56872272491455,
+      "learning_rate": 0.00019874356826552129,
+      "loss": 1.6022,
+      "step": 95
+    },
+    {
+      "epoch": 1.250783699059561,
+      "grad_norm": 6.213724613189697,
+      "learning_rate": 0.00019857988268564953,
+      "loss": 1.2819,
+      "step": 100
+    },
+    {
+      "epoch": 1.3134796238244515,
+      "grad_norm": 28.165010452270508,
+      "learning_rate": 0.0001984062533396137,
+      "loss": 1.1332,
+      "step": 105
+    },
+    {
+      "epoch": 1.3761755485893417,
+      "grad_norm": 15.799768447875977,
+      "learning_rate": 0.00019822269774142954,
+      "loss": 1.244,
+      "step": 110
+    },
+    {
+      "epoch": 1.438871473354232,
+      "grad_norm": 21.20913314819336,
+      "learning_rate": 0.0001980292344063752,
+      "loss": 1.4427,
+      "step": 115
+    },
+    {
+      "epoch": 1.5015673981191222,
+      "grad_norm": 18.147506713867188,
+      "learning_rate": 0.0001978258828491236,
+      "loss": 1.4596,
+      "step": 120
+    },
+    {
+      "epoch": 1.5642633228840124,
+      "grad_norm": 17.44733428955078,
+      "learning_rate": 0.00019761266358177398,
+      "loss": 0.9827,
+      "step": 125
+    },
+    {
+      "epoch": 1.626959247648903,
+      "grad_norm": 18.33002471923828,
+      "learning_rate": 0.00019738959811178272,
+      "loss": 1.2366,
+      "step": 130
+    },
+    {
+      "epoch": 1.6896551724137931,
+      "grad_norm": 16.217641830444336,
+      "learning_rate": 0.00019715670893979414,
+      "loss": 1.2665,
+      "step": 135
+    },
+    {
+      "epoch": 1.7523510971786833,
+      "grad_norm": 16.21353530883789,
+      "learning_rate": 0.00019691401955737072,
+      "loss": 1.5896,
+      "step": 140
+    },
+    {
+      "epoch": 1.8150470219435737,
+      "grad_norm": 11.688411712646484,
+      "learning_rate": 0.0001966615544446234,
+      "loss": 1.5775,
+      "step": 145
+    },
+    {
+      "epoch": 1.877742946708464,
+      "grad_norm": 14.346232414245605,
+      "learning_rate": 0.0001963993390677424,
+      "loss": 1.1833,
+      "step": 150
+    },
+    {
+      "epoch": 1.9404388714733543,
+      "grad_norm": 6.273299694061279,
+      "learning_rate": 0.00019612739987642845,
+      "loss": 1.0552,
+      "step": 155
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 17.62116050720215,
+      "learning_rate": 0.00019584576430122473,
+      "loss": 1.0835,
+      "step": 160
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.7825595140457153,
+      "eval_macro_f1": 73.56897234236968,
+      "eval_macro_precision": 73.7348812342735,
+      "eval_macro_recall": 73.90476190476191,
+      "eval_micro_f1": 73.90476190476191,
+      "eval_micro_precision": 73.90476190476191,
+      "eval_micro_recall": 73.90476190476191,
+      "eval_runtime": 3.4148,
+      "eval_samples_per_second": 307.482,
+      "eval_steps_per_second": 19.327,
+      "step": 160
+    },
+    {
+      "epoch": 2.06269592476489,
+      "grad_norm": 4.175657749176025,
+      "learning_rate": 0.00019555446075075,
+      "loss": 0.3124,
+      "step": 165
+    },
+    {
+      "epoch": 2.1253918495297803,
+      "grad_norm": 9.987613677978516,
+      "learning_rate": 0.00019525351860883293,
+      "loss": 0.3053,
+      "step": 170
+    },
+    {
+      "epoch": 2.188087774294671,
+      "grad_norm": 27.39342498779297,
+      "learning_rate": 0.00019494296823154835,
+      "loss": 0.2825,
+      "step": 175
+    },
+    {
+      "epoch": 2.250783699059561,
+      "grad_norm": 5.328784942626953,
+      "learning_rate": 0.000194622840944155,
+      "loss": 0.32,
+      "step": 180
+    },
+    {
+      "epoch": 2.3134796238244513,
+      "grad_norm": 8.484028816223145,
+      "learning_rate": 0.00019429316903793583,
+      "loss": 0.0699,
+      "step": 185
+    },
+    {
+      "epoch": 2.376175548589342,
+      "grad_norm": 16.879404067993164,
+      "learning_rate": 0.00019395398576694086,
+      "loss": 0.2403,
+      "step": 190
+    },
+    {
+      "epoch": 2.438871473354232,
+      "grad_norm": 49.66862487792969,
+      "learning_rate": 0.0001936053253446327,
+      "loss": 0.2737,
+      "step": 195
+    },
+    {
+      "epoch": 2.501567398119122,
+      "grad_norm": 17.669599533081055,
+      "learning_rate": 0.00019324722294043558,
+      "loss": 0.4838,
+      "step": 200
+    },
+    {
+      "epoch": 2.5642633228840124,
+      "grad_norm": 14.710466384887695,
+      "learning_rate": 0.00019287971467618766,
+      "loss": 0.2973,
+      "step": 205
+    },
+    {
+      "epoch": 2.626959247648903,
+      "grad_norm": 25.36009979248047,
+      "learning_rate": 0.00019250283762249748,
+      "loss": 0.4224,
+      "step": 210
+    },
+    {
+      "epoch": 2.689655172413793,
+      "grad_norm": 12.651631355285645,
+      "learning_rate": 0.00019211662979500468,
+      "loss": 0.1925,
+      "step": 215
+    },
+    {
+      "epoch": 2.7523510971786833,
+      "grad_norm": 14.720685958862305,
+      "learning_rate": 0.00019172113015054532,
+      "loss": 0.3322,
+      "step": 220
+    },
+    {
+      "epoch": 2.815047021943574,
+      "grad_norm": 15.48449993133545,
+      "learning_rate": 0.00019131637858322225,
+      "loss": 0.1582,
+      "step": 225
+    },
+    {
+      "epoch": 2.877742946708464,
+      "grad_norm": 8.015260696411133,
+      "learning_rate": 0.00019090241592038113,
+      "loss": 0.3334,
+      "step": 230
+    },
+    {
+      "epoch": 2.9404388714733543,
+      "grad_norm": 20.96394157409668,
+      "learning_rate": 0.00019047928391849195,
+      "loss": 0.2362,
+      "step": 235
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 37.81004333496094,
+      "learning_rate": 0.00019004702525893732,
+      "loss": 0.2647,
+      "step": 240
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.3779538869857788,
+      "eval_macro_f1": 73.11543717930599,
+      "eval_macro_precision": 73.228985585862,
+      "eval_macro_recall": 73.23809523809524,
+      "eval_micro_f1": 73.23809523809524,
+      "eval_micro_precision": 73.23809523809524,
+      "eval_micro_recall": 73.23809523809524,
+      "eval_runtime": 3.6271,
+      "eval_samples_per_second": 289.487,
+      "eval_steps_per_second": 18.196,
+      "step": 240
+    },
+    {
+      "epoch": 3.06269592476489,
+      "grad_norm": 8.566853523254395,
+      "learning_rate": 0.0001896056835437069,
+      "loss": 0.0999,
+      "step": 245
+    },
+    {
+      "epoch": 3.1253918495297803,
+      "grad_norm": 8.521112442016602,
+      "learning_rate": 0.0001891553032909996,
+      "loss": 0.0719,
+      "step": 250
+    },
+    {
+      "epoch": 3.188087774294671,
+      "grad_norm": 16.376962661743164,
+      "learning_rate": 0.00018869592993073258,
+      "loss": 0.2835,
+      "step": 255
+    },
+    {
+      "epoch": 3.250783699059561,
+      "grad_norm": 33.38531494140625,
+      "learning_rate": 0.0001882276097999592,
+      "loss": 0.2702,
+      "step": 260
+    },
+    {
+      "epoch": 3.3134796238244513,
+      "grad_norm": 24.302696228027344,
+      "learning_rate": 0.0001877503901381947,
+      "loss": 0.2763,
+      "step": 265
+    },
+    {
+      "epoch": 3.376175548589342,
+      "grad_norm": 18.85578727722168,
+      "learning_rate": 0.0001872643190826512,
+      "loss": 0.5174,
+      "step": 270
+    },
+    {
+      "epoch": 3.438871473354232,
+      "grad_norm": 53.06370162963867,
+      "learning_rate": 0.00018676944566338213,
+      "loss": 0.2884,
+      "step": 275
+    },
+    {
+      "epoch": 3.501567398119122,
+      "grad_norm": 34.46812438964844,
+      "learning_rate": 0.0001862658197983366,
+      "loss": 0.2232,
+      "step": 280
+    },
+    {
+      "epoch": 3.5642633228840124,
+      "grad_norm": 18.52553939819336,
+      "learning_rate": 0.00018575349228832397,
+      "loss": 0.1158,
+      "step": 285
+    },
+    {
+      "epoch": 3.626959247648903,
+      "grad_norm": 0.9173059463500977,
+      "learning_rate": 0.00018523251481188986,
+      "loss": 0.2123,
+      "step": 290
+    },
+    {
+      "epoch": 3.689655172413793,
+      "grad_norm": 12.346527099609375,
+      "learning_rate": 0.00018470293992010312,
+      "loss": 0.2126,
+      "step": 295
+    },
+    {
+      "epoch": 3.7523510971786833,
+      "grad_norm": 84.08663177490234,
+      "learning_rate": 0.00018416482103125506,
+      "loss": 0.222,
+      "step": 300
+    },
+    {
+      "epoch": 3.815047021943574,
+      "grad_norm": 19.547080993652344,
+      "learning_rate": 0.0001836182124254711,
+      "loss": 0.1389,
+      "step": 305
+    },
+    {
+      "epoch": 3.877742946708464,
+      "grad_norm": 1.2908215522766113,
+      "learning_rate": 0.00018306316923923563,
+      "loss": 0.1632,
+      "step": 310
+    },
+    {
+      "epoch": 3.9404388714733543,
+      "grad_norm": 30.96961784362793,
+      "learning_rate": 0.00018249974745983023,
+      "loss": 0.2089,
+      "step": 315
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 13.291217803955078,
+      "learning_rate": 0.00018192800391968642,
+      "loss": 0.3228,
+      "step": 320
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.7461718320846558,
+      "eval_macro_f1": 72.72572059706258,
+      "eval_macro_precision": 72.71473132903009,
+      "eval_macro_recall": 72.76190476190476,
+      "eval_micro_f1": 72.76190476190476,
+      "eval_micro_precision": 72.76190476190476,
+      "eval_micro_recall": 72.76190476190476,
+      "eval_runtime": 4.7844,
+      "eval_samples_per_second": 219.463,
+      "eval_steps_per_second": 13.795,
+      "step": 320
+    },
+    {
+      "epoch": 4.06269592476489,
+      "grad_norm": 22.18653678894043,
+      "learning_rate": 0.00018134799629065276,
+      "loss": 0.3768,
+      "step": 325
+    },
+    {
+      "epoch": 4.12539184952978,
+      "grad_norm": 18.046934127807617,
+      "learning_rate": 0.00018075978307817764,
+      "loss": 0.1879,
+      "step": 330
+    },
+    {
+      "epoch": 4.1880877742946705,
+      "grad_norm": 8.421941757202148,
+      "learning_rate": 0.00018016342361540773,
+      "loss": 0.2067,
+      "step": 335
+    },
+    {
+      "epoch": 4.250783699059561,
+      "grad_norm": 37.9600830078125,
+      "learning_rate": 0.0001795589780572031,
+      "loss": 0.1612,
+      "step": 340
+    },
+    {
+      "epoch": 4.313479623824452,
+      "grad_norm": 2.552628993988037,
+      "learning_rate": 0.0001789465073740693,
+      "loss": 0.0256,
+      "step": 345
+    },
+    {
+      "epoch": 4.376175548589342,
+      "grad_norm": 45.092559814453125,
+      "learning_rate": 0.00017832607334600746,
+      "loss": 0.2179,
+      "step": 350
+    },
+    {
+      "epoch": 4.438871473354232,
+      "grad_norm": 1.6102479696273804,
+      "learning_rate": 0.00017769773855628226,
+      "loss": 0.1914,
+      "step": 355
+    },
+    {
+      "epoch": 4.501567398119122,
+      "grad_norm": 27.624589920043945,
+      "learning_rate": 0.0001770615663851093,
+      "loss": 0.1637,
+      "step": 360
+    },
+    {
+      "epoch": 4.564263322884012,
+      "grad_norm": 31.627342224121094,
+      "learning_rate": 0.00017641762100326208,
+      "loss": 0.1678,
+      "step": 365
+    },
+    {
+      "epoch": 4.6269592476489025,
+      "grad_norm": 17.774938583374023,
+      "learning_rate": 0.0001757659673655986,
+      "loss": 0.0717,
+      "step": 370
+    },
+    {
+      "epoch": 4.689655172413794,
+      "grad_norm": 5.605461597442627,
+      "learning_rate": 0.00017510667120450998,
+      "loss": 0.2968,
+      "step": 375
+    },
+    {
+      "epoch": 4.752351097178684,
+      "grad_norm": 27.00714683532715,
+      "learning_rate": 0.00017443979902328956,
+      "loss": 0.5085,
+      "step": 380
+    },
+    {
+      "epoch": 4.815047021943574,
+      "grad_norm": 26.765687942504883,
+      "learning_rate": 0.0001737654180894249,
+      "loss": 0.1005,
+      "step": 385
+    },
+    {
+      "epoch": 4.877742946708464,
+      "grad_norm": 15.505696296691895,
+      "learning_rate": 0.00017308359642781242,
+      "loss": 0.197,
+      "step": 390
+    },
+    {
+      "epoch": 4.940438871473354,
+      "grad_norm": 7.485856056213379,
+      "learning_rate": 0.00017239440281389582,
+      "loss": 0.1499,
+      "step": 395
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.3405601978302,
+      "learning_rate": 0.00017169790676672858,
+      "loss": 0.0747,
+      "step": 400
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.7594363689422607,
+      "eval_macro_f1": 74.17047440340497,
+      "eval_macro_precision": 75.04188054945206,
+      "eval_macro_recall": 73.99999999999999,
+      "eval_micro_f1": 74.0,
+      "eval_micro_precision": 74.0,
+      "eval_micro_recall": 74.0,
+      "eval_runtime": 4.2956,
+      "eval_samples_per_second": 244.435,
+      "eval_steps_per_second": 15.364,
+      "step": 400
+    },
+    {
+      "epoch": 5.06269592476489,
+      "grad_norm": 11.809943199157715,
+      "learning_rate": 0.00017099417854196165,
+      "loss": 0.0426,
+      "step": 405
+    },
+    {
+      "epoch": 5.12539184952978,
+      "grad_norm": 4.720785140991211,
+      "learning_rate": 0.00017028328912475668,
+      "loss": 0.044,
+      "step": 410
+    },
+    {
+      "epoch": 5.1880877742946705,
+      "grad_norm": 14.604973793029785,
+      "learning_rate": 0.00016956531022262585,
+      "loss": 0.1949,
+      "step": 415
+    },
+    {
+      "epoch": 5.250783699059561,
+      "grad_norm": 0.6709997653961182,
+      "learning_rate": 0.00016884031425819853,
+      "loss": 0.295,
+      "step": 420
+    },
+    {
+      "epoch": 5.313479623824452,
+      "grad_norm": 69.35284423828125,
+      "learning_rate": 0.00016810837436191623,
+      "loss": 0.4807,
+      "step": 425
+    },
+    {
+      "epoch": 5.376175548589342,
+      "grad_norm": 24.146665573120117,
+      "learning_rate": 0.00016736956436465573,
+      "loss": 0.5015,
+      "step": 430
+    },
+    {
+      "epoch": 5.438871473354232,
+      "grad_norm": 3.2245795726776123,
+      "learning_rate": 0.0001666239587902819,
+      "loss": 0.1359,
+      "step": 435
+    },
+    {
+      "epoch": 5.501567398119122,
+      "grad_norm": 8.290742874145508,
+      "learning_rate": 0.00016587163284813032,
+      "loss": 0.0412,
+      "step": 440
+    },
+    {
+      "epoch": 5.564263322884012,
+      "grad_norm": 21.256576538085938,
+      "learning_rate": 0.00016511266242542102,
+      "loss": 0.0626,
+      "step": 445
+    },
+    {
+      "epoch": 5.6269592476489025,
+      "grad_norm": 1.178815245628357,
+      "learning_rate": 0.00016434712407960373,
+      "loss": 0.0422,
+      "step": 450
+    },
+    {
+      "epoch": 5.689655172413794,
+      "grad_norm": 19.474632263183594,
+      "learning_rate": 0.00016357509503063538,
+      "loss": 0.3287,
+      "step": 455
+    },
+    {
+      "epoch": 5.752351097178684,
+      "grad_norm": 38.11343002319336,
+      "learning_rate": 0.00016279665315319114,
+      "loss": 0.3171,
+      "step": 460
+    },
+    {
+      "epoch": 5.815047021943574,
+      "grad_norm": 63.41005325317383,
+      "learning_rate": 0.00016201187696880887,
+      "loss": 0.2117,
+      "step": 465
+    },
+    {
+      "epoch": 5.877742946708464,
+      "grad_norm": 1.7413610219955444,
+      "learning_rate": 0.00016122084563796905,
+      "loss": 0.0836,
+      "step": 470
+    },
+    {
+      "epoch": 5.940438871473354,
+      "grad_norm": 25.483036041259766,
+      "learning_rate": 0.00016042363895210946,
+      "loss": 0.4536,
+      "step": 475
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 13.102269172668457,
+      "learning_rate": 0.00015962033732557686,
+      "loss": 0.0868,
+      "step": 480
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.5808621644973755,
+      "eval_macro_f1": 73.24384906714903,
+      "eval_macro_precision": 73.61945929207427,
+      "eval_macro_recall": 73.61904761904762,
+      "eval_micro_f1": 73.61904761904762,
+      "eval_micro_precision": 73.61904761904762,
+      "eval_micro_recall": 73.61904761904762,
+      "eval_runtime": 5.0263,
+      "eval_samples_per_second": 208.902,
+      "eval_steps_per_second": 13.131,
+      "step": 480
+    },
+    {
+      "epoch": 6.06269592476489,
+      "grad_norm": 6.51555871963501,
+      "learning_rate": 0.00015881102178751553,
+      "loss": 0.0678,
+      "step": 485
+    },
+    {
+      "epoch": 6.12539184952978,
+      "grad_norm": 19.54594612121582,
+      "learning_rate": 0.00015799577397369375,
+      "loss": 0.0731,
+      "step": 490
+    },
+    {
+      "epoch": 6.1880877742946705,
+      "grad_norm": 7.0642266273498535,
+      "learning_rate": 0.0001571746761182693,
+      "loss": 0.0848,
+      "step": 495
+    },
+    {
+      "epoch": 6.250783699059561,
+      "grad_norm": 4.012495040893555,
+      "learning_rate": 0.00015634781104549442,
+      "loss": 0.1141,
+      "step": 500
+    },
+    {
+      "epoch": 6.313479623824452,
+      "grad_norm": 2.1113383769989014,
+      "learning_rate": 0.00015551526216136144,
+      "loss": 0.0945,
+      "step": 505
+    },
+    {
+      "epoch": 6.376175548589342,
+      "grad_norm": 37.096473693847656,
+      "learning_rate": 0.00015467711344518942,
+      "loss": 0.225,
+      "step": 510
+    },
+    {
+      "epoch": 6.438871473354232,
+      "grad_norm": 25.69189453125,
+      "learning_rate": 0.00015383344944115324,
+      "loss": 0.0556,
+      "step": 515
+    },
+    {
+      "epoch": 6.501567398119122,
+      "grad_norm": 4.062742710113525,
+      "learning_rate": 0.00015298435524975572,
+      "loss": 0.0765,
+      "step": 520
+    },
+    {
+      "epoch": 6.564263322884012,
+      "grad_norm": 14.947588920593262,
+      "learning_rate": 0.00015212991651924326,
+      "loss": 0.0302,
+      "step": 525
+    },
+    {
+      "epoch": 6.6269592476489025,
+      "grad_norm": 28.04601287841797,
+      "learning_rate": 0.0001512702194369668,
+      "loss": 0.4446,
+      "step": 530
+    },
+    {
+      "epoch": 6.689655172413794,
+      "grad_norm": 0.8309017419815063,
+      "learning_rate": 0.00015040535072068778,
+      "loss": 0.1228,
+      "step": 535
+    },
+    {
+      "epoch": 6.752351097178684,
+      "grad_norm": 0.3538524806499481,
+      "learning_rate": 0.00014953539760983122,
+      "loss": 0.1258,
+      "step": 540
+    },
+    {
+      "epoch": 6.815047021943574,
+      "grad_norm": 0.2524064779281616,
+      "learning_rate": 0.00014866044785668563,
+      "loss": 0.036,
+      "step": 545
+    },
+    {
+      "epoch": 6.877742946708464,
+      "grad_norm": 46.764183044433594,
+      "learning_rate": 0.00014778058971755154,
+      "loss": 0.294,
+      "step": 550
+    },
+    {
+      "epoch": 6.940438871473354,
+      "grad_norm": 33.56895446777344,
+      "learning_rate": 0.00014689591194383896,
+      "loss": 0.1452,
+      "step": 555
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.07464821636676788,
+      "learning_rate": 0.00014600650377311522,
+      "loss": 0.0801,
+      "step": 560
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.7074089050292969,
+      "eval_macro_f1": 74.3995628020244,
+      "eval_macro_precision": 74.43261914638138,
+      "eval_macro_recall": 74.38095238095238,
+      "eval_micro_f1": 74.38095238095238,
+      "eval_micro_precision": 74.38095238095238,
+      "eval_micro_recall": 74.38095238095238,
+      "eval_runtime": 5.0045,
+      "eval_samples_per_second": 209.812,
+      "eval_steps_per_second": 13.188,
+      "step": 560
+    },
+    {
+      "epoch": 7.06269592476489,
+      "grad_norm": 24.801523208618164,
+      "learning_rate": 0.00014511245492010335,
+      "loss": 0.0224,
+      "step": 565
+    },
+    {
+      "epoch": 7.12539184952978,
+      "grad_norm": 2.976022720336914,
+      "learning_rate": 0.00014421385556763266,
+      "loss": 0.1211,
+      "step": 570
+    },
+    {
+      "epoch": 7.1880877742946705,
+      "grad_norm": 0.37286555767059326,
+      "learning_rate": 0.00014331079635754193,
+      "loss": 0.0327,
+      "step": 575
+    },
+    {
+      "epoch": 7.250783699059561,
+      "grad_norm": 0.7439866662025452,
+      "learning_rate": 0.0001424033683815365,
+      "loss": 0.0382,
+      "step": 580
+    },
+    {
+      "epoch": 7.313479623824452,
+      "grad_norm": 24.909921646118164,
+      "learning_rate": 0.00014149166317199954,
+      "loss": 0.0603,
+      "step": 585
+    },
+    {
+      "epoch": 7.376175548589342,
+      "grad_norm": 9.340410232543945,
+      "learning_rate": 0.0001405757726927595,
+      "loss": 0.2319,
+      "step": 590
+    },
+    {
+      "epoch": 7.438871473354232,
+      "grad_norm": 3.947765350341797,
+      "learning_rate": 0.00013965578932981346,
+      "loss": 0.0448,
+      "step": 595
+    },
+    {
+      "epoch": 7.501567398119122,
+      "grad_norm": 0.29921436309814453,
+      "learning_rate": 0.00013873180588200827,
+      "loss": 0.006,
+      "step": 600
+    },
+    {
+      "epoch": 7.564263322884012,
+      "grad_norm": 0.11227085441350937,
+      "learning_rate": 0.00013780391555167992,
+      "loss": 0.0037,
+      "step": 605
+    },
+    {
+      "epoch": 7.6269592476489025,
+      "grad_norm": 0.041259847581386566,
+      "learning_rate": 0.0001368722119352521,
+      "loss": 0.0149,
+      "step": 610
+    },
+    {
+      "epoch": 7.689655172413794,
+      "grad_norm": 41.212154388427734,
+      "learning_rate": 0.00013593678901379524,
+      "loss": 0.0205,
+      "step": 615
+    },
+    {
+      "epoch": 7.752351097178684,
+      "grad_norm": 12.241500854492188,
+      "learning_rate": 0.00013499774114354655,
+      "loss": 0.0038,
+      "step": 620
+    },
+    {
+      "epoch": 7.815047021943574,
+      "grad_norm": 55.03153991699219,
+      "learning_rate": 0.00013405516304639234,
+      "loss": 0.029,
+      "step": 625
+    },
+    {
+      "epoch": 7.877742946708464,
+      "grad_norm": 0.5877093076705933,
+      "learning_rate": 0.00013310914980031334,
+      "loss": 0.0072,
+      "step": 630
+    },
+    {
+      "epoch": 7.940438871473354,
+      "grad_norm": 34.05458068847656,
+      "learning_rate": 0.00013215979682979428,
+      "loss": 0.0398,
+      "step": 635
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 86.24744415283203,
+      "learning_rate": 0.00013120719989619833,
+      "loss": 0.1489,
+      "step": 640
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 3.0941507816314697,
+      "eval_macro_f1": 73.75591198712105,
+      "eval_macro_precision": 74.97115819170575,
+      "eval_macro_recall": 73.52380952380952,
+      "eval_micro_f1": 73.52380952380952,
+      "eval_micro_precision": 73.52380952380952,
+      "eval_micro_recall": 73.52380952380952,
+      "eval_runtime": 4.8846,
+      "eval_samples_per_second": 214.962,
+      "eval_steps_per_second": 13.512,
+      "step": 640
+    },
+    {
+      "epoch": 8.06269592476489,
+      "grad_norm": 0.29403501749038696,
+      "learning_rate": 0.0001302514550881076,
+      "loss": 0.1469,
+      "step": 645
+    },
+    {
+      "epoch": 8.12539184952978,
+      "grad_norm": 0.0023457759525626898,
+      "learning_rate": 0.0001292926588116308,
+      "loss": 0.0521,
+      "step": 650
+    },
+    {
+      "epoch": 8.18808777429467,
+      "grad_norm": 0.0002847153227776289,
+      "learning_rate": 0.00012833090778067863,
+      "loss": 0.0004,
+      "step": 655
+    },
+    {
+      "epoch": 8.25078369905956,
+      "grad_norm": 0.07453305274248123,
+      "learning_rate": 0.0001273662990072083,
+      "loss": 0.0002,
+      "step": 660
+    },
+    {
+      "epoch": 8.31347962382445,
+      "grad_norm": 0.015363110229372978,
+      "learning_rate": 0.00012639892979143789,
+      "loss": 0.0349,
+      "step": 665
+    },
+    {
+      "epoch": 8.376175548589341,
+      "grad_norm": 0.003746453206986189,
+      "learning_rate": 0.00012542889771203166,
+      "loss": 0.0002,
+      "step": 670
+    },
+    {
+      "epoch": 8.438871473354231,
+      "grad_norm": 0.07255641371011734,
+      "learning_rate": 0.00012445630061625729,
+      "loss": 0.0391,
+      "step": 675
+    },
+    {
+      "epoch": 8.501567398119121,
+      "grad_norm": 0.006769082974642515,
+      "learning_rate": 0.00012348123661011601,
+      "loss": 0.0626,
+      "step": 680
+    },
+    {
+      "epoch": 8.564263322884013,
+      "grad_norm": 1.8504444360733032,
+      "learning_rate": 0.00012250380404844665,
+      "loss": 0.1377,
+      "step": 685
+    },
+    {
+      "epoch": 8.626959247648903,
+      "grad_norm": 30.328672409057617,
+      "learning_rate": 0.00012152410152500453,
+      "loss": 0.0094,
+      "step": 690
+    },
+    {
+      "epoch": 8.689655172413794,
+      "grad_norm": 0.01078982837498188,
+      "learning_rate": 0.00012054222786251634,
+      "loss": 0.0014,
+      "step": 695
+    },
+    {
+      "epoch": 8.752351097178684,
+      "grad_norm": 0.02426566183567047,
+      "learning_rate": 0.00011955828210271187,
+      "loss": 0.0001,
+      "step": 700
+    },
+    {
+      "epoch": 8.815047021943574,
+      "grad_norm": 0.3005918562412262,
+      "learning_rate": 0.00011857236349633358,
+      "loss": 0.1305,
+      "step": 705
+    },
+    {
+      "epoch": 8.877742946708464,
+      "grad_norm": 40.52849578857422,
+      "learning_rate": 0.00011758457149312538,
+      "loss": 0.1226,
+      "step": 710
+    },
+    {
+      "epoch": 8.940438871473354,
+      "grad_norm": 0.03640785068273544,
+      "learning_rate": 0.0001165950057318008,
+      "loss": 0.0081,
+      "step": 715
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.8364064693450928,
+      "learning_rate": 0.00011560376602999272,
+      "loss": 0.1558,
+      "step": 720
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 3.2611937522888184,
+      "eval_macro_f1": 72.56355683169605,
+      "eval_macro_precision": 74.47633152198945,
+      "eval_macro_recall": 72.3809523809524,
+      "eval_micro_f1": 72.38095238095238,
+      "eval_micro_precision": 72.38095238095238,
+      "eval_micro_recall": 72.38095238095238,
+      "eval_runtime": 4.5879,
+      "eval_samples_per_second": 228.86,
+      "eval_steps_per_second": 14.386,
+      "step": 720
+    },
+    {
+      "epoch": 9.06269592476489,
+      "grad_norm": 0.017020411789417267,
+      "learning_rate": 0.00011461095237418454,
+      "loss": 0.0155,
+      "step": 725
+    },
+    {
+      "epoch": 9.12539184952978,
+      "grad_norm": 0.0012181233614683151,
+      "learning_rate": 0.00011361666490962468,
+      "loss": 0.0176,
+      "step": 730
+    },
+    {
+      "epoch": 9.18808777429467,
+      "grad_norm": 0.04490913078188896,
+      "learning_rate": 0.00011262100393022482,
+      "loss": 0.0084,
+      "step": 735
+    },
+    {
+      "epoch": 9.25078369905956,
+      "grad_norm": 0.0009038946591317654,
+      "learning_rate": 0.00011162406986844323,
+      "loss": 0.0,
+      "step": 740
+    },
+    {
+      "epoch": 9.31347962382445,
+      "grad_norm": 0.0007440209737978876,
+      "learning_rate": 0.00011062596328515424,
+      "loss": 0.0207,
+      "step": 745
+    },
+    {
+      "epoch": 9.376175548589341,
+      "grad_norm": 0.00041356749716214836,
+      "learning_rate": 0.00010962678485950455,
+      "loss": 0.0018,
+      "step": 750
+    },
+    {
+      "epoch": 9.438871473354231,
+      "grad_norm": 0.0054762535728514194,
+      "learning_rate": 0.00010862663537875775,
+      "loss": 0.0,
+      "step": 755
+    },
+    {
+      "epoch": 9.501567398119121,
+      "grad_norm": 0.027165431529283524,
+      "learning_rate": 0.00010762561572812788,
+      "loss": 0.0,
+      "step": 760
+    },
+    {
+      "epoch": 9.564263322884013,
+      "grad_norm": 0.002276531420648098,
+      "learning_rate": 0.0001066238268806032,
+      "loss": 0.0102,
+      "step": 765
+    },
+    {
+      "epoch": 9.626959247648903,
+      "grad_norm": 0.14534221589565277,
+      "learning_rate": 0.00010562136988676078,
+      "loss": 0.0001,
+      "step": 770
+    },
+    {
+      "epoch": 9.689655172413794,
+      "grad_norm": 0.0010948021663352847,
+      "learning_rate": 0.00010461834586457398,
+      "loss": 0.0,
+      "step": 775
+    },
+    {
+      "epoch": 9.752351097178684,
+      "grad_norm": 5.5901953601278365e-05,
+      "learning_rate": 0.00010361485598921212,
+      "loss": 0.104,
+      "step": 780
+    },
+    {
+      "epoch": 9.815047021943574,
+      "grad_norm": 0.8184991478919983,
+      "learning_rate": 0.00010261100148283538,
+      "loss": 0.0106,
+      "step": 785
+    },
+    {
+      "epoch": 9.877742946708464,
+      "grad_norm": 0.006693361327052116,
+      "learning_rate": 0.00010160688360438419,
+      "loss": 0.0,
+      "step": 790
+    },
+    {
+      "epoch": 9.940438871473354,
+      "grad_norm": 59.32970428466797,
+      "learning_rate": 0.00010060260363936547,
+      "loss": 0.052,
+      "step": 795
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.021533485502004623,
+      "learning_rate": 9.959826288963571e-05,
+      "loss": 0.0,
+      "step": 800
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 3.001224994659424,
+      "eval_macro_f1": 74.98933185346014,
+      "eval_macro_precision": 75.36484226701617,
+      "eval_macro_recall": 74.85714285714286,
+      "eval_micro_f1": 74.85714285714286,
+      "eval_micro_precision": 74.85714285714286,
+      "eval_micro_recall": 74.85714285714286,
+      "eval_runtime": 4.9316,
+      "eval_samples_per_second": 212.912,
+      "eval_steps_per_second": 13.383,
+      "step": 800
+    },
+    {
+      "epoch": 10.06269592476489,
+      "grad_norm": 0.10546494275331497,
+      "learning_rate": 9.85939626631829e-05,
+      "loss": 0.0001,
+      "step": 805
+    },
+    {
+      "epoch": 10.12539184952978,
+      "grad_norm": 0.0011004558764398098,
+      "learning_rate": 9.758980426390732e-05,
+      "loss": 0.0,
+      "step": 810
+    },
+    {
+      "epoch": 10.18808777429467,
+      "grad_norm": 0.02645757608115673,
+      "learning_rate": 9.658588898140322e-05,
+      "loss": 0.0,
+      "step": 815
+    },
+    {
+      "epoch": 10.25078369905956,
+      "grad_norm": 0.06658319383859634,
+      "learning_rate": 9.558231808074156e-05,
+      "loss": 0.0001,
+      "step": 820
+    },
+    {
+      "epoch": 10.31347962382445,
+      "grad_norm": 0.1821487843990326,
+      "learning_rate": 9.457919279225548e-05,
+      "loss": 0.0,
+      "step": 825
+    },
+    {
+      "epoch": 10.376175548589341,
+      "grad_norm": 0.0002453463093843311,
+      "learning_rate": 9.357661430132915e-05,
+      "loss": 0.0,
+      "step": 830
+    },
+    {
+      "epoch": 10.438871473354231,
+      "grad_norm": 0.0003151444543618709,
+      "learning_rate": 9.257468373819123e-05,
+      "loss": 0.0,
+      "step": 835
+    },
+    {
+      "epoch": 10.501567398119121,
+      "grad_norm": 4.588846059050411e-05,
+      "learning_rate": 9.157350216771378e-05,
+      "loss": 0.0,
+      "step": 840
+    },
+    {
+      "epoch": 10.564263322884013,
+      "grad_norm": 0.0018681439105421305,
+      "learning_rate": 9.057317057921787e-05,
+      "loss": 0.0,
+      "step": 845
+    },
+    {
+      "epoch": 10.626959247648903,
+      "grad_norm": 0.0006441921577788889,
+      "learning_rate": 8.957378987628682e-05,
+      "loss": 0.0,
+      "step": 850
+    },
+    {
+      "epoch": 10.689655172413794,
+      "grad_norm": 0.0007152777980081737,
+      "learning_rate": 8.857546086658789e-05,
+      "loss": 0.0,
+      "step": 855
+    },
+    {
+      "epoch": 10.752351097178684,
+      "grad_norm": 0.0002644763153512031,
+      "learning_rate": 8.757828425170404e-05,
+      "loss": 0.0173,
+      "step": 860
+    },
+    {
+      "epoch": 10.815047021943574,
+      "grad_norm": 0.0004763313045259565,
+      "learning_rate": 8.658236061697586e-05,
+      "loss": 0.0,
+      "step": 865
+    },
+    {
+      "epoch": 10.877742946708464,
+      "grad_norm": 0.07049086689949036,
+      "learning_rate": 8.55877904213558e-05,
+      "loss": 0.0,
+      "step": 870
+    },
+    {
+      "epoch": 10.940438871473354,
+      "grad_norm": 0.00021191804262343794,
+      "learning_rate": 8.459467398727462e-05,
+      "loss": 0.0,
+      "step": 875
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.0024338788352906704,
+      "learning_rate": 8.360311149052205e-05,
+      "loss": 0.0,
+      "step": 880
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 2.944465160369873,
+      "eval_macro_f1": 73.94965715163707,
+      "eval_macro_precision": 73.91418752481633,
+      "eval_macro_recall": 73.99999999999999,
+      "eval_micro_f1": 74.0,
+      "eval_micro_precision": 74.0,
+      "eval_micro_recall": 74.0,
+      "eval_runtime": 3.4955,
+      "eval_samples_per_second": 300.386,
+      "eval_steps_per_second": 18.881,
+      "step": 880
+    },
+    {
+      "epoch": 11.06269592476489,
+      "grad_norm": 0.0007475401507690549,
+      "learning_rate": 8.261320295014182e-05,
+      "loss": 0.0,
+      "step": 885
+    },
+    {
+      "epoch": 11.12539184952978,
+      "grad_norm": 5.158692511031404e-05,
+      "learning_rate": 8.162504821834295e-05,
+      "loss": 0.0,
+      "step": 890
+    },
+    {
+      "epoch": 11.18808777429467,
+      "grad_norm": 0.0004298978892620653,
+      "learning_rate": 8.06387469704276e-05,
+      "loss": 0.0,
+      "step": 895
+    },
+    {
+      "epoch": 11.25078369905956,
+      "grad_norm": 0.005391178652644157,
+      "learning_rate": 7.965439869473664e-05,
+      "loss": 0.0,
+      "step": 900
+    },
+    {
+      "epoch": 11.31347962382445,
+      "grad_norm": 0.00016025469813030213,
+      "learning_rate": 7.867210268261439e-05,
+      "loss": 0.0,
+      "step": 905
+    },
+    {
+      "epoch": 11.376175548589341,
+      "grad_norm": 0.00021810800535604358,
+      "learning_rate": 7.769195801839313e-05,
+      "loss": 0.0,
+      "step": 910
+    },
+    {
+      "epoch": 11.438871473354231,
+      "grad_norm": 0.0006552350823767483,
+      "learning_rate": 7.671406356939836e-05,
+      "loss": 0.0,
+      "step": 915
+    },
+    {
+      "epoch": 11.501567398119121,
+      "grad_norm": 0.001337722409516573,
+      "learning_rate": 7.573851797597602e-05,
+      "loss": 0.0,
+      "step": 920
+    },
+    {
+      "epoch": 11.564263322884013,
+      "grad_norm": 0.00711465161293745,
+      "learning_rate": 7.476541964154269e-05,
+      "loss": 0.0,
+      "step": 925
+    },
+    {
+      "epoch": 11.626959247648903,
+      "grad_norm": 3.7509220419451594e-05,
+      "learning_rate": 7.379486672265964e-05,
+      "loss": 0.0,
+      "step": 930
+    },
+    {
+      "epoch": 11.689655172413794,
+      "grad_norm": 0.00123989034909755,
+      "learning_rate": 7.28269571191317e-05,
+      "loss": 0.0,
+      "step": 935
+    },
+    {
+      "epoch": 11.752351097178684,
+      "grad_norm": 0.00043695452040992677,
+      "learning_rate": 7.186178846413214e-05,
+      "loss": 0.0,
+      "step": 940
+    },
+    {
+      "epoch": 11.815047021943574,
+      "grad_norm": 0.0020732777193188667,
+      "learning_rate": 7.089945811435433e-05,
+      "loss": 0.0,
+      "step": 945
+    },
+    {
+      "epoch": 11.877742946708464,
+      "grad_norm": 0.0006961887702345848,
+      "learning_rate": 6.994006314019141e-05,
+      "loss": 0.0,
+      "step": 950
+    },
+    {
+      "epoch": 11.940438871473354,
+      "grad_norm": 0.00014696276048198342,
+      "learning_rate": 6.898370031594487e-05,
+      "loss": 0.0,
+      "step": 955
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.004987122491002083,
+      "learning_rate": 6.803046611006278e-05,
+      "loss": 0.0,
+      "step": 960
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 2.9617700576782227,
+      "eval_macro_f1": 74.48450982070439,
+      "eval_macro_precision": 74.49341191282451,
+      "eval_macro_recall": 74.47619047619047,
+      "eval_micro_f1": 74.47619047619047,
+      "eval_micro_precision": 74.47619047619047,
+      "eval_micro_recall": 74.47619047619047,
+      "eval_runtime": 3.4656,
+      "eval_samples_per_second": 302.974,
+      "eval_steps_per_second": 19.044,
+      "step": 960
+    },
+    {
+      "epoch": 12.06269592476489,
+      "grad_norm": 3.519210804370232e-05,
+      "learning_rate": 6.708045667540897e-05,
+      "loss": 0.0,
+      "step": 965
+    },
+    {
+      "epoch": 12.12539184952978,
+      "grad_norm": 0.0011250913375988603,
+      "learning_rate": 6.613376783956423e-05,
+      "loss": 0.0,
+      "step": 970
+    },
+    {
+      "epoch": 12.18808777429467,
+      "grad_norm": 5.886521466891281e-05,
+      "learning_rate": 6.519049509516013e-05,
+      "loss": 0.0,
+      "step": 975
+    },
+    {
+      "epoch": 12.25078369905956,
+      "grad_norm": 0.0004661143757402897,
+      "learning_rate": 6.425073359024663e-05,
+      "loss": 0.0,
+      "step": 980
+    },
+    {
+      "epoch": 12.31347962382445,
+      "grad_norm": 0.00029624096350744367,
+      "learning_rate": 6.331457811869437e-05,
+      "loss": 0.0,
+      "step": 985
+    },
+    {
+      "epoch": 12.376175548589341,
+      "grad_norm": 0.00012905469338875264,
+      "learning_rate": 6.2382123110633e-05,
+      "loss": 0.0,
+      "step": 990
+    },
+    {
+      "epoch": 12.438871473354231,
+      "grad_norm": 0.00013497307372745126,
+      "learning_rate": 6.145346262292595e-05,
+      "loss": 0.0,
+      "step": 995
+    },
+    {
+      "epoch": 12.501567398119121,
+      "grad_norm": 0.0008577414555475116,
+      "learning_rate": 6.052869032968285e-05,
+      "loss": 0.0,
+      "step": 1000
+    },
+    {
+      "epoch": 12.564263322884013,
+      "grad_norm": 0.0001506131811765954,
+      "learning_rate": 5.960789951281052e-05,
+      "loss": 0.0,
+      "step": 1005
+    },
+    {
+      "epoch": 12.626959247648903,
+      "grad_norm": 0.00014009448932483792,
+      "learning_rate": 5.8691183052603834e-05,
+      "loss": 0.0,
+      "step": 1010
+    },
+    {
+      "epoch": 12.689655172413794,
+      "grad_norm": 2.588312781881541e-05,
+      "learning_rate": 5.777863341837675e-05,
+      "loss": 0.0,
+      "step": 1015
+    },
+    {
+      "epoch": 12.752351097178684,
+      "grad_norm": 0.00011443781841080636,
+      "learning_rate": 5.687034265913485e-05,
+      "loss": 0.0,
+      "step": 1020
+    },
+    {
+      "epoch": 12.815047021943574,
+      "grad_norm": 0.00010904014925472438,
+      "learning_rate": 5.596640239429051e-05,
+      "loss": 0.0,
+      "step": 1025
+    },
+    {
+      "epoch": 12.877742946708464,
+      "grad_norm": 5.243328268988989e-05,
+      "learning_rate": 5.5066903804421025e-05,
+      "loss": 0.0,
+      "step": 1030
+    },
+    {
+      "epoch": 12.940438871473354,
+      "grad_norm": 0.0001976548373932019,
+      "learning_rate": 5.4171937622071435e-05,
+      "loss": 0.0,
+      "step": 1035
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 1.4458280929829925e-05,
+      "learning_rate": 5.32815941226022e-05,
+      "loss": 0.0,
+      "step": 1040
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 2.9744179248809814,
+      "eval_macro_f1": 74.495166799055,
+      "eval_macro_precision": 74.51671347356447,
+      "eval_macro_recall": 74.47619047619047,
+      "eval_micro_f1": 74.47619047619047,
+      "eval_micro_precision": 74.47619047619047,
+      "eval_micro_recall": 74.47619047619047,
+      "eval_runtime": 3.7357,
+      "eval_samples_per_second": 281.069,
+      "eval_steps_per_second": 17.667,
+      "step": 1040
+    },
+    {
+      "epoch": 13.06269592476489,
+      "grad_norm": 0.00015813493519090116,
+      "learning_rate": 5.2395963115083104e-05,
+      "loss": 0.0,
+      "step": 1045
+    },
+    {
+      "epoch": 13.12539184952978,
+      "grad_norm": 5.232647708908189e-06,
+      "learning_rate": 5.151513393323426e-05,
+      "loss": 0.0,
+      "step": 1050
+    },
+    {
+      "epoch": 13.18808777429467,
+      "grad_norm": 0.0007055670721456409,
+      "learning_rate": 5.06391954264149e-05,
+      "loss": 0.0,
+      "step": 1055
+    },
+    {
+      "epoch": 13.25078369905956,
+      "grad_norm": 0.0001715083053568378,
+      "learning_rate": 4.976823595066128e-05,
+      "loss": 0.0,
+      "step": 1060
+    },
+    {
+      "epoch": 13.31347962382445,
+      "grad_norm": 0.0010762359015643597,
+      "learning_rate": 4.8902343359774085e-05,
+      "loss": 0.0,
+      "step": 1065
+    },
+    {
+      "epoch": 13.376175548589341,
+      "grad_norm": 0.0003584644291549921,
+      "learning_rate": 4.804160499645667e-05,
+      "loss": 0.0,
+      "step": 1070
+    },
+    {
+      "epoch": 13.438871473354231,
+      "grad_norm": 0.00013147966819815338,
+      "learning_rate": 4.7186107683504656e-05,
+      "loss": 0.0,
+      "step": 1075
+    },
+    {
+      "epoch": 13.501567398119121,
+      "grad_norm": 0.00026007898850366473,
+      "learning_rate": 4.6335937715048306e-05,
+      "loss": 0.0,
+      "step": 1080
+    },
+    {
+      "epoch": 13.564263322884013,
+      "grad_norm": 8.957670797826722e-05,
+      "learning_rate": 4.549118084784788e-05,
+      "loss": 0.0,
+      "step": 1085
+    },
+    {
+      "epoch": 13.626959247648903,
+      "grad_norm": 7.390981409116648e-06,
+      "learning_rate": 4.465192229264337e-05,
+      "loss": 0.0,
+      "step": 1090
+    },
+    {
+      "epoch": 13.689655172413794,
+      "grad_norm": 0.0010093646124005318,
+      "learning_rate": 4.381824670555934e-05,
+      "loss": 0.0,
+      "step": 1095
+    },
+    {
+      "epoch": 13.752351097178684,
+      "grad_norm": 0.0001321593881584704,
+      "learning_rate": 4.29902381795655e-05,
+      "loss": 0.0,
+      "step": 1100
+    },
+    {
+      "epoch": 13.815047021943574,
+      "grad_norm": 0.0003493933181744069,
+      "learning_rate": 4.216798023599441e-05,
+      "loss": 0.0,
+      "step": 1105
+    },
+    {
+      "epoch": 13.877742946708464,
+      "grad_norm": 0.00017224319162778556,
+      "learning_rate": 4.135155581611661e-05,
+      "loss": 0.0,
+      "step": 1110
+    },
+    {
+      "epoch": 13.940438871473354,
+      "grad_norm": 0.0007415884756483138,
+      "learning_rate": 4.0541047272774315e-05,
+      "loss": 0.0,
+      "step": 1115
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.00015337667718995363,
+      "learning_rate": 3.973653636207437e-05,
+      "loss": 0.0,
+      "step": 1120
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 2.978665351867676,
+      "eval_macro_f1": 74.39737250761942,
+      "eval_macro_precision": 74.41561381963534,
+      "eval_macro_recall": 74.38095238095238,
+      "eval_micro_f1": 74.38095238095238,
+      "eval_micro_precision": 74.38095238095238,
+      "eval_micro_recall": 74.38095238095238,
+      "eval_runtime": 4.1748,
+      "eval_samples_per_second": 251.508,
+      "eval_steps_per_second": 15.809,
+      "step": 1120
+    },
+    {
+      "epoch": 14.06269592476489,
+      "grad_norm": 0.00025141274090856314,
+      "learning_rate": 3.893810423514172e-05,
+      "loss": 0.0,
+      "step": 1125
+    },
+    {
+      "epoch": 14.12539184952978,
+      "grad_norm": 0.0002585667825769633,
+      "learning_rate": 3.814583142993352e-05,
+      "loss": 0.0,
+      "step": 1130
+    },
+    {
+      "epoch": 14.18808777429467,
+      "grad_norm": 1.575879105075728e-05,
+      "learning_rate": 3.7359797863115283e-05,
+      "loss": 0.0,
+      "step": 1135
+    },
+    {
+      "epoch": 14.25078369905956,
+      "grad_norm": 3.0083991077844985e-05,
+      "learning_rate": 3.6580082821999786e-05,
+      "loss": 0.0,
+      "step": 1140
+    },
+    {
+      "epoch": 14.31347962382445,
+      "grad_norm": 0.0006605722010135651,
+      "learning_rate": 3.580676495654911e-05,
+      "loss": 0.0,
+      "step": 1145
+    },
+    {
+      "epoch": 14.376175548589341,
+      "grad_norm": 0.00018690273282118142,
+      "learning_rate": 3.503992227144147e-05,
+      "loss": 0.0,
+      "step": 1150
+    },
+    {
+      "epoch": 14.438871473354231,
+      "grad_norm": 0.00042844025301747024,
+      "learning_rate": 3.427963211820274e-05,
+      "loss": 0.0,
+      "step": 1155
+    },
+    {
+      "epoch": 14.501567398119121,
+      "grad_norm": 0.00033945144969038665,
+      "learning_rate": 3.352597118740404e-05,
+      "loss": 0.0,
+      "step": 1160
+    },
+    {
+      "epoch": 14.564263322884013,
+      "grad_norm": 5.347471233108081e-05,
+      "learning_rate": 3.277901550092581e-05,
+      "loss": 0.0,
+      "step": 1165
+    },
+    {
+      "epoch": 14.626959247648903,
+      "grad_norm": 0.0009476160048507154,
+      "learning_rate": 3.2038840404289705e-05,
+      "loss": 0.0,
+      "step": 1170
+    },
+    {
+      "epoch": 14.689655172413794,
+      "grad_norm": 0.0006543208146467805,
+      "learning_rate": 3.13055205590583e-05,
+      "loss": 0.0,
+      "step": 1175
+    },
+    {
+      "epoch": 14.752351097178684,
+      "grad_norm": 6.901170854689553e-05,
+      "learning_rate": 3.0579129935304066e-05,
+      "loss": 0.0,
+      "step": 1180
+    },
+    {
+      "epoch": 14.815047021943574,
+      "grad_norm": 0.0006354337092489004,
+      "learning_rate": 2.9859741804147957e-05,
+      "loss": 0.0,
+      "step": 1185
+    },
+    {
+      "epoch": 14.877742946708464,
+      "grad_norm": 0.0009218246559612453,
+      "learning_rate": 2.9147428730368475e-05,
+      "loss": 0.0,
+      "step": 1190
+    },
+    {
+      "epoch": 14.940438871473354,
+      "grad_norm": 0.0008917151717469096,
+      "learning_rate": 2.844226256508221e-05,
+      "loss": 0.0,
+      "step": 1195
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 4.064366657985374e-05,
+      "learning_rate": 2.7744314438496088e-05,
+      "loss": 0.0,
+      "step": 1200
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 2.9775209426879883,
+      "eval_macro_f1": 74.59288643616037,
+      "eval_macro_precision": 74.61805414620287,
+      "eval_macro_recall": 74.57142857142857,
+      "eval_micro_f1": 74.57142857142857,
+      "eval_micro_precision": 74.57142857142857,
+      "eval_micro_recall": 74.57142857142857,
+      "eval_runtime": 4.2475,
+      "eval_samples_per_second": 247.204,
+      "eval_steps_per_second": 15.539,
+      "step": 1200
+    },
+    {
+      "epoch": 15.06269592476489,
+      "grad_norm": 0.0005438003572635353,
+      "learning_rate": 2.7053654752732528e-05,
+      "loss": 0.0,
+      "step": 1205
+    },
+    {
+      "epoch": 15.12539184952978,
+      "grad_norm": 6.86753774061799e-05,
+      "learning_rate": 2.6370353174727836e-05,
+      "loss": 0.0,
+      "step": 1210
+    },
+    {
+      "epoch": 15.18808777429467,
+      "grad_norm": 0.00032200937857851386,
+      "learning_rate": 2.5694478629205078e-05,
+      "loss": 0.0,
+      "step": 1215
+    },
+    {
+      "epoch": 15.25078369905956,
+      "grad_norm": 0.0002235895226476714,
+      "learning_rate": 2.5026099291721516e-05,
+      "loss": 0.0,
+      "step": 1220
+    },
+    {
+      "epoch": 15.31347962382445,
+      "grad_norm": 0.00034938243334181607,
+      "learning_rate": 2.4365282581791782e-05,
+      "loss": 0.0,
+      "step": 1225
+    },
+    {
+      "epoch": 15.376175548589341,
+      "grad_norm": 0.00023688429791945964,
+      "learning_rate": 2.371209515608718e-05,
+      "loss": 0.0,
+      "step": 1230
+    },
+    {
+      "epoch": 15.438871473354231,
+      "grad_norm": 0.0008163132588379085,
+      "learning_rate": 2.3066602901712108e-05,
+      "loss": 0.0,
+      "step": 1235
+    },
+    {
+      "epoch": 15.501567398119121,
+      "grad_norm": 0.00019654417701531202,
+      "learning_rate": 2.242887092955801e-05,
+      "loss": 0.0,
+      "step": 1240
+    },
+    {
+      "epoch": 15.564263322884013,
+      "grad_norm": 2.644214873726014e-05,
+      "learning_rate": 2.1798963567735608e-05,
+      "loss": 0.0,
+      "step": 1245
+    },
+    {
+      "epoch": 15.626959247648903,
+      "grad_norm": 0.0005443547270260751,
+      "learning_rate": 2.1176944355086058e-05,
+      "loss": 0.0,
+      "step": 1250
+    },
+    {
+      "epoch": 15.689655172413794,
+      "grad_norm": 0.00014729479153174907,
+      "learning_rate": 2.0562876034771882e-05,
+      "loss": 0.0,
+      "step": 1255
+    },
+    {
+      "epoch": 15.752351097178684,
+      "grad_norm": 0.0004818035813514143,
+      "learning_rate": 1.995682054794803e-05,
+      "loss": 0.0,
+      "step": 1260
+    },
+    {
+      "epoch": 15.815047021943574,
+      "grad_norm": 0.0002842153771780431,
+      "learning_rate": 1.935883902751382e-05,
+      "loss": 0.0,
+      "step": 1265
+    },
+    {
+      "epoch": 15.877742946708464,
+      "grad_norm": 0.00016755808610469103,
+      "learning_rate": 1.8768991791946456e-05,
+      "loss": 0.0,
+      "step": 1270
+    },
+    {
+      "epoch": 15.940438871473354,
+      "grad_norm": 0.0001340256567345932,
+      "learning_rate": 1.8187338339216775e-05,
+      "loss": 0.0,
+      "step": 1275
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.00031726626912131906,
+      "learning_rate": 1.76139373407876e-05,
+      "loss": 0.0,
+      "step": 1280
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 2.9834632873535156,
+      "eval_macro_f1": 74.30509548505665,
+      "eval_macro_precision": 74.3270405312326,
+      "eval_macro_recall": 74.28571428571429,
+      "eval_micro_f1": 74.28571428571429,
+      "eval_micro_precision": 74.28571428571429,
+      "eval_micro_recall": 74.28571428571429,
+      "eval_runtime": 5.3043,
+      "eval_samples_per_second": 197.954,
+      "eval_steps_per_second": 12.443,
+      "step": 1280
+    },
+    {
+      "epoch": 16.062695924764892,
+      "grad_norm": 0.0002320996136404574,
+      "learning_rate": 1.7048846635695602e-05,
+      "loss": 0.0,
+      "step": 1285
+    },
+    {
+      "epoch": 16.12539184952978,
+      "grad_norm": 0.0005247556255199015,
+      "learning_rate": 1.649212322471695e-05,
+      "loss": 0.0,
+      "step": 1290
+    },
+    {
+      "epoch": 16.188087774294672,
+      "grad_norm": 6.593632861040533e-05,
+      "learning_rate": 1.5943823264617796e-05,
+      "loss": 0.0,
+      "step": 1295
+    },
+    {
+      "epoch": 16.25078369905956,
+      "grad_norm": 2.0959419998689555e-05,
+      "learning_rate": 1.540400206248963e-05,
+      "loss": 0.0,
+      "step": 1300
+    },
+    {
+      "epoch": 16.313479623824453,
+      "grad_norm": 0.0002277921448694542,
+      "learning_rate": 1.4872714070170468e-05,
+      "loss": 0.0,
+      "step": 1305
+    },
+    {
+      "epoch": 16.37617554858934,
+      "grad_norm": 5.7650511735118926e-05,
+      "learning_rate": 1.435001287875234e-05,
+      "loss": 0.0,
+      "step": 1310
+    },
+    {
+      "epoch": 16.438871473354233,
+      "grad_norm": 0.0003665912081487477,
+      "learning_rate": 1.3835951213175413e-05,
+      "loss": 0.0,
+      "step": 1315
+    },
+    {
+      "epoch": 16.50156739811912,
+      "grad_norm": 0.00018977168656419963,
+      "learning_rate": 1.3330580926909763e-05,
+      "loss": 0.0,
+      "step": 1320
+    },
+    {
+      "epoch": 16.564263322884013,
+      "grad_norm": 2.3261072783498093e-05,
+      "learning_rate": 1.2833952996724863e-05,
+      "loss": 0.0,
+      "step": 1325
+    },
+    {
+      "epoch": 16.6269592476489,
+      "grad_norm": 0.00015886298206169158,
+      "learning_rate": 1.2346117517547551e-05,
+      "loss": 0.0,
+      "step": 1330
+    },
+    {
+      "epoch": 16.689655172413794,
+      "grad_norm": 0.00010217857925454155,
+      "learning_rate": 1.1867123697408854e-05,
+      "loss": 0.0,
+      "step": 1335
+    },
+    {
+      "epoch": 16.752351097178682,
+      "grad_norm": 0.000697963812854141,
+      "learning_rate": 1.139701985248055e-05,
+      "loss": 0.0,
+      "step": 1340
+    },
+    {
+      "epoch": 16.815047021943574,
+      "grad_norm": 0.0002654240815900266,
+      "learning_rate": 1.0935853402201335e-05,
+      "loss": 0.0,
+      "step": 1345
+    },
+    {
+      "epoch": 16.877742946708462,
+      "grad_norm": 0.0005684046191163361,
+      "learning_rate": 1.0483670864493778e-05,
+      "loss": 0.0,
+      "step": 1350
+    },
+    {
+      "epoch": 16.940438871473354,
+      "grad_norm": 0.00042359635699540377,
+      "learning_rate": 1.004051785107184e-05,
+      "loss": 0.0,
+      "step": 1355
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 8.337834879057482e-05,
+      "learning_rate": 9.606439062840256e-06,
+      "loss": 0.0,
+      "step": 1360
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 2.983590602874756,
+      "eval_macro_f1": 74.48693497595121,
+      "eval_macro_precision": 74.49848858038513,
+      "eval_macro_recall": 74.47619047619048,
+      "eval_micro_f1": 74.47619047619047,
+      "eval_micro_precision": 74.47619047619047,
+      "eval_micro_recall": 74.47619047619047,
+      "eval_runtime": 5.1696,
+      "eval_samples_per_second": 203.111,
+      "eval_steps_per_second": 12.767,
+      "step": 1360
+    },
+    {
+      "epoch": 17.062695924764892,
+      "grad_norm": 0.0003075774875469506,
+      "learning_rate": 9.181478285385381e-06,
+      "loss": 0.0,
+      "step": 1365
+    },
+    {
+      "epoch": 17.12539184952978,
+      "grad_norm": 8.384697139263153e-05,
+      "learning_rate": 8.765678384558607e-06,
+      "loss": 0.0,
+      "step": 1370
+    },
+    {
+      "epoch": 17.188087774294672,
+      "grad_norm": 0.00010231971828034148,
+      "learning_rate": 8.359081302152394e-06,
+      "loss": 0.0,
+      "step": 1375
+    },
+    {
+      "epoch": 17.25078369905956,
+      "grad_norm": 0.0003627596015576273,
+      "learning_rate": 7.961728051669737e-06,
+      "loss": 0.0,
+      "step": 1380
+    },
+    {
+      "epoch": 17.313479623824453,
+      "grad_norm": 3.662167000584304e-05,
+      "learning_rate": 7.5736587141870155e-06,
+      "loss": 0.0,
+      "step": 1385
+    },
+    {
+      "epoch": 17.37617554858934,
+      "grad_norm": 0.0005837052594870329,
+      "learning_rate": 7.194912434311052e-06,
+      "loss": 0.0,
+      "step": 1390
+    },
+    {
+      "epoch": 17.438871473354233,
+      "grad_norm": 7.577840005978942e-05,
+      "learning_rate": 6.8255274162305374e-06,
+      "loss": 0.0,
+      "step": 1395
+    },
+    {
+      "epoch": 17.50156739811912,
+      "grad_norm": 0.00022036675363779068,
+      "learning_rate": 6.465540919862456e-06,
+      "loss": 0.0,
+      "step": 1400
+    },
+    {
+      "epoch": 17.564263322884013,
+      "grad_norm": 7.557481876574457e-05,
+      "learning_rate": 6.11498925709364e-06,
+      "loss": 0.0,
+      "step": 1405
+    },
+    {
+      "epoch": 17.6269592476489,
+      "grad_norm": 0.00023109870380721986,
+      "learning_rate": 5.77390778811796e-06,
+      "loss": 0.0,
+      "step": 1410
+    },
+    {
+      "epoch": 17.689655172413794,
+      "grad_norm": 0.0002563658345025033,
+      "learning_rate": 5.44233091786951e-06,
+      "loss": 0.0,
+      "step": 1415
+    },
+    {
+      "epoch": 17.752351097178682,
+      "grad_norm": 1.977133797481656e-05,
+      "learning_rate": 5.12029209255227e-06,
+      "loss": 0.0,
+      "step": 1420
+    },
+    {
+      "epoch": 17.815047021943574,
+      "grad_norm": 0.00025862394249998033,
+      "learning_rate": 4.807823796266331e-06,
+      "loss": 0.0,
+      "step": 1425
+    },
+    {
+      "epoch": 17.877742946708462,
+      "grad_norm": 0.00048169083311222494,
+      "learning_rate": 4.504957547731214e-06,
+      "loss": 0.0,
+      "step": 1430
+    },
+    {
+      "epoch": 17.940438871473354,
+      "grad_norm": 1.255560255231103e-05,
+      "learning_rate": 4.211723897106534e-06,
+      "loss": 0.0,
+      "step": 1435
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.0004092851304449141,
+      "learning_rate": 3.928152422910491e-06,
+      "loss": 0.0,
+      "step": 1440
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 2.982109308242798,
+      "eval_macro_f1": 74.49440308940996,
+      "eval_macro_precision": 74.5153120821081,
+      "eval_macro_recall": 74.47619047619047,
+      "eval_micro_f1": 74.47619047619047,
+      "eval_micro_precision": 74.47619047619047,
+      "eval_micro_recall": 74.47619047619047,
+      "eval_runtime": 5.0341,
+      "eval_samples_per_second": 208.578,
+      "eval_steps_per_second": 13.111,
+      "step": 1440
+    },
+    {
+      "epoch": 18.062695924764892,
+      "grad_norm": 9.531569230603054e-05,
+      "learning_rate": 3.6542717290362515e-06,
+      "loss": 0.0,
+      "step": 1445
+    },
+    {
+      "epoch": 18.12539184952978,
+      "grad_norm": 5.50920121895615e-05,
+      "learning_rate": 3.390109441866618e-06,
+      "loss": 0.0,
+      "step": 1450
+    },
+    {
+      "epoch": 18.188087774294672,
+      "grad_norm": 0.00010016823216574267,
+      "learning_rate": 3.135692207487373e-06,
+      "loss": 0.0,
+      "step": 1455
+    },
+    {
+      "epoch": 18.25078369905956,
+      "grad_norm": 0.0006045085028745234,
+      "learning_rate": 2.8910456889995498e-06,
+      "loss": 0.0,
+      "step": 1460
+    },
+    {
+      "epoch": 18.313479623824453,
+      "grad_norm": 0.00010283043229719624,
+      "learning_rate": 2.656194563930714e-06,
+      "loss": 0.0,
+      "step": 1465
+    },
+    {
+      "epoch": 18.37617554858934,
+      "grad_norm": 0.00047241951688192785,
+      "learning_rate": 2.4311625217457778e-06,
+      "loss": 0.0,
+      "step": 1470
+    },
+    {
+      "epoch": 18.438871473354233,
+      "grad_norm": 0.0003394366940483451,
+      "learning_rate": 2.2159722614573996e-06,
+      "loss": 0.0,
+      "step": 1475
+    },
+    {
+      "epoch": 18.50156739811912,
+      "grad_norm": 0.000773964449763298,
+      "learning_rate": 2.010645489336382e-06,
+      "loss": 0.0,
+      "step": 1480
+    },
+    {
+      "epoch": 18.564263322884013,
+      "grad_norm": 6.701203528791666e-05,
+      "learning_rate": 1.8152029167221475e-06,
+      "loss": 0.0,
+      "step": 1485
+    },
+    {
+      "epoch": 18.6269592476489,
+      "grad_norm": 0.0003426434122957289,
+      "learning_rate": 1.6296642579335496e-06,
+      "loss": 0.0,
+      "step": 1490
+    },
+    {
+      "epoch": 18.689655172413794,
+      "grad_norm": 0.00010157287761103362,
+      "learning_rate": 1.4540482282803137e-06,
+      "loss": 0.0,
+      "step": 1495
+    },
+    {
+      "epoch": 18.752351097178682,
+      "grad_norm": 0.0003385106392670423,
+      "learning_rate": 1.2883725421752201e-06,
+      "loss": 0.0,
+      "step": 1500
+    },
+    {
+      "epoch": 18.815047021943574,
+      "grad_norm": 0.00031495324219577014,
+      "learning_rate": 1.132653911347248e-06,
+      "loss": 0.0,
+      "step": 1505
+    },
+    {
+      "epoch": 18.877742946708462,
+      "grad_norm": 2.4275641408166848e-05,
+      "learning_rate": 9.869080431558542e-07,
+      "loss": 0.0,
+      "step": 1510
+    },
+    {
+      "epoch": 18.940438871473354,
+      "grad_norm": 0.0007264981977641582,
+      "learning_rate": 8.511496390065543e-07,
+      "loss": 0.0,
+      "step": 1515
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 3.2049887522589415e-05,
+      "learning_rate": 7.253923928680406e-07,
+      "loss": 0.0,
+      "step": 1520
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 2.983579158782959,
+      "eval_macro_f1": 74.59288643616037,
+      "eval_macro_precision": 74.61805414620287,
+      "eval_macro_recall": 74.57142857142857,
+      "eval_micro_f1": 74.57142857142857,
+      "eval_micro_precision": 74.57142857142857,
+      "eval_micro_recall": 74.57142857142857,
+      "eval_runtime": 3.5338,
+      "eval_samples_per_second": 297.133,
+      "eval_steps_per_second": 18.677,
+      "step": 1520
+    },
+    {
+      "epoch": 19.062695924764892,
+      "grad_norm": 0.00015775053179822862,
+      "learning_rate": 6.096489898908208e-07,
+      "loss": 0.0,
+      "step": 1525
+    },
+    {
+      "epoch": 19.12539184952978,
+      "grad_norm": 0.00020885077537968755,
+      "learning_rate": 5.039311051276752e-07,
+      "loss": 0.0,
+      "step": 1530
+    },
+    {
+      "epoch": 19.188087774294672,
+      "grad_norm": 0.0004631892079487443,
+      "learning_rate": 4.082494023560091e-07,
+      "loss": 0.0,
+      "step": 1535
+    },
+    {
+      "epoch": 19.25078369905956,
+      "grad_norm": 7.329711661441252e-05,
+      "learning_rate": 3.2261353300219176e-07,
+      "loss": 0.0,
+      "step": 1540
+    },
+    {
+      "epoch": 19.313479623824453,
+      "grad_norm": 0.000103279686300084,
+      "learning_rate": 2.4703213516799053e-07,
+      "loss": 0.0,
+      "step": 1545
+    },
+    {
+      "epoch": 19.37617554858934,
+      "grad_norm": 0.00035780860343948007,
+      "learning_rate": 1.8151283275928964e-07,
+      "loss": 0.0,
+      "step": 1550
+    },
+    {
+      "epoch": 19.438871473354233,
+      "grad_norm": 0.0009104281198233366,
+      "learning_rate": 1.2606223471702817e-07,
+      "loss": 0.0,
+      "step": 1555
+    },
+    {
+      "epoch": 19.50156739811912,
+      "grad_norm": 0.0008115767268463969,
+      "learning_rate": 8.068593435055505e-08,
+      "loss": 0.0,
+      "step": 1560
+    },
+    {
+      "epoch": 19.564263322884013,
+      "grad_norm": 2.108391527144704e-05,
+      "learning_rate": 4.5388508773469564e-08,
+      "loss": 0.0,
+      "step": 1565
+    },
+    {
+      "epoch": 19.6269592476489,
+      "grad_norm": 0.00026582309510558844,
+      "learning_rate": 2.0173518441868324e-08,
+      "loss": 0.0,
+      "step": 1570
+    },
+    {
+      "epoch": 19.689655172413794,
+      "grad_norm": 0.0001829984103096649,
+      "learning_rate": 5.043506795276987e-09,
+      "loss": 0.0,
+      "step": 1575
+    },
+    {
+      "epoch": 19.752351097178682,
+      "grad_norm": 0.00031997705809772015,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 1580
+    },
+    {
+      "epoch": 19.752351097178682,
+      "eval_loss": 2.983431816101074,
+      "eval_macro_f1": 74.495166799055,
+      "eval_macro_precision": 74.51671347356447,
+      "eval_macro_recall": 74.47619047619047,
+      "eval_micro_f1": 74.47619047619047,
+      "eval_micro_precision": 74.47619047619047,
+      "eval_micro_recall": 74.47619047619047,
+      "eval_runtime": 5.0918,
+      "eval_samples_per_second": 206.215,
+      "eval_steps_per_second": 12.962,
+      "step": 1580
+    },
+    {
+      "epoch": 19.752351097178682,
+      "step": 1580,
+      "total_flos": 8695327329615872.0,
+      "train_loss": 0.2892922113949427,
+      "train_runtime": 830.7771,
+      "train_samples_per_second": 122.777,
+      "train_steps_per_second": 1.902
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1580,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 50.0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8695327329615872.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b08767f894ce7bf64160856bec942bbf746f1db02b5ef253c80e5a909f773cb7
+size 6840