distillclip-different-moon-37

Browse files

Files changed (15) hide show

last-checkpoint/config.json +0 -169
last-checkpoint/merges.txt +0 -0
last-checkpoint/model.safetensors +0 -3
last-checkpoint/optimizer.pt +0 -3
last-checkpoint/preprocessor_config.json +0 -29
last-checkpoint/rng_state.pth +0 -3
last-checkpoint/scaler.pt +0 -3
last-checkpoint/scheduler.pt +0 -3
last-checkpoint/special_tokens_map.json +0 -24
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +0 -34
last-checkpoint/trainer_state.json +0 -3366
last-checkpoint/training_args.bin +0 -3
last-checkpoint/vocab.json +0 -0
model.safetensors +1 -1

last-checkpoint/config.json DELETED Viewed

@@ -1,169 +0,0 @@
-{
-  "_commit_hash": null,
-  "architectures": [
-    "CLIPForOfflineDistillation"
-  ],
-  "initializer_factor": 1.0,
-  "logit_scale_init_value": 2.6592,
-  "loss_type": "mse",
-  "model_type": "clip",
-  "projection_dim": 256,
-  "teacher_name_or_path": "openai/clip-vit-base-patch32",
-  "text_config": {
-    "_name_or_path": "",
-    "add_cross_attention": false,
-    "architectures": null,
-    "attention_dropout": 0.0,
-    "bad_words_ids": null,
-    "begin_suppress_tokens": null,
-    "bos_token_id": 0,
-    "chunk_size_feed_forward": 0,
-    "cross_attention_hidden_size": null,
-    "decoder_start_token_id": null,
-    "diversity_penalty": 0.0,
-    "do_sample": false,
-    "early_stopping": false,
-    "encoder_no_repeat_ngram_size": 0,
-    "eos_token_id": 2,
-    "exponential_decay_length_penalty": null,
-    "finetuning_task": null,
-    "forced_bos_token_id": null,
-    "forced_eos_token_id": null,
-    "hidden_act": "quick_gelu",
-    "hidden_size": 512,
-    "id2label": {
-      "0": "LABEL_0",
-      "1": "LABEL_1"
-    },
-    "initializer_factor": 1.0,
-    "initializer_range": 0.02,
-    "intermediate_size": 2048,
-    "is_decoder": false,
-    "is_encoder_decoder": false,
-    "label2id": {
-      "LABEL_0": 0,
-      "LABEL_1": 1
-    },
-    "layer_norm_eps": 1e-05,
-    "length_penalty": 1.0,
-    "max_length": 20,
-    "max_position_embeddings": 77,
-    "min_length": 0,
-    "model_type": "clip_text_model",
-    "no_repeat_ngram_size": 0,
-    "num_attention_heads": 8,
-    "num_beam_groups": 1,
-    "num_beams": 1,
-    "num_hidden_layers": 6,
-    "num_return_sequences": 1,
-    "output_attentions": false,
-    "output_hidden_states": false,
-    "output_scores": false,
-    "pad_token_id": 1,
-    "prefix": null,
-    "problem_type": null,
-    "projection_dim": 512,
-    "pruned_heads": {},
-    "remove_invalid_values": false,
-    "repetition_penalty": 1.0,
-    "return_dict": true,
-    "return_dict_in_generate": false,
-    "sep_token_id": null,
-    "suppress_tokens": null,
-    "task_specific_params": null,
-    "temperature": 1.0,
-    "tf_legacy_loss": false,
-    "tie_encoder_decoder": false,
-    "tie_word_embeddings": true,
-    "tokenizer_class": null,
-    "top_k": 50,
-    "top_p": 1.0,
-    "torch_dtype": null,
-    "torchscript": false,
-    "transformers_version": "4.29.2",
-    "typical_p": 1.0,
-    "use_bfloat16": false,
-    "vocab_size": 49408
-  },
-  "torch_dtype": "float32",
-  "transformers_version": null,
-  "vision_config": {
-    "_name_or_path": "",
-    "add_cross_attention": false,
-    "architectures": null,
-    "attention_dropout": 0.0,
-    "bad_words_ids": null,
-    "begin_suppress_tokens": null,
-    "bos_token_id": null,
-    "chunk_size_feed_forward": 0,
-    "cross_attention_hidden_size": null,
-    "decoder_start_token_id": null,
-    "diversity_penalty": 0.0,
-    "do_sample": false,
-    "early_stopping": false,
-    "encoder_no_repeat_ngram_size": 0,
-    "eos_token_id": null,
-    "exponential_decay_length_penalty": null,
-    "finetuning_task": null,
-    "forced_bos_token_id": null,
-    "forced_eos_token_id": null,
-    "hidden_act": "quick_gelu",
-    "hidden_size": 384,
-    "id2label": {
-      "0": "LABEL_0",
-      "1": "LABEL_1"
-    },
-    "image_size": 224,
-    "initializer_factor": 1.0,
-    "initializer_range": 0.02,
-    "intermediate_size": 1536,
-    "is_decoder": false,
-    "is_encoder_decoder": false,
-    "label2id": {
-      "LABEL_0": 0,
-      "LABEL_1": 1
-    },
-    "layer_norm_eps": 1e-05,
-    "length_penalty": 1.0,
-    "max_length": 20,
-    "min_length": 0,
-    "model_type": "clip_vision_model",
-    "no_repeat_ngram_size": 0,
-    "num_attention_heads": 6,
-    "num_beam_groups": 1,
-    "num_beams": 1,
-    "num_channels": 3,
-    "num_hidden_layers": 12,
-    "num_return_sequences": 1,
-    "output_attentions": false,
-    "output_hidden_states": false,
-    "output_scores": false,
-    "pad_token_id": null,
-    "patch_size": 16,
-    "prefix": null,
-    "problem_type": null,
-    "projection_dim": 512,
-    "pruned_heads": {},
-    "remove_invalid_values": false,
-    "repetition_penalty": 1.0,
-    "return_dict": true,
-    "return_dict_in_generate": false,
-    "sep_token_id": null,
-    "suppress_tokens": null,
-    "task_specific_params": null,
-    "temperature": 1.0,
-    "tf_legacy_loss": false,
-    "tie_encoder_decoder": false,
-    "tie_word_embeddings": true,
-    "tokenizer_class": null,
-    "top_k": 50,
-    "top_p": 1.0,
-    "torch_dtype": null,
-    "torchscript": false,
-    "transformers_version": "4.29.2",
-    "typical_p": 1.0,
-    "use_bfloat16": false
-  },
-  "weight_r": 1.0,
-  "weight_s": 1.0
-}

last-checkpoint/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:359f0bb9c7fdaf6b9a47c37a482edc40df921b373339ce1a6c7b9f57147c1ae3
-size 264627500

last-checkpoint/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1d9a371842fd61230488662e5eb855b7be4e71789c97f32ee4d639b6966bcc40
-size 529349637

last-checkpoint/preprocessor_config.json DELETED Viewed

@@ -1,29 +0,0 @@
-{
-  "crop_size": {
-    "height": 224,
-    "width": 224
-  },
-  "do_center_crop": true,
-  "do_convert_rgb": true,
-  "do_normalize": true,
-  "do_rescale": true,
-  "do_resize": true,
-  "feature_extractor_type": "CLIPFeatureExtractor",
-  "image_mean": [
-    0.48145466,
-    0.4578275,
-    0.40821073
-  ],
-  "image_processor_type": "CLIPImageProcessor",
-  "image_std": [
-    0.26862954,
-    0.26130258,
-    0.27577711
-  ],
-  "processor_class": "CLIPProcessor",
-  "resample": 3,
-  "rescale_factor": 0.00392156862745098,
-  "size": {
-    "shortest_edge": 224
-  }
-}

last-checkpoint/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:003dae60e1aad3bdb3943ababdac5d57f551939a6e1d0a3e9dee1a6ba7e680e3
-size 14575

last-checkpoint/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:456a4f0a789f4cbcc35bee1ee478eb09c60afb1bbecc6578d3c7ab655a844d1a
-size 557

last-checkpoint/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:cad79c842bd93ea8f1ac897defc5b2d9d56cb0cbc0054b1a2ca367dd45b0c77a
-size 627

last-checkpoint/special_tokens_map.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "bos_token": {
-    "content": "<|startoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "<|endoftext|>",
-  "unk_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
-}

last-checkpoint/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json DELETED Viewed

@@ -1,34 +0,0 @@
-{
-  "add_prefix_space": false,
-  "bos_token": {
-    "__type": "AddedToken",
-    "content": "<|startoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "clean_up_tokenization_spaces": true,
-  "do_lower_case": true,
-  "eos_token": {
-    "__type": "AddedToken",
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "errors": "replace",
-  "model_max_length": 77,
-  "pad_token": "<|endoftext|>",
-  "processor_class": "CLIPProcessor",
-  "tokenizer_class": "CLIPTokenizer",
-  "unk_token": {
-    "__type": "AddedToken",
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
-}

last-checkpoint/trainer_state.json DELETED Viewed

@@ -1,3366 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 0.999612090830424,
-  "global_step": 33500,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.0,
-      "learning_rate": 3.0000000000000004e-07,
-      "loss": 0.1505,
-      "r_loss": 0.04637562483549118,
-      "s_loss": 0.008538205176591873,
-      "step": 100
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 6.000000000000001e-07,
-      "loss": 0.0461,
-      "r_loss": 0.03377725929021835,
-      "s_loss": 0.003884976962581277,
-      "step": 200
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 9e-07,
-      "loss": 0.034,
-      "r_loss": 0.028842270374298096,
-      "s_loss": 0.00349122891202569,
-      "step": 300
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 1.2000000000000002e-06,
-      "loss": 0.0294,
-      "r_loss": 0.03719829022884369,
-      "s_loss": 0.0032082502730190754,
-      "step": 400
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 1.5e-06,
-      "loss": 0.0259,
-      "r_loss": 0.02185184881091118,
-      "s_loss": 0.002866600640118122,
-      "step": 500
-    },
-    {
-      "epoch": 0.01,
-      "eval_loss": 0.022319668903946877,
-      "eval_r_loss": 0.019447144120931625,
-      "eval_runtime": 5.725,
-      "eval_s_loss": 0.0028725252486765385,
-      "eval_samples_per_second": 117.38,
-      "eval_steps_per_second": 117.38,
-      "step": 500
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 1.8e-06,
-      "loss": 0.0238,
-      "r_loss": 0.01666960120201111,
-      "s_loss": 0.0029884909745305777,
-      "step": 600
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2.1000000000000002e-06,
-      "loss": 0.0226,
-      "r_loss": 0.01765752211213112,
-      "s_loss": 0.003066658042371273,
-      "step": 700
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2.4000000000000003e-06,
-      "loss": 0.0212,
-      "r_loss": 0.01967948116362095,
-      "s_loss": 0.002733011730015278,
-      "step": 800
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 2.7e-06,
-      "loss": 0.0205,
-      "r_loss": 0.016631901264190674,
-      "s_loss": 0.0027432385832071304,
-      "step": 900
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 3e-06,
-      "loss": 0.0197,
-      "r_loss": 0.016916554421186447,
-      "s_loss": 0.002646064618602395,
-      "step": 1000
-    },
-    {
-      "epoch": 0.03,
-      "eval_loss": 0.01776285283267498,
-      "eval_r_loss": 0.015205347910523415,
-      "eval_runtime": 5.7797,
-      "eval_s_loss": 0.0025575056206434965,
-      "eval_samples_per_second": 116.268,
-      "eval_steps_per_second": 116.268,
-      "step": 1000
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 3.3e-06,
-      "loss": 0.0189,
-      "r_loss": 0.016178447753190994,
-      "s_loss": 0.002462042961269617,
-      "step": 1100
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 3.6e-06,
-      "loss": 0.0182,
-      "r_loss": 0.01640625111758709,
-      "s_loss": 0.0024527523200958967,
-      "step": 1200
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 3.9e-06,
-      "loss": 0.0181,
-      "r_loss": 0.013397695496678352,
-      "s_loss": 0.002130940556526184,
-      "step": 1300
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 4.2000000000000004e-06,
-      "loss": 0.017,
-      "r_loss": 0.015975676476955414,
-      "s_loss": 0.002383481478318572,
-      "step": 1400
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 4.5e-06,
-      "loss": 0.017,
-      "r_loss": 0.013270380906760693,
-      "s_loss": 0.0021610523108392954,
-      "step": 1500
-    },
-    {
-      "epoch": 0.04,
-      "eval_loss": 0.015290064737200737,
-      "eval_r_loss": 0.012945108115673065,
-      "eval_runtime": 5.6931,
-      "eval_s_loss": 0.002344956621527672,
-      "eval_samples_per_second": 118.039,
-      "eval_steps_per_second": 118.039,
-      "step": 1500
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 4.800000000000001e-06,
-      "loss": 0.0161,
-      "r_loss": 0.013699322938919067,
-      "s_loss": 0.0022580809891223907,
-      "step": 1600
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 5.1e-06,
-      "loss": 0.016,
-      "r_loss": 0.014964626170694828,
-      "s_loss": 0.0021504017058759928,
-      "step": 1700
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 5.4e-06,
-      "loss": 0.016,
-      "r_loss": 0.013486243784427643,
-      "s_loss": 0.0020603144075721502,
-      "step": 1800
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 5.7000000000000005e-06,
-      "loss": 0.0154,
-      "r_loss": 0.012973317876458168,
-      "s_loss": 0.0021089715883135796,
-      "step": 1900
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 6e-06,
-      "loss": 0.0153,
-      "r_loss": 0.015371004119515419,
-      "s_loss": 0.002191081177443266,
-      "step": 2000
-    },
-    {
-      "epoch": 0.06,
-      "eval_loss": 0.013254178687930107,
-      "eval_r_loss": 0.011181775480508804,
-      "eval_runtime": 5.6968,
-      "eval_s_loss": 0.0020724027417600155,
-      "eval_samples_per_second": 117.961,
-      "eval_steps_per_second": 117.961,
-      "step": 2000
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 6.3e-06,
-      "loss": 0.015,
-      "r_loss": 0.011732030659914017,
-      "s_loss": 0.0019391687819734216,
-      "step": 2100
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 6.6e-06,
-      "loss": 0.0147,
-      "r_loss": 0.015546457841992378,
-      "s_loss": 0.0020762544590979815,
-      "step": 2200
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 6.900000000000001e-06,
-      "loss": 0.0146,
-      "r_loss": 0.009786777198314667,
-      "s_loss": 0.0019506356911733747,
-      "step": 2300
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 7.2e-06,
-      "loss": 0.0144,
-      "r_loss": 0.012893063016235828,
-      "s_loss": 0.002081776736304164,
-      "step": 2400
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 7.5e-06,
-      "loss": 0.0142,
-      "r_loss": 0.00976946298032999,
-      "s_loss": 0.0017642343882471323,
-      "step": 2500
-    },
-    {
-      "epoch": 0.07,
-      "eval_loss": 0.01350394356995821,
-      "eval_r_loss": 0.01156766340136528,
-      "eval_runtime": 5.7349,
-      "eval_s_loss": 0.001936280052177608,
-      "eval_samples_per_second": 117.177,
-      "eval_steps_per_second": 117.177,
-      "step": 2500
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 7.8e-06,
-      "loss": 0.0136,
-      "r_loss": 0.01364838145673275,
-      "s_loss": 0.0019653863273561,
-      "step": 2600
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 8.1e-06,
-      "loss": 0.014,
-      "r_loss": 0.013060592114925385,
-      "s_loss": 0.00197937642224133,
-      "step": 2700
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 8.400000000000001e-06,
-      "loss": 0.0134,
-      "r_loss": 0.010259253904223442,
-      "s_loss": 0.0018942919559776783,
-      "step": 2800
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 8.7e-06,
-      "loss": 0.0136,
-      "r_loss": 0.010634353384375572,
-      "s_loss": 0.002018529223278165,
-      "step": 2900
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 9e-06,
-      "loss": 0.0134,
-      "r_loss": 0.01226745918393135,
-      "s_loss": 0.0018310793675482273,
-      "step": 3000
-    },
-    {
-      "epoch": 0.09,
-      "eval_loss": 0.01376401074230671,
-      "eval_r_loss": 0.011921562254428864,
-      "eval_runtime": 5.8031,
-      "eval_s_loss": 0.0018424488371238112,
-      "eval_samples_per_second": 115.8,
-      "eval_steps_per_second": 115.8,
-      "step": 3000
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 9.3e-06,
-      "loss": 0.0131,
-      "r_loss": 0.011366230435669422,
-      "s_loss": 0.0018870271742343903,
-      "step": 3100
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 9.600000000000001e-06,
-      "loss": 0.0129,
-      "r_loss": 0.015041200444102287,
-      "s_loss": 0.0019711025524884462,
-      "step": 3200
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 9.9e-06,
-      "loss": 0.0126,
-      "r_loss": 0.010199671611189842,
-      "s_loss": 0.0018134403508156538,
-      "step": 3300
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 1.02e-05,
-      "loss": 0.0127,
-      "r_loss": 0.009185859933495522,
-      "s_loss": 0.0016790288500487804,
-      "step": 3400
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 1.05e-05,
-      "loss": 0.0127,
-      "r_loss": 0.011276321485638618,
-      "s_loss": 0.0016570865409448743,
-      "step": 3500
-    },
-    {
-      "epoch": 0.1,
-      "eval_loss": 0.011658551171422005,
-      "eval_r_loss": 0.009879879653453827,
-      "eval_runtime": 5.7067,
-      "eval_s_loss": 0.001778671983629465,
-      "eval_samples_per_second": 117.756,
-      "eval_steps_per_second": 117.756,
-      "step": 3500
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 1.08e-05,
-      "loss": 0.0126,
-      "r_loss": 0.008440356701612473,
-      "s_loss": 0.0017231483943760395,
-      "step": 3600
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 1.11e-05,
-      "loss": 0.0122,
-      "r_loss": 0.009153485298156738,
-      "s_loss": 0.0017831036821007729,
-      "step": 3700
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 1.1400000000000001e-05,
-      "loss": 0.012,
-      "r_loss": 0.011471357196569443,
-      "s_loss": 0.001937872963026166,
-      "step": 3800
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 1.1700000000000001e-05,
-      "loss": 0.0121,
-      "r_loss": 0.009361416101455688,
-      "s_loss": 0.001662532682530582,
-      "step": 3900
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 1.2e-05,
-      "loss": 0.012,
-      "r_loss": 0.013415796682238579,
-      "s_loss": 0.0016665093135088682,
-      "step": 4000
-    },
-    {
-      "epoch": 0.12,
-      "eval_loss": 0.011559335514903069,
-      "eval_r_loss": 0.009901713579893112,
-      "eval_runtime": 5.7585,
-      "eval_s_loss": 0.0016576218185946345,
-      "eval_samples_per_second": 116.697,
-      "eval_steps_per_second": 116.697,
-      "step": 4000
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 1.2299999999999999e-05,
-      "loss": 0.0122,
-      "r_loss": 0.009355029091238976,
-      "s_loss": 0.001734372228384018,
-      "step": 4100
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 1.26e-05,
-      "loss": 0.0118,
-      "r_loss": 0.009848803281784058,
-      "s_loss": 0.0016517819603905082,
-      "step": 4200
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 1.29e-05,
-      "loss": 0.0117,
-      "r_loss": 0.008925353176891804,
-      "s_loss": 0.0016535022296011448,
-      "step": 4300
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 1.32e-05,
-      "loss": 0.0117,
-      "r_loss": 0.009858155623078346,
-      "s_loss": 0.001591067761182785,
-      "step": 4400
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 1.3500000000000001e-05,
-      "loss": 0.0115,
-      "r_loss": 0.009000759571790695,
-      "s_loss": 0.001509728142991662,
-      "step": 4500
-    },
-    {
-      "epoch": 0.13,
-      "eval_loss": 0.011256811209022999,
-      "eval_r_loss": 0.009671147912740707,
-      "eval_runtime": 5.7598,
-      "eval_s_loss": 0.0015856630634516478,
-      "eval_samples_per_second": 116.67,
-      "eval_steps_per_second": 116.67,
-      "step": 4500
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 1.3800000000000002e-05,
-      "loss": 0.0113,
-      "r_loss": 0.00949438102543354,
-      "s_loss": 0.0015365839935839176,
-      "step": 4600
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 1.4099999999999999e-05,
-      "loss": 0.0114,
-      "r_loss": 0.01006004773080349,
-      "s_loss": 0.0015926426276564598,
-      "step": 4700
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 1.44e-05,
-      "loss": 0.0114,
-      "r_loss": 0.010145231150090694,
-      "s_loss": 0.0015732853207737207,
-      "step": 4800
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 1.47e-05,
-      "loss": 0.0112,
-      "r_loss": 0.00975881703197956,
-      "s_loss": 0.0014939116081222892,
-      "step": 4900
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 1.5e-05,
-      "loss": 0.0111,
-      "r_loss": 0.009045148268342018,
-      "s_loss": 0.0014695697464048862,
-      "step": 5000
-    },
-    {
-      "epoch": 0.15,
-      "eval_loss": 0.011217299848794937,
-      "eval_r_loss": 0.009782791137695312,
-      "eval_runtime": 5.6702,
-      "eval_s_loss": 0.0014345089439302683,
-      "eval_samples_per_second": 118.514,
-      "eval_steps_per_second": 118.514,
-      "step": 5000
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 1.53e-05,
-      "loss": 0.0111,
-      "r_loss": 0.009601066820323467,
-      "s_loss": 0.001514170435257256,
-      "step": 5100
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 1.56e-05,
-      "loss": 0.0112,
-      "r_loss": 0.00870747584849596,
-      "s_loss": 0.0014461548998951912,
-      "step": 5200
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 1.59e-05,
-      "loss": 0.0109,
-      "r_loss": 0.008360641077160835,
-      "s_loss": 0.0014414612669497728,
-      "step": 5300
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 1.62e-05,
-      "loss": 0.0108,
-      "r_loss": 0.00921720638871193,
-      "s_loss": 0.0014027974102646112,
-      "step": 5400
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 1.65e-05,
-      "loss": 0.0108,
-      "r_loss": 0.00895563792437315,
-      "s_loss": 0.0014760666526854038,
-      "step": 5500
-    },
-    {
-      "epoch": 0.16,
-      "eval_loss": 0.01118839718401432,
-      "eval_r_loss": 0.00973587017506361,
-      "eval_runtime": 5.7152,
-      "eval_s_loss": 0.0014525266597047448,
-      "eval_samples_per_second": 117.581,
-      "eval_steps_per_second": 117.581,
-      "step": 5500
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 1.6800000000000002e-05,
-      "loss": 0.0107,
-      "r_loss": 0.007762259803712368,
-      "s_loss": 0.0015427314210683107,
-      "step": 5600
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 1.71e-05,
-      "loss": 0.0108,
-      "r_loss": 0.009653204120695591,
-      "s_loss": 0.0015951216919347644,
-      "step": 5700
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 1.74e-05,
-      "loss": 0.0106,
-      "r_loss": 0.007989178411662579,
-      "s_loss": 0.001397020067088306,
-      "step": 5800
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 1.77e-05,
-      "loss": 0.0107,
-      "r_loss": 0.009275095537304878,
-      "s_loss": 0.001448939205147326,
-      "step": 5900
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 1.8e-05,
-      "loss": 0.0106,
-      "r_loss": 0.008456457406282425,
-      "s_loss": 0.0014687306247651577,
-      "step": 6000
-    },
-    {
-      "epoch": 0.18,
-      "eval_loss": 0.010676538571715355,
-      "eval_r_loss": 0.009258019737899303,
-      "eval_runtime": 5.7202,
-      "eval_s_loss": 0.0014185188338160515,
-      "eval_samples_per_second": 117.477,
-      "eval_steps_per_second": 117.477,
-      "step": 6000
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 1.83e-05,
-      "loss": 0.0105,
-      "r_loss": 0.008195489645004272,
-      "s_loss": 0.0014291288098320365,
-      "step": 6100
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 1.86e-05,
-      "loss": 0.0102,
-      "r_loss": 0.008191170170903206,
-      "s_loss": 0.0015366484876722097,
-      "step": 6200
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 1.8900000000000002e-05,
-      "loss": 0.0102,
-      "r_loss": 0.00822894275188446,
-      "s_loss": 0.0014636135892942548,
-      "step": 6300
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 1.9200000000000003e-05,
-      "loss": 0.0103,
-      "r_loss": 0.0088454969227314,
-      "s_loss": 0.001345100230537355,
-      "step": 6400
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 1.95e-05,
-      "loss": 0.0105,
-      "r_loss": 0.01023932732641697,
-      "s_loss": 0.001511400449089706,
-      "step": 6500
-    },
-    {
-      "epoch": 0.19,
-      "eval_loss": 0.010188945569097996,
-      "eval_r_loss": 0.00889565609395504,
-      "eval_runtime": 6.5641,
-      "eval_s_loss": 0.0012932894751429558,
-      "eval_samples_per_second": 102.375,
-      "eval_steps_per_second": 102.375,
-      "step": 6500
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 1.98e-05,
-      "loss": 0.0104,
-      "r_loss": 0.00900462456047535,
-      "s_loss": 0.001456625759601593,
-      "step": 6600
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 2.01e-05,
-      "loss": 0.0102,
-      "r_loss": 0.00964261218905449,
-      "s_loss": 0.001401584129780531,
-      "step": 6700
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 2.04e-05,
-      "loss": 0.0101,
-      "r_loss": 0.007694972679018974,
-      "s_loss": 0.0014238519361242652,
-      "step": 6800
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 2.07e-05,
-      "loss": 0.0102,
-      "r_loss": 0.009449545294046402,
-      "s_loss": 0.0014661129098385572,
-      "step": 6900
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 2.1e-05,
-      "loss": 0.0101,
-      "r_loss": 0.00955035537481308,
-      "s_loss": 0.001392255537211895,
-      "step": 7000
-    },
-    {
-      "epoch": 0.21,
-      "eval_loss": 0.010023693554103374,
-      "eval_r_loss": 0.008697763085365295,
-      "eval_runtime": 5.7082,
-      "eval_s_loss": 0.001325930585153401,
-      "eval_samples_per_second": 117.726,
-      "eval_steps_per_second": 117.726,
-      "step": 7000
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 2.13e-05,
-      "loss": 0.0102,
-      "r_loss": 0.00833200104534626,
-      "s_loss": 0.0014237057184800506,
-      "step": 7100
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 2.16e-05,
-      "loss": 0.0099,
-      "r_loss": 0.008094298653304577,
-      "s_loss": 0.0014223785838112235,
-      "step": 7200
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 2.19e-05,
-      "loss": 0.01,
-      "r_loss": 0.00752690713852644,
-      "s_loss": 0.0013399685267359018,
-      "step": 7300
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 2.22e-05,
-      "loss": 0.0099,
-      "r_loss": 0.00953773781657219,
-      "s_loss": 0.001381666399538517,
-      "step": 7400
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 2.25e-05,
-      "loss": 0.0098,
-      "r_loss": 0.008129315450787544,
-      "s_loss": 0.0011789320269599557,
-      "step": 7500
-    },
-    {
-      "epoch": 0.22,
-      "eval_loss": 0.010138859041035175,
-      "eval_r_loss": 0.00888618640601635,
-      "eval_runtime": 5.8833,
-      "eval_s_loss": 0.001252672984264791,
-      "eval_samples_per_second": 114.221,
-      "eval_steps_per_second": 114.221,
-      "step": 7500
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 2.2800000000000002e-05,
-      "loss": 0.0098,
-      "r_loss": 0.009464412927627563,
-      "s_loss": 0.001395503873936832,
-      "step": 7600
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 2.3100000000000002e-05,
-      "loss": 0.0097,
-      "r_loss": 0.00881454348564148,
-      "s_loss": 0.001235602656379342,
-      "step": 7700
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 2.3400000000000003e-05,
-      "loss": 0.01,
-      "r_loss": 0.00844954326748848,
-      "s_loss": 0.0012883525341749191,
-      "step": 7800
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 2.37e-05,
-      "loss": 0.0095,
-      "r_loss": 0.008428743109107018,
-      "s_loss": 0.001225842977873981,
-      "step": 7900
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 2.4e-05,
-      "loss": 0.0098,
-      "r_loss": 0.008358178660273552,
-      "s_loss": 0.0013608363224193454,
-      "step": 8000
-    },
-    {
-      "epoch": 0.24,
-      "eval_loss": 0.010027415119111538,
-      "eval_r_loss": 0.008776991628110409,
-      "eval_runtime": 5.7172,
-      "eval_s_loss": 0.0012504233745858073,
-      "eval_samples_per_second": 117.54,
-      "eval_steps_per_second": 117.54,
-      "step": 8000
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 2.43e-05,
-      "loss": 0.0097,
-      "r_loss": 0.007988743484020233,
-      "s_loss": 0.0012902095913887024,
-      "step": 8100
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 2.4599999999999998e-05,
-      "loss": 0.0097,
-      "r_loss": 0.00881593581289053,
-      "s_loss": 0.0012137378798797727,
-      "step": 8200
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 2.49e-05,
-      "loss": 0.0093,
-      "r_loss": 0.008240088820457458,
-      "s_loss": 0.0012537827715277672,
-      "step": 8300
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 2.52e-05,
-      "loss": 0.0096,
-      "r_loss": 0.008193010464310646,
-      "s_loss": 0.0012971541145816445,
-      "step": 8400
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 2.55e-05,
-      "loss": 0.0098,
-      "r_loss": 0.007697759196162224,
-      "s_loss": 0.0012005027383565903,
-      "step": 8500
-    },
-    {
-      "epoch": 0.25,
-      "eval_loss": 0.010029895231127739,
-      "eval_r_loss": 0.008869171142578125,
-      "eval_runtime": 5.779,
-      "eval_s_loss": 0.0011607238557189703,
-      "eval_samples_per_second": 116.282,
-      "eval_steps_per_second": 116.282,
-      "step": 8500
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 2.58e-05,
-      "loss": 0.0094,
-      "r_loss": 0.00764896534383297,
-      "s_loss": 0.0012557113077491522,
-      "step": 8600
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 2.61e-05,
-      "loss": 0.0096,
-      "r_loss": 0.007685758639127016,
-      "s_loss": 0.0011759819462895393,
-      "step": 8700
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 2.64e-05,
-      "loss": 0.0095,
-      "r_loss": 0.008306157775223255,
-      "s_loss": 0.0011866830755025148,
-      "step": 8800
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 2.6700000000000002e-05,
-      "loss": 0.0095,
-      "r_loss": 0.008763814345002174,
-      "s_loss": 0.0012581332121044397,
-      "step": 8900
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 2.7000000000000002e-05,
-      "loss": 0.0094,
-      "r_loss": 0.007176906801760197,
-      "s_loss": 0.0012848544865846634,
-      "step": 9000
-    },
-    {
-      "epoch": 0.27,
-      "eval_loss": 0.009547967463731766,
-      "eval_r_loss": 0.008400797843933105,
-      "eval_runtime": 5.8725,
-      "eval_s_loss": 0.0011471696197986603,
-      "eval_samples_per_second": 114.432,
-      "eval_steps_per_second": 114.432,
-      "step": 9000
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 2.7300000000000003e-05,
-      "loss": 0.0091,
-      "r_loss": 0.007933049462735653,
-      "s_loss": 0.0013153750915080309,
-      "step": 9100
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 2.7600000000000003e-05,
-      "loss": 0.0093,
-      "r_loss": 0.008543523028492928,
-      "s_loss": 0.0012904139002785087,
-      "step": 9200
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 2.79e-05,
-      "loss": 0.0093,
-      "r_loss": 0.007229233160614967,
-      "s_loss": 0.0011527976021170616,
-      "step": 9300
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 2.8199999999999998e-05,
-      "loss": 0.0093,
-      "r_loss": 0.007913423702120781,
-      "s_loss": 0.0011675741989165545,
-      "step": 9400
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 2.8499999999999998e-05,
-      "loss": 0.0092,
-      "r_loss": 0.007350780535489321,
-      "s_loss": 0.0012241221265867352,
-      "step": 9500
-    },
-    {
-      "epoch": 0.28,
-      "eval_loss": 0.009159870445728302,
-      "eval_r_loss": 0.008046709932386875,
-      "eval_runtime": 5.7652,
-      "eval_s_loss": 0.0011131602805107832,
-      "eval_samples_per_second": 116.562,
-      "eval_steps_per_second": 116.562,
-      "step": 9500
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 2.88e-05,
-      "loss": 0.0092,
-      "r_loss": 0.007505511865019798,
-      "s_loss": 0.0012209609849378467,
-      "step": 9600
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 2.91e-05,
-      "loss": 0.0092,
-      "r_loss": 0.00815967470407486,
-      "s_loss": 0.0011755439918488264,
-      "step": 9700
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 2.94e-05,
-      "loss": 0.0092,
-      "r_loss": 0.007525102701038122,
-      "s_loss": 0.0012379743857309222,
-      "step": 9800
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 2.97e-05,
-      "loss": 0.009,
-      "r_loss": 0.008029448799788952,
-      "s_loss": 0.0012208997504785657,
-      "step": 9900
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 3e-05,
-      "loss": 0.0091,
-      "r_loss": 0.007686637807637453,
-      "s_loss": 0.0012359985848888755,
-      "step": 10000
-    },
-    {
-      "epoch": 0.3,
-      "eval_loss": 0.009688720107078552,
-      "eval_r_loss": 0.008566668257117271,
-      "eval_runtime": 5.8537,
-      "eval_s_loss": 0.0011220521992072463,
-      "eval_samples_per_second": 114.8,
-      "eval_steps_per_second": 114.8,
-      "step": 10000
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 2.9998687772974054e-05,
-      "loss": 0.0091,
-      "r_loss": 0.007961354218423367,
-      "s_loss": 0.0010860951151698828,
-      "step": 10100
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 2.9994698173783606e-05,
-      "loss": 0.0091,
-      "r_loss": 0.008185433223843575,
-      "s_loss": 0.0011867923894897103,
-      "step": 10200
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 2.998803178074702e-05,
-      "loss": 0.0092,
-      "r_loss": 0.008926862850785255,
-      "s_loss": 0.0011962838470935822,
-      "step": 10300
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 2.997868978392226e-05,
-      "loss": 0.009,
-      "r_loss": 0.008092904463410378,
-      "s_loss": 0.0011486653238534927,
-      "step": 10400
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 2.996667385100541e-05,
-      "loss": 0.0091,
-      "r_loss": 0.007265549618750811,
-      "s_loss": 0.0010849842801690102,
-      "step": 10500
-    },
-    {
-      "epoch": 0.31,
-      "eval_loss": 0.0097579974681139,
-      "eval_r_loss": 0.008664416149258614,
-      "eval_runtime": 5.8205,
-      "eval_s_loss": 0.0010935813188552856,
-      "eval_samples_per_second": 115.453,
-      "eval_steps_per_second": 115.453,
-      "step": 10500
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 2.995198612703301e-05,
-      "loss": 0.0091,
-      "r_loss": 0.007716472260653973,
-      "s_loss": 0.0011130705242976546,
-      "step": 10600
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 2.9934629233999088e-05,
-      "loss": 0.0088,
-      "r_loss": 0.0071815671399235725,
-      "s_loss": 0.0010680295526981354,
-      "step": 10700
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 2.991460627038711e-05,
-      "loss": 0.0089,
-      "r_loss": 0.008051994256675243,
-      "s_loss": 0.0011568560730665922,
-      "step": 10800
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 2.9891920810616865e-05,
-      "loss": 0.0089,
-      "r_loss": 0.007709968835115433,
-      "s_loss": 0.0010994401527568698,
-      "step": 10900
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 2.986657690440635e-05,
-      "loss": 0.0087,
-      "r_loss": 0.007149288430809975,
-      "s_loss": 0.0010991152375936508,
-      "step": 11000
-    },
-    {
-      "epoch": 0.33,
-      "eval_loss": 0.008960756473243237,
-      "eval_r_loss": 0.0079101687297225,
-      "eval_runtime": 5.8735,
-      "eval_s_loss": 0.001050587510690093,
-      "eval_samples_per_second": 114.412,
-      "eval_steps_per_second": 114.412,
-      "step": 11000
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 2.983857907604885e-05,
-      "loss": 0.0087,
-      "r_loss": 0.006731455214321613,
-      "s_loss": 0.0011426934506744146,
-      "step": 11100
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 2.9807932323605262e-05,
-      "loss": 0.009,
-      "r_loss": 0.008175029419362545,
-      "s_loss": 0.0010848107049241662,
-      "step": 11200
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 2.977464211801187e-05,
-      "loss": 0.0085,
-      "r_loss": 0.007222716696560383,
-      "s_loss": 0.0010968766873702407,
-      "step": 11300
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 2.9738714402103696e-05,
-      "loss": 0.0086,
-      "r_loss": 0.007525290362536907,
-      "s_loss": 0.0010664989240467548,
-      "step": 11400
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 2.9700155589553614e-05,
-      "loss": 0.0085,
-      "r_loss": 0.00836112443357706,
-      "s_loss": 0.0012076541315764189,
-      "step": 11500
-    },
-    {
-      "epoch": 0.34,
-      "eval_loss": 0.008930221199989319,
-      "eval_r_loss": 0.007907573133707047,
-      "eval_runtime": 5.8343,
-      "eval_s_loss": 0.0010226481826975942,
-      "eval_samples_per_second": 115.18,
-      "eval_steps_per_second": 115.18,
-      "step": 11500
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 2.9658972563727394e-05,
-      "loss": 0.0087,
-      "r_loss": 0.007679732982069254,
-      "s_loss": 0.000998866162262857,
-      "step": 11600
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 2.9615172676454915e-05,
-      "loss": 0.0085,
-      "r_loss": 0.007193954661488533,
-      "s_loss": 0.00100530288182199,
-      "step": 11700
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 2.956876374671775e-05,
-      "loss": 0.0086,
-      "r_loss": 0.008202124387025833,
-      "s_loss": 0.001100401277653873,
-      "step": 11800
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 2.9519754059253352e-05,
-      "loss": 0.0086,
-      "r_loss": 0.005764150992035866,
-      "s_loss": 0.001019550021737814,
-      "step": 11900
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 2.946815236307609e-05,
-      "loss": 0.0088,
-      "r_loss": 0.006989379413425922,
-      "s_loss": 0.0010334283579140902,
-      "step": 12000
-    },
-    {
-      "epoch": 0.36,
-      "eval_loss": 0.008558472618460655,
-      "eval_r_loss": 0.007531056646257639,
-      "eval_runtime": 5.8831,
-      "eval_s_loss": 0.0010274164378643036,
-      "eval_samples_per_second": 114.225,
-      "eval_steps_per_second": 114.225,
-      "step": 12000
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 2.941396786991542e-05,
-      "loss": 0.0084,
-      "r_loss": 0.007328535430133343,
-      "s_loss": 0.0010166720021516085,
-      "step": 12100
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 2.9357210252571423e-05,
-      "loss": 0.0084,
-      "r_loss": 0.006314602214843035,
-      "s_loss": 0.0010744825704023242,
-      "step": 12200
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 2.929788964318808e-05,
-      "loss": 0.0084,
-      "r_loss": 0.007112974300980568,
-      "s_loss": 0.0010199513053521514,
-      "step": 12300
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 2.923601663144452e-05,
-      "loss": 0.0083,
-      "r_loss": 0.0075445109978318214,
-      "s_loss": 0.001125972718000412,
-      "step": 12400
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 2.9171602262664564e-05,
-      "loss": 0.0082,
-      "r_loss": 0.006783840246498585,
-      "s_loss": 0.0010000347392633557,
-      "step": 12500
-    },
-    {
-      "epoch": 0.37,
-      "eval_loss": 0.008438749238848686,
-      "eval_r_loss": 0.007456656079739332,
-      "eval_runtime": 6.6399,
-      "eval_s_loss": 0.0009820933919399977,
-      "eval_samples_per_second": 101.206,
-      "eval_steps_per_second": 101.206,
-      "step": 12500
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 2.9104658035844992e-05,
-      "loss": 0.0084,
-      "r_loss": 0.008811071515083313,
-      "s_loss": 0.0010695005767047405,
-      "step": 12600
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 2.9035195901602766e-05,
-      "loss": 0.0081,
-      "r_loss": 0.00737602636218071,
-      "s_loss": 0.001059257541783154,
-      "step": 12700
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 2.896322826004167e-05,
-      "loss": 0.0083,
-      "r_loss": 0.006479831412434578,
-      "s_loss": 0.00109660136513412,
-      "step": 12800
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 2.8888767958538672e-05,
-      "loss": 0.0081,
-      "r_loss": 0.006183864548802376,
-      "s_loss": 0.000993464607745409,
-      "step": 12900
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 2.881182828945048e-05,
-      "loss": 0.0082,
-      "r_loss": 0.007777994964271784,
-      "s_loss": 0.0010871184058487415,
-      "step": 13000
-    },
-    {
-      "epoch": 0.39,
-      "eval_loss": 0.007983732037246227,
-      "eval_r_loss": 0.007039351388812065,
-      "eval_runtime": 5.8966,
-      "eval_s_loss": 0.0009443803573958576,
-      "eval_samples_per_second": 113.965,
-      "eval_steps_per_second": 113.965,
-      "step": 13000
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 2.873242298774064e-05,
-      "loss": 0.0082,
-      "r_loss": 0.010438592173159122,
-      "s_loss": 0.0010730213252827525,
-      "step": 13100
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 2.865056622852762e-05,
-      "loss": 0.0081,
-      "r_loss": 0.006384184584021568,
-      "s_loss": 0.0008851269376464188,
-      "step": 13200
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 2.8566272624554314e-05,
-      "loss": 0.0081,
-      "r_loss": 0.007597366347908974,
-      "s_loss": 0.001074151019565761,
-      "step": 13300
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 2.847955722357946e-05,
-      "loss": 0.0081,
-      "r_loss": 0.006059112958610058,
-      "s_loss": 0.0010072380537167192,
-      "step": 13400
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 2.8390435505691352e-05,
-      "loss": 0.008,
-      "r_loss": 0.006421985570341349,
-      "s_loss": 0.0009825531160458922,
-      "step": 13500
-    },
-    {
-      "epoch": 0.4,
-      "eval_loss": 0.008024024777114391,
-      "eval_r_loss": 0.007059826515614986,
-      "eval_runtime": 5.9301,
-      "eval_s_loss": 0.0009641979122534394,
-      "eval_samples_per_second": 113.321,
-      "eval_steps_per_second": 113.321,
-      "step": 13500
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 2.8298923380544406e-05,
-      "loss": 0.008,
-      "r_loss": 0.006581292487680912,
-      "s_loss": 0.0010704277083277702,
-      "step": 13600
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 2.8205037184519026e-05,
-      "loss": 0.008,
-      "r_loss": 0.008079946041107178,
-      "s_loss": 0.0009939800947904587,
-      "step": 13700
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 2.8108793677805307e-05,
-      "loss": 0.0079,
-      "r_loss": 0.005696495994925499,
-      "s_loss": 0.0009651000145822763,
-      "step": 13800
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 2.8010210041411057e-05,
-      "loss": 0.008,
-      "r_loss": 0.006050314754247665,
-      "s_loss": 0.0010551176965236664,
-      "step": 13900
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 2.7909303874094737e-05,
-      "loss": 0.008,
-      "r_loss": 0.007171120494604111,
-      "s_loss": 0.001050697872415185,
-      "step": 14000
-    },
-    {
-      "epoch": 0.42,
-      "eval_loss": 0.0087936632335186,
-      "eval_r_loss": 0.007837551645934582,
-      "eval_runtime": 5.8165,
-      "eval_s_loss": 0.0009561114711686969,
-      "eval_samples_per_second": 115.534,
-      "eval_steps_per_second": 115.534,
-      "step": 14000
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 2.7806093189223774e-05,
-      "loss": 0.0079,
-      "r_loss": 0.007168681360781193,
-      "s_loss": 0.0011435865890234709,
-      "step": 14100
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 2.7700596411558902e-05,
-      "loss": 0.0078,
-      "r_loss": 0.007676262408494949,
-      "s_loss": 0.0010355566628277302,
-      "step": 14200
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 2.7592832373965038e-05,
-      "loss": 0.008,
-      "r_loss": 0.007139571011066437,
-      "s_loss": 0.001015349174849689,
-      "step": 14300
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 2.7482820314049326e-05,
-      "loss": 0.0079,
-      "r_loss": 0.00660574808716774,
-      "s_loss": 0.000994799891486764,
-      "step": 14400
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 2.7370579870726906e-05,
-      "loss": 0.0078,
-      "r_loss": 0.006421282887458801,
-      "s_loss": 0.0009415894746780396,
-      "step": 14500
-    },
-    {
-      "epoch": 0.43,
-      "eval_loss": 0.008639033883810043,
-      "eval_r_loss": 0.007638509385287762,
-      "eval_runtime": 5.8664,
-      "eval_s_loss": 0.0010005244985222816,
-      "eval_samples_per_second": 114.55,
-      "eval_steps_per_second": 114.55,
-      "step": 14500
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 2.7256131080715053e-05,
-      "loss": 0.0078,
-      "r_loss": 0.006864764261990786,
-      "s_loss": 0.0010434763971716166,
-      "step": 14600
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 2.7139494374956316e-05,
-      "loss": 0.0078,
-      "r_loss": 0.00723334401845932,
-      "s_loss": 0.0010841034818440676,
-      "step": 14700
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 2.7020690574971236e-05,
-      "loss": 0.0078,
-      "r_loss": 0.006216096691787243,
-      "s_loss": 0.0008721616468392313,
-      "step": 14800
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 2.6899740889141407e-05,
-      "loss": 0.0077,
-      "r_loss": 0.006137696094810963,
-      "s_loss": 0.000969752436503768,
-      "step": 14900
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 2.677666690892343e-05,
-      "loss": 0.0077,
-      "r_loss": 0.006585408002138138,
-      "s_loss": 0.0009770711185410619,
-      "step": 15000
-    },
-    {
-      "epoch": 0.45,
-      "eval_loss": 0.008090370334684849,
-      "eval_r_loss": 0.007137539330869913,
-      "eval_runtime": 5.9249,
-      "eval_s_loss": 0.0009528312948532403,
-      "eval_samples_per_second": 113.42,
-      "eval_steps_per_second": 113.42,
-      "step": 15000
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 2.6651490604994458e-05,
-      "loss": 0.0076,
-      "r_loss": 0.006115331780165434,
-      "s_loss": 0.0010219502728432417,
-      "step": 15100
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 2.6524234323330147e-05,
-      "loss": 0.0076,
-      "r_loss": 0.006430969573557377,
-      "s_loss": 0.0010282087605446577,
-      "step": 15200
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 2.6394920781215467e-05,
-      "loss": 0.0076,
-      "r_loss": 0.010935202240943909,
-      "s_loss": 0.001126307644881308,
-      "step": 15300
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 2.6264896532848944e-05,
-      "loss": 0.0076,
-      "r_loss": 0.006224375218153,
-      "s_loss": 0.0009270138689316809,
-      "step": 15400
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 2.6131558076617624e-05,
-      "loss": 0.0076,
-      "r_loss": 0.007503915578126907,
-      "s_loss": 0.001000251155346632,
-      "step": 15500
-    },
-    {
-      "epoch": 0.46,
-      "eval_loss": 0.007729613222181797,
-      "eval_r_loss": 0.006781161762773991,
-      "eval_runtime": 8.5719,
-      "eval_s_loss": 0.0009484515758231282,
-      "eval_samples_per_second": 78.396,
-      "eval_steps_per_second": 78.396,
-      "step": 15500
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 2.5996232458936835e-05,
-      "loss": 0.0077,
-      "r_loss": 0.0065051475539803505,
-      "s_loss": 0.0009143096976913512,
-      "step": 15600
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 2.5858943837597314e-05,
-      "loss": 0.0075,
-      "r_loss": 0.0064110783860087395,
-      "s_loss": 0.0009684975957497954,
-      "step": 15700
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 2.5719716720817392e-05,
-      "loss": 0.0074,
-      "r_loss": 0.007918891496956348,
-      "s_loss": 0.001000194693915546,
-      "step": 15800
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 2.5578575962867906e-05,
-      "loss": 0.0075,
-      "r_loss": 0.007117274217307568,
-      "s_loss": 0.0009594152215868235,
-      "step": 15900
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 2.543554675963528e-05,
-      "loss": 0.0075,
-      "r_loss": 0.006600790657103062,
-      "s_loss": 0.0009607726242393255,
-      "step": 16000
-    },
-    {
-      "epoch": 0.48,
-      "eval_loss": 0.007644696161150932,
-      "eval_r_loss": 0.006735973991453648,
-      "eval_runtime": 8.488,
-      "eval_s_loss": 0.0009087221696972847,
-      "eval_samples_per_second": 79.171,
-      "eval_steps_per_second": 79.171,
-      "step": 16000
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 2.5290654644123703e-05,
-      "loss": 0.0075,
-      "r_loss": 0.005946667864918709,
-      "s_loss": 0.0009118504240177572,
-      "step": 16100
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 2.5143925481897017e-05,
-      "loss": 0.0076,
-      "r_loss": 0.005937603302299976,
-      "s_loss": 0.0009287346038036048,
-      "step": 16200
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 2.499538546646136e-05,
-      "loss": 0.0073,
-      "r_loss": 0.0064862994477152824,
-      "s_loss": 0.0008813185268081725,
-      "step": 16300
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 2.4845061114589165e-05,
-      "loss": 0.0074,
-      "r_loss": 0.006060485728085041,
-      "s_loss": 0.0009768878808245063,
-      "step": 16400
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 2.4692979261585507e-05,
-      "loss": 0.0074,
-      "r_loss": 0.005972530692815781,
-      "s_loss": 0.0009232640732079744,
-      "step": 16500
-    },
-    {
-      "epoch": 0.49,
-      "eval_loss": 0.007525917608290911,
-      "eval_r_loss": 0.006600276567041874,
-      "eval_runtime": 8.5748,
-      "eval_s_loss": 0.000925640866626054,
-      "eval_samples_per_second": 78.369,
-      "eval_steps_per_second": 78.369,
-      "step": 16500
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 2.4539167056497572e-05,
-      "loss": 0.0075,
-      "r_loss": 0.006335953716188669,
-      "s_loss": 0.0009909672662615776,
-      "step": 16600
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 2.4383651957268106e-05,
-      "loss": 0.0074,
-      "r_loss": 0.0072190104983747005,
-      "s_loss": 0.0009832193609327078,
-      "step": 16700
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 2.4226461725833757e-05,
-      "loss": 0.0075,
-      "r_loss": 0.0063974312506616116,
-      "s_loss": 0.0009214280871674418,
-      "step": 16800
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 2.4067624423169087e-05,
-      "loss": 0.0074,
-      "r_loss": 0.006921318359673023,
-      "s_loss": 0.000975217146333307,
-      "step": 16900
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 2.3907168404277275e-05,
-      "loss": 0.0072,
-      "r_loss": 0.005746101029217243,
-      "s_loss": 0.0009283066028729081,
-      "step": 17000
-    },
-    {
-      "epoch": 0.51,
-      "eval_loss": 0.006981786340475082,
-      "eval_r_loss": 0.006118214689195156,
-      "eval_runtime": 9.4285,
-      "eval_s_loss": 0.0008635715930722654,
-      "eval_samples_per_second": 71.273,
-      "eval_steps_per_second": 71.273,
-      "step": 17000
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 2.3745122313128274e-05,
-      "loss": 0.0072,
-      "r_loss": 0.005779191851615906,
-      "s_loss": 0.0009009677451103926,
-      "step": 17100
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 2.3581515077545418e-05,
-      "loss": 0.0072,
-      "r_loss": 0.007839716970920563,
-      "s_loss": 0.0010175108909606934,
-      "step": 17200
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 2.34163759040413e-05,
-      "loss": 0.0074,
-      "r_loss": 0.006432846188545227,
-      "s_loss": 0.001021060859784484,
-      "step": 17300
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 2.324973427260402e-05,
-      "loss": 0.0073,
-      "r_loss": 0.0062257954850792885,
-      "s_loss": 0.0009748931624926627,
-      "step": 17400
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 2.3081619931434452e-05,
-      "loss": 0.0072,
-      "r_loss": 0.006158421281725168,
-      "s_loss": 0.0010701502906158566,
-      "step": 17500
-    },
-    {
-      "epoch": 0.52,
-      "eval_loss": 0.007478422485291958,
-      "eval_r_loss": 0.006587797310203314,
-      "eval_runtime": 10.1462,
-      "eval_s_loss": 0.0008906250586733222,
-      "eval_samples_per_second": 66.232,
-      "eval_steps_per_second": 66.232,
-      "step": 17500
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 2.2912062891635778e-05,
-      "loss": 0.0072,
-      "r_loss": 0.006115030962973833,
-      "s_loss": 0.0009346662554889917,
-      "step": 17600
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 2.274109342185598e-05,
-      "loss": 0.0074,
-      "r_loss": 0.00592977087944746,
-      "s_loss": 0.000866447517182678,
-      "step": 17700
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 2.256874204288442e-05,
-      "loss": 0.0071,
-      "r_loss": 0.006099973805248737,
-      "s_loss": 0.0008897872176021338,
-      "step": 17800
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 2.2395039522203403e-05,
-      "loss": 0.0073,
-      "r_loss": 0.006193576380610466,
-      "s_loss": 0.0008475868962705135,
-      "step": 17900
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 2.222001686849566e-05,
-      "loss": 0.0071,
-      "r_loss": 0.0067910789512097836,
-      "s_loss": 0.0010297299595549703,
-      "step": 18000
-    },
-    {
-      "epoch": 0.54,
-      "eval_loss": 0.007175224833190441,
-      "eval_r_loss": 0.006267193704843521,
-      "eval_runtime": 8.8162,
-      "eval_s_loss": 0.0009080312447622418,
-      "eval_samples_per_second": 76.223,
-      "eval_steps_per_second": 76.223,
-      "step": 18000
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 2.2043705326108824e-05,
-      "loss": 0.0072,
-      "r_loss": 0.006607139483094215,
-      "s_loss": 0.0009428428602404892,
-      "step": 18100
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 2.1866136369477807e-05,
-      "loss": 0.0071,
-      "r_loss": 0.0053857965394854546,
-      "s_loss": 0.0008554364321753383,
-      "step": 18200
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 2.1687341697506106e-05,
-      "loss": 0.0071,
-      "r_loss": 0.005985291674733162,
-      "s_loss": 0.0008826229604892433,
-      "step": 18300
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 2.150735322790704e-05,
-      "loss": 0.0071,
-      "r_loss": 0.005803743377327919,
-      "s_loss": 0.0009314118069596589,
-      "step": 18400
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 2.1326203091505936e-05,
-      "loss": 0.0071,
-      "r_loss": 0.007132242433726788,
-      "s_loss": 0.0009220225038006902,
-      "step": 18500
-    },
-    {
-      "epoch": 0.55,
-      "eval_loss": 0.007128148805350065,
-      "eval_r_loss": 0.006268758792430162,
-      "eval_runtime": 8.6423,
-      "eval_s_loss": 0.0008593900711275637,
-      "eval_samples_per_second": 77.757,
-      "eval_steps_per_second": 77.757,
-      "step": 18500
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 2.114392362650425e-05,
-      "loss": 0.007,
-      "r_loss": 0.006902765482664108,
-      "s_loss": 0.0009045482147485018,
-      "step": 18600
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 2.096054737270669e-05,
-      "loss": 0.0071,
-      "r_loss": 0.006586451083421707,
-      "s_loss": 0.000991364591754973,
-      "step": 18700
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 2.0776107065712326e-05,
-      "loss": 0.007,
-      "r_loss": 0.004980746190994978,
-      "s_loss": 0.0007370096282102168,
-      "step": 18800
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 2.059063563107079e-05,
-      "loss": 0.0071,
-      "r_loss": 0.006382007151842117,
-      "s_loss": 0.0008771989960223436,
-      "step": 18900
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 2.040416617840449e-05,
-      "loss": 0.007,
-      "r_loss": 0.0058512031100690365,
-      "s_loss": 0.0008522871066816151,
-      "step": 19000
-    },
-    {
-      "epoch": 0.57,
-      "eval_loss": 0.007616510149091482,
-      "eval_r_loss": 0.006736051291227341,
-      "eval_runtime": 8.8015,
-      "eval_s_loss": 0.0008804587414488196,
-      "eval_samples_per_second": 76.35,
-      "eval_steps_per_second": 76.35,
-      "step": 19000
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 2.021673199549806e-05,
-      "loss": 0.007,
-      "r_loss": 0.005660332273691893,
-      "s_loss": 0.0009998377645388246,
-      "step": 19100
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 2.002836654235594e-05,
-      "loss": 0.0069,
-      "r_loss": 0.005866233725100756,
-      "s_loss": 0.0009188687545247376,
-      "step": 19200
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 1.983910344522921e-05,
-      "loss": 0.0069,
-      "r_loss": 0.0057606166228652,
-      "s_loss": 0.000834951177239418,
-      "step": 19300
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 1.9648976490612795e-05,
-      "loss": 0.0067,
-      "r_loss": 0.004965795204043388,
-      "s_loss": 0.0008518850081600249,
-      "step": 19400
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 1.9459933184205116e-05,
-      "loss": 0.0069,
-      "r_loss": 0.006777866743505001,
-      "s_loss": 0.0010352524695917964,
-      "step": 19500
-    },
-    {
-      "epoch": 0.58,
-      "eval_loss": 0.007355178706347942,
-      "eval_r_loss": 0.006485129706561565,
-      "eval_runtime": 8.9082,
-      "eval_s_loss": 0.0008700488251633942,
-      "eval_samples_per_second": 75.436,
-      "eval_steps_per_second": 75.436,
-      "step": 19500
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 1.9268188273952553e-05,
-      "loss": 0.0068,
-      "r_loss": 0.007018654141575098,
-      "s_loss": 0.0009793075732886791,
-      "step": 19600
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 1.9075681423714705e-05,
-      "loss": 0.0069,
-      "r_loss": 0.006022634916007519,
-      "s_loss": 0.0008647244540043175,
-      "step": 19700
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 1.8882446999048395e-05,
-      "loss": 0.0068,
-      "r_loss": 0.005010883789509535,
-      "s_loss": 0.0008228466031141579,
-      "step": 19800
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 1.8688519495394125e-05,
-      "loss": 0.0069,
-      "r_loss": 0.006728707812726498,
-      "s_loss": 0.000956969684921205,
-      "step": 19900
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 1.8493933531918117e-05,
-      "loss": 0.0068,
-      "r_loss": 0.007086700294166803,
-      "s_loss": 0.0008907000883482397,
-      "step": 20000
-    },
-    {
-      "epoch": 0.6,
-      "eval_loss": 0.006719064898788929,
-      "eval_r_loss": 0.005855009891092777,
-      "eval_runtime": 8.5414,
-      "eval_s_loss": 0.0008640547748655081,
-      "eval_samples_per_second": 78.676,
-      "eval_steps_per_second": 78.676,
-      "step": 20000
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 1.8298723845332198e-05,
-      "loss": 0.0067,
-      "r_loss": 0.005535440053790808,
-      "s_loss": 0.0009100943570956588,
-      "step": 20100
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 1.8102925283692782e-05,
-      "loss": 0.0068,
-      "r_loss": 0.006036119069904089,
-      "s_loss": 0.0008750570705160499,
-      "step": 20200
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 1.79065728001799e-05,
-      "loss": 0.0068,
-      "r_loss": 0.005460575222969055,
-      "s_loss": 0.0009543396299704909,
-      "step": 20300
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 1.7709701446857527e-05,
-      "loss": 0.0068,
-      "r_loss": 0.005476498045027256,
-      "s_loss": 0.0008106306777335703,
-      "step": 20400
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 1.75123463684162e-05,
-      "loss": 0.0069,
-      "r_loss": 0.006093060597777367,
-      "s_loss": 0.0009121097973547876,
-      "step": 20500
-    },
-    {
-      "epoch": 0.61,
-      "eval_loss": 0.006673221942037344,
-      "eval_r_loss": 0.005839366465806961,
-      "eval_runtime": 8.4759,
-      "eval_s_loss": 0.0008338554762303829,
-      "eval_samples_per_second": 79.284,
-      "eval_steps_per_second": 79.284,
-      "step": 20500
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 1.7314542795899137e-05,
-      "loss": 0.0067,
-      "r_loss": 0.005582145415246487,
-      "s_loss": 0.0008446918218396604,
-      "step": 20600
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 1.7116326040412943e-05,
-      "loss": 0.0067,
-      "r_loss": 0.005406418815255165,
-      "s_loss": 0.0010036693420261145,
-      "step": 20700
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 1.6917731486823998e-05,
-      "loss": 0.0068,
-      "r_loss": 0.005483163520693779,
-      "s_loss": 0.0009342134580947459,
-      "step": 20800
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 1.6718794587441696e-05,
-      "loss": 0.0067,
-      "r_loss": 0.005454606376588345,
-      "s_loss": 0.0008848806610330939,
-      "step": 20900
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 1.6519550855689638e-05,
-      "loss": 0.0067,
-      "r_loss": 0.005080068949609995,
-      "s_loss": 0.0008759861811995506,
-      "step": 21000
-    },
-    {
-      "epoch": 0.63,
-      "eval_loss": 0.006933785974979401,
-      "eval_r_loss": 0.0060889944434165955,
-      "eval_runtime": 8.6029,
-      "eval_s_loss": 0.0008447913569398224,
-      "eval_samples_per_second": 78.113,
-      "eval_steps_per_second": 78.113,
-      "step": 21000
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 1.6320035859765918e-05,
-      "loss": 0.0068,
-      "r_loss": 0.006143931299448013,
-      "s_loss": 0.000945593579672277,
-      "step": 21100
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 1.612028521629364e-05,
-      "loss": 0.0069,
-      "r_loss": 0.006441016681492329,
-      "s_loss": 0.0009456037660129368,
-      "step": 21200
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 1.5920334583962753e-05,
-      "loss": 0.0067,
-      "r_loss": 0.006160522345453501,
-      "s_loss": 0.0008229748345911503,
-      "step": 21300
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 1.5720219657164435e-05,
-      "loss": 0.0067,
-      "r_loss": 0.005891709588468075,
-      "s_loss": 0.000853882054798305,
-      "step": 21400
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 1.551997615961906e-05,
-      "loss": 0.0067,
-      "r_loss": 0.005442744120955467,
-      "s_loss": 0.0008191297529265285,
-      "step": 21500
-    },
-    {
-      "epoch": 0.64,
-      "eval_loss": 0.007066499907523394,
-      "eval_r_loss": 0.006228615529835224,
-      "eval_runtime": 10.9272,
-      "eval_s_loss": 0.0008378842030651867,
-      "eval_samples_per_second": 61.498,
-      "eval_steps_per_second": 61.498,
-      "step": 21500
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 1.5319639837998926e-05,
-      "loss": 0.0066,
-      "r_loss": 0.006707844324409962,
-      "s_loss": 0.0009414084488525987,
-      "step": 21600
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 1.5119246455546931e-05,
-      "loss": 0.0066,
-      "r_loss": 0.0060582030564546585,
-      "s_loss": 0.0009419742273166776,
-      "step": 21700
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 1.4918831785692232e-05,
-      "loss": 0.0067,
-      "r_loss": 0.006246947217732668,
-      "s_loss": 0.0008474804344587028,
-      "step": 21800
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 1.4718431605664146e-05,
-      "loss": 0.0066,
-      "r_loss": 0.00554366409778595,
-      "s_loss": 0.000851424119900912,
-      "step": 21900
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 1.4518081690105308e-05,
-      "loss": 0.0065,
-      "r_loss": 0.005924141500145197,
-      "s_loss": 0.0008292071870528162,
-      "step": 22000
-    },
-    {
-      "epoch": 0.66,
-      "eval_loss": 0.006922111380845308,
-      "eval_r_loss": 0.00609211903065443,
-      "eval_runtime": 8.5409,
-      "eval_s_loss": 0.0008299925248138607,
-      "eval_samples_per_second": 78.68,
-      "eval_steps_per_second": 78.68,
-      "step": 22000
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 1.431781780468534e-05,
-      "loss": 0.0066,
-      "r_loss": 0.006054874509572983,
-      "s_loss": 0.0008940041880123317,
-      "step": 22100
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 1.4119676400616625e-05,
-      "loss": 0.0065,
-      "r_loss": 0.005405670963227749,
-      "s_loss": 0.0009109702077694237,
-      "step": 22200
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 1.3919690052810628e-05,
-      "loss": 0.0064,
-      "r_loss": 0.004920615814626217,
-      "s_loss": 0.0008736539166420698,
-      "step": 22300
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 1.3719896557637283e-05,
-      "loss": 0.0064,
-      "r_loss": 0.0057085175067186356,
-      "s_loss": 0.0008784402743913233,
-      "step": 22400
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 1.3520331581436254e-05,
-      "loss": 0.0065,
-      "r_loss": 0.004970056004822254,
-      "s_loss": 0.0008474025526084006,
-      "step": 22500
-    },
-    {
-      "epoch": 0.67,
-      "eval_loss": 0.00664812745526433,
-      "eval_r_loss": 0.005824685096740723,
-      "eval_runtime": 8.4868,
-      "eval_s_loss": 0.0008234424167312682,
-      "eval_samples_per_second": 79.181,
-      "eval_steps_per_second": 79.181,
-      "step": 22500
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 1.3321030749752928e-05,
-      "loss": 0.0065,
-      "r_loss": 0.006657294929027557,
-      "s_loss": 0.0008960987906903028,
-      "step": 22600
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 1.3122029640978642e-05,
-      "loss": 0.0065,
-      "r_loss": 0.0066483840346336365,
-      "s_loss": 0.0008470122702419758,
-      "step": 22700
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 1.2923363779999415e-05,
-      "loss": 0.0064,
-      "r_loss": 0.006104170344769955,
-      "s_loss": 0.000873480923473835,
-      "step": 22800
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 1.2725068631854143e-05,
-      "loss": 0.0065,
-      "r_loss": 0.0065166400745511055,
-      "s_loss": 0.0008359896601177752,
-      "step": 22900
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 1.2527179595403555e-05,
-      "loss": 0.0065,
-      "r_loss": 0.005165203474462032,
-      "s_loss": 0.0008489371393807232,
-      "step": 23000
-    },
-    {
-      "epoch": 0.69,
-      "eval_loss": 0.007038415875285864,
-      "eval_r_loss": 0.006207308266311884,
-      "eval_runtime": 8.684,
-      "eval_s_loss": 0.00083110760897398,
-      "eval_samples_per_second": 77.384,
-      "eval_steps_per_second": 77.384,
-      "step": 23000
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 1.2329731997010932e-05,
-      "loss": 0.0064,
-      "r_loss": 0.005528077483177185,
-      "s_loss": 0.0008984919404610991,
-      "step": 23100
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 1.2132761084235799e-05,
-      "loss": 0.0064,
-      "r_loss": 0.005268075503408909,
-      "s_loss": 0.0008533818763680756,
-      "step": 23200
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 1.1936302019541638e-05,
-      "loss": 0.0065,
-      "r_loss": 0.004923930391669273,
-      "s_loss": 0.0008330261334776878,
-      "step": 23300
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 1.1740389874018872e-05,
-      "loss": 0.0064,
-      "r_loss": 0.0052954284474253654,
-      "s_loss": 0.0008716843440197408,
-      "step": 23400
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 1.1545059621124078e-05,
-      "loss": 0.0064,
-      "r_loss": 0.005905309226363897,
-      "s_loss": 0.0008605217444710433,
-      "step": 23500
-    },
-    {
-      "epoch": 0.7,
-      "eval_loss": 0.006766035221517086,
-      "eval_r_loss": 0.005948369391262531,
-      "eval_runtime": 9.2172,
-      "eval_s_loss": 0.0008176658302545547,
-      "eval_samples_per_second": 72.908,
-      "eval_steps_per_second": 72.908,
-      "step": 23500
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 1.1350346130436692e-05,
-      "loss": 0.0064,
-      "r_loss": 0.005245131440460682,
-      "s_loss": 0.0008455686620436609,
-      "step": 23600
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 1.1156284161434186e-05,
-      "loss": 0.0064,
-      "r_loss": 0.006068192422389984,
-      "s_loss": 0.0008869940065778792,
-      "step": 23700
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 1.0962908357287e-05,
-      "loss": 0.0063,
-      "r_loss": 0.00627498421818018,
-      "s_loss": 0.0008408837020397186,
-      "step": 23800
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 1.0770253238674148e-05,
-      "loss": 0.0065,
-      "r_loss": 0.006341907661408186,
-      "s_loss": 0.0008763980586081743,
-      "step": 23900
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 1.0578353197620722e-05,
-      "loss": 0.0064,
-      "r_loss": 0.005438666325062513,
-      "s_loss": 0.0008361585787497461,
-      "step": 24000
-    },
-    {
-      "epoch": 0.72,
-      "eval_loss": 0.006421332713216543,
-      "eval_r_loss": 0.005617132410407066,
-      "eval_runtime": 8.6645,
-      "eval_s_loss": 0.000804200186394155,
-      "eval_samples_per_second": 77.558,
-      "eval_steps_per_second": 77.558,
-      "step": 24000
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 1.0387242491358379e-05,
-      "loss": 0.0064,
-      "r_loss": 0.004842773545533419,
-      "s_loss": 0.0008286428637802601,
-      "step": 24100
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 1.0196955236209875e-05,
-      "loss": 0.0064,
-      "r_loss": 0.005401437636464834,
-      "s_loss": 0.0008410606533288956,
-      "step": 24200
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 1.0007525401498747e-05,
-      "loss": 0.0064,
-      "r_loss": 0.005490908399224281,
-      "s_loss": 0.0009162276983261108,
-      "step": 24300
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 9.818986803485237e-06,
-      "loss": 0.0064,
-      "r_loss": 0.004949535708874464,
-      "s_loss": 0.0008561740978620946,
-      "step": 24400
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 9.63137309932957e-06,
-      "loss": 0.0063,
-      "r_loss": 0.004786663688719273,
-      "s_loss": 0.0008052530465647578,
-      "step": 24500
-    },
-    {
-      "epoch": 0.73,
-      "eval_loss": 0.006642198655754328,
-      "eval_r_loss": 0.005832642316818237,
-      "eval_runtime": 8.6342,
-      "eval_s_loss": 0.0008095565135590732,
-      "eval_samples_per_second": 77.83,
-      "eval_steps_per_second": 77.83,
-      "step": 24500
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 9.444717781083603e-06,
-      "loss": 0.0064,
-      "r_loss": 0.004507116507738829,
-      "s_loss": 0.0007864255458116531,
-      "step": 24600
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 9.25905416971195e-06,
-      "loss": 0.0063,
-      "r_loss": 0.005326538346707821,
-      "s_loss": 0.0008638648432679474,
-      "step": 24700
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 9.074415409143651e-06,
-      "loss": 0.0064,
-      "r_loss": 0.005989129655063152,
-      "s_loss": 0.0009261829545721412,
-      "step": 24800
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 8.890834460355467e-06,
-      "loss": 0.0063,
-      "r_loss": 0.004806933458894491,
-      "s_loss": 0.0008874195045791566,
-      "step": 24900
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 8.708344095487813e-06,
-      "loss": 0.0063,
-      "r_loss": 0.0051068831235170364,
-      "s_loss": 0.000819625158328563,
-      "step": 25000
-    },
-    {
-      "epoch": 0.75,
-      "eval_loss": 0.006493990775197744,
-      "eval_r_loss": 0.005688361823558807,
-      "eval_runtime": 8.6045,
-      "eval_s_loss": 0.000805628951638937,
-      "eval_samples_per_second": 78.098,
-      "eval_steps_per_second": 78.098,
-      "step": 25000
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 8.526976891994414e-06,
-      "loss": 0.0062,
-      "r_loss": 0.006579666864126921,
-      "s_loss": 0.0009487958159297705,
-      "step": 25100
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 8.346765226826655e-06,
-      "loss": 0.0063,
-      "r_loss": 0.004679057281464338,
-      "s_loss": 0.0007369701052084565,
-      "step": 25200
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 8.167741270653863e-06,
-      "loss": 0.0062,
-      "r_loss": 0.005413247272372246,
-      "s_loss": 0.000827790005132556,
-      "step": 25300
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 7.989936982120253e-06,
-      "loss": 0.0062,
-      "r_loss": 0.0051015885546803474,
-      "s_loss": 0.0007679238333366811,
-      "step": 25400
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 7.813384102139837e-06,
-      "loss": 0.0062,
-      "r_loss": 0.007656958419829607,
-      "s_loss": 0.0009585011284798384,
-      "step": 25500
-    },
-    {
-      "epoch": 0.76,
-      "eval_loss": 0.006621798500418663,
-      "eval_r_loss": 0.005829837638884783,
-      "eval_runtime": 8.6093,
-      "eval_s_loss": 0.0007919610943645239,
-      "eval_samples_per_second": 78.055,
-      "eval_steps_per_second": 78.055,
-      "step": 25500
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 7.63811414823016e-06,
-      "loss": 0.0063,
-      "r_loss": 0.00443157646805048,
-      "s_loss": 0.0008406736305914819,
-      "step": 25600
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 7.464158408885898e-06,
-      "loss": 0.0061,
-      "r_loss": 0.005125071853399277,
-      "s_loss": 0.0008355857571586967,
-      "step": 25700
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 7.291547937993373e-06,
-      "loss": 0.0062,
-      "r_loss": 0.00465528666973114,
-      "s_loss": 0.000775384483858943,
-      "step": 25800
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 7.1203135492869385e-06,
-      "loss": 0.0061,
-      "r_loss": 0.004815374501049519,
-      "s_loss": 0.0007990074809640646,
-      "step": 25900
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 6.952177025557144e-06,
-      "loss": 0.0062,
-      "r_loss": 0.004868610296398401,
-      "s_loss": 0.0007737652049399912,
-      "step": 26000
-    },
-    {
-      "epoch": 0.78,
-      "eval_loss": 0.0064270892180502415,
-      "eval_r_loss": 0.005634445697069168,
-      "eval_runtime": 9.0404,
-      "eval_s_loss": 0.0007926435209810734,
-      "eval_samples_per_second": 74.333,
-      "eval_steps_per_second": 74.333,
-      "step": 26000
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 6.78377173545463e-06,
-      "loss": 0.0062,
-      "r_loss": 0.004927606321871281,
-      "s_loss": 0.0008687089430168271,
-      "step": 26100
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 6.616833173725176e-06,
-      "loss": 0.0062,
-      "r_loss": 0.004880106542259455,
-      "s_loss": 0.0008371942676603794,
-      "step": 26200
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 6.451391141576487e-06,
-      "loss": 0.0062,
-      "r_loss": 0.004924027249217033,
-      "s_loss": 0.0008956523961387575,
-      "step": 26300
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 6.287475173061754e-06,
-      "loss": 0.0061,
-      "r_loss": 0.005853409878909588,
-      "s_loss": 0.0008864904521033168,
-      "step": 26400
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 6.12511452980738e-06,
-      "loss": 0.0062,
-      "r_loss": 0.0052686696872115135,
-      "s_loss": 0.000804445066023618,
-      "step": 26500
-    },
-    {
-      "epoch": 0.79,
-      "eval_loss": 0.006505042780190706,
-      "eval_r_loss": 0.005706477910280228,
-      "eval_runtime": 8.801,
-      "eval_s_loss": 0.0007985649281181395,
-      "eval_samples_per_second": 76.355,
-      "eval_steps_per_second": 76.355,
-      "step": 26500
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 5.9643381957892725e-06,
-      "loss": 0.0062,
-      "r_loss": 0.0047812857665121555,
-      "s_loss": 0.0008621865999884903,
-      "step": 26600
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 5.805174872158762e-06,
-      "loss": 0.0061,
-      "r_loss": 0.004578050691634417,
-      "s_loss": 0.0008361663785763085,
-      "step": 26700
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 5.647652972118998e-06,
-      "loss": 0.0062,
-      "r_loss": 0.0053869327530264854,
-      "s_loss": 0.0008459505042992532,
-      "step": 26800
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 5.491800615852702e-06,
-      "loss": 0.0061,
-      "r_loss": 0.006079402752220631,
-      "s_loss": 0.0008894907077774405,
-      "step": 26900
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 5.337645625502312e-06,
-      "loss": 0.0061,
-      "r_loss": 0.005296847317367792,
-      "s_loss": 0.0007577301003038883,
-      "step": 27000
-    },
-    {
-      "epoch": 0.81,
-      "eval_loss": 0.006496031768620014,
-      "eval_r_loss": 0.00570162758231163,
-      "eval_runtime": 8.61,
-      "eval_s_loss": 0.0007944039534777403,
-      "eval_samples_per_second": 78.048,
-      "eval_steps_per_second": 78.048,
-      "step": 27000
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 5.18521552020322e-06,
-      "loss": 0.0062,
-      "r_loss": 0.0052690450102090836,
-      "s_loss": 0.0009067388018593192,
-      "step": 27100
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 5.034537511171238e-06,
-      "loss": 0.0061,
-      "r_loss": 0.005185704678297043,
-      "s_loss": 0.0008527652826160192,
-      "step": 27200
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 4.885638496844903e-06,
-      "loss": 0.006,
-      "r_loss": 0.005816085264086723,
-      "s_loss": 0.0008826929260976613,
-      "step": 27300
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 4.738545058083715e-06,
-      "loss": 0.006,
-      "r_loss": 0.004605771973729134,
-      "s_loss": 0.0008187288185581565,
-      "step": 27400
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 4.593283453422984e-06,
-      "loss": 0.0061,
-      "r_loss": 0.0052945734933018684,
-      "s_loss": 0.0008752761059440672,
-      "step": 27500
-    },
-    {
-      "epoch": 0.82,
-      "eval_loss": 0.006313642952591181,
-      "eval_r_loss": 0.005525515414774418,
-      "eval_runtime": 10.8866,
-      "eval_s_loss": 0.0007881273631937802,
-      "eval_samples_per_second": 61.727,
-      "eval_steps_per_second": 61.727,
-      "step": 27500
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 4.449879614386313e-06,
-      "loss": 0.0061,
-      "r_loss": 0.005148299969732761,
-      "s_loss": 0.0007778692524880171,
-      "step": 27600
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 4.308359140856364e-06,
-      "loss": 0.006,
-      "r_loss": 0.004953067749738693,
-      "s_loss": 0.0008753555594012141,
-      "step": 27700
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 4.168747296504881e-06,
-      "loss": 0.0061,
-      "r_loss": 0.005346274934709072,
-      "s_loss": 0.0008310099365189672,
-      "step": 27800
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 4.031069004282739e-06,
-      "loss": 0.006,
-      "r_loss": 0.00487141078338027,
-      "s_loss": 0.0008442049147561193,
-      "step": 27900
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 3.895348841970758e-06,
-      "loss": 0.0059,
-      "r_loss": 0.004993779119104147,
-      "s_loss": 0.0007509638089686632,
-      "step": 28000
-    },
-    {
-      "epoch": 0.84,
-      "eval_loss": 0.006438162177801132,
-      "eval_r_loss": 0.005650770850479603,
-      "eval_runtime": 8.473,
-      "eval_s_loss": 0.0007873910944908857,
-      "eval_samples_per_second": 79.311,
-      "eval_steps_per_second": 79.311,
-      "step": 28000
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 3.7616110377922263e-06,
-      "loss": 0.0061,
-      "r_loss": 0.006000261753797531,
-      "s_loss": 0.0009082874748855829,
-      "step": 28100
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 3.6298794660877154e-06,
-      "loss": 0.0061,
-      "r_loss": 0.006097930949181318,
-      "s_loss": 0.0009037306881509721,
-      "step": 28200
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 3.50017764305319e-06,
-      "loss": 0.0061,
-      "r_loss": 0.006982284598052502,
-      "s_loss": 0.0008789664716459811,
-      "step": 28300
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 3.3725287225419365e-06,
-      "loss": 0.0061,
-      "r_loss": 0.004647083580493927,
-      "s_loss": 0.0008192590321414173,
-      "step": 28400
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 3.2469554919312733e-06,
-      "loss": 0.006,
-      "r_loss": 0.00463445670902729,
-      "s_loss": 0.0008258245070464909,
-      "step": 28500
-    },
-    {
-      "epoch": 0.85,
-      "eval_loss": 0.006398391909897327,
-      "eval_r_loss": 0.005606560967862606,
-      "eval_runtime": 8.6124,
-      "eval_s_loss": 0.0007918307092040777,
-      "eval_samples_per_second": 78.027,
-      "eval_steps_per_second": 78.027,
-      "step": 28500
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 3.12470466097668e-06,
-      "loss": 0.0059,
-      "r_loss": 0.004881501197814941,
-      "s_loss": 0.0008381219813600183,
-      "step": 28600
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 3.0033283767617047e-06,
-      "loss": 0.006,
-      "r_loss": 0.004456360824406147,
-      "s_loss": 0.0007237752433866262,
-      "step": 28700
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 2.8840936906237913e-06,
-      "loss": 0.006,
-      "r_loss": 0.005578363314270973,
-      "s_loss": 0.0008311424753628671,
-      "step": 28800
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 2.7670218878646273e-06,
-      "loss": 0.0059,
-      "r_loss": 0.005354044958949089,
-      "s_loss": 0.0008516995585523546,
-      "step": 28900
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 2.6521338676765317e-06,
-      "loss": 0.006,
-      "r_loss": 0.0043981922790408134,
-      "s_loss": 0.0007206485024653375,
-      "step": 29000
-    },
-    {
-      "epoch": 0.87,
-      "eval_loss": 0.006455121096223593,
-      "eval_r_loss": 0.00566498190164566,
-      "eval_runtime": 10.8485,
-      "eval_s_loss": 0.0007901391945779324,
-      "eval_samples_per_second": 61.944,
-      "eval_steps_per_second": 61.944,
-      "step": 29000
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 2.5394501394116805e-06,
-      "loss": 0.006,
-      "r_loss": 0.0046515436843037605,
-      "s_loss": 0.0008327921386808157,
-      "step": 29100
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 2.4289908189208086e-06,
-      "loss": 0.006,
-      "r_loss": 0.005409231409430504,
-      "s_loss": 0.0008956742822192609,
-      "step": 29200
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 2.320775624962243e-06,
-      "loss": 0.0059,
-      "r_loss": 0.005478174425661564,
-      "s_loss": 0.0007779388688504696,
-      "step": 29300
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 2.214823875681753e-06,
-      "loss": 0.006,
-      "r_loss": 0.005899087525904179,
-      "s_loss": 0.0008006141288205981,
-      "step": 29400
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 2.1111544851639887e-06,
-      "loss": 0.006,
-      "r_loss": 0.004816343542188406,
-      "s_loss": 0.0008681662729941308,
-      "step": 29500
-    },
-    {
-      "epoch": 0.88,
-      "eval_loss": 0.006466238759458065,
-      "eval_r_loss": 0.005683359690010548,
-      "eval_runtime": 8.6417,
-      "eval_s_loss": 0.0007828791276551783,
-      "eval_samples_per_second": 77.763,
-      "eval_steps_per_second": 77.763,
-      "step": 29500
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 2.009785960055983e-06,
-      "loss": 0.0059,
-      "r_loss": 0.005228263325989246,
-      "s_loss": 0.0008743102662265301,
-      "step": 29600
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 1.910736396263449e-06,
-      "loss": 0.006,
-      "r_loss": 0.005140687804669142,
-      "s_loss": 0.0007702410221099854,
-      "step": 29700
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 1.8140234757203395e-06,
-      "loss": 0.006,
-      "r_loss": 0.004959780722856522,
-      "s_loss": 0.0007955725886859,
-      "step": 29800
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 1.7196644632323532e-06,
-      "loss": 0.0059,
-      "r_loss": 0.00630287267267704,
-      "s_loss": 0.0008392567397095263,
-      "step": 29900
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 1.6276762033949055e-06,
-      "loss": 0.006,
-      "r_loss": 0.00496282521635294,
-      "s_loss": 0.0008307393291033804,
-      "step": 30000
-    },
-    {
-      "epoch": 0.9,
-      "eval_loss": 0.006491221487522125,
-      "eval_r_loss": 0.005704117473214865,
-      "eval_runtime": 13.2979,
-      "eval_s_loss": 0.0007871038978919387,
-      "eval_samples_per_second": 50.534,
-      "eval_steps_per_second": 50.534,
-      "step": 30000
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 1.5380751175860619e-06,
-      "loss": 0.006,
-      "r_loss": 0.004992773290723562,
-      "s_loss": 0.0007617148803547025,
-      "step": 30100
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 1.4508772010350967e-06,
-      "loss": 0.0059,
-      "r_loss": 0.005444124806672335,
-      "s_loss": 0.000857758685015142,
-      "step": 30200
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 1.3660980199670624e-06,
-      "loss": 0.006,
-      "r_loss": 0.004532184451818466,
-      "s_loss": 0.0007677034009248018,
-      "step": 30300
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 1.2837527088239886e-06,
-      "loss": 0.0058,
-      "r_loss": 0.003988460171967745,
-      "s_loss": 0.0007943719392642379,
-      "step": 30400
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 1.2038559675631167e-06,
-      "loss": 0.006,
-      "r_loss": 0.005079349968582392,
-      "s_loss": 0.0008392308373004198,
-      "step": 30500
-    },
-    {
-      "epoch": 0.91,
-      "eval_loss": 0.0063784122467041016,
-      "eval_r_loss": 0.005593848414719105,
-      "eval_runtime": 11.2008,
-      "eval_s_loss": 0.0007845640648156404,
-      "eval_samples_per_second": 59.996,
-      "eval_steps_per_second": 59.996,
-      "step": 30500
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 1.1264220590327507e-06,
-      "loss": 0.0061,
-      "r_loss": 0.004688158631324768,
-      "s_loss": 0.0008526835008524358,
-      "step": 30600
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 1.0514648064260858e-06,
-      "loss": 0.0059,
-      "r_loss": 0.005976270884275436,
-      "s_loss": 0.0009033031528815627,
-      "step": 30700
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 9.789975908135684e-07,
-      "loss": 0.006,
-      "r_loss": 0.004994697868824005,
-      "s_loss": 0.0007998015498742461,
-      "step": 30800
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 9.09033348754143e-07,
-      "loss": 0.0059,
-      "r_loss": 0.004837275482714176,
-      "s_loss": 0.0008055656799115241,
-      "step": 30900
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 8.415845699858748e-07,
-      "loss": 0.0059,
-      "r_loss": 0.00475228950381279,
-      "s_loss": 0.0007835312280803919,
-      "step": 31000
-    },
-    {
-      "epoch": 0.93,
-      "eval_loss": 0.006395082455128431,
-      "eval_r_loss": 0.005607670173048973,
-      "eval_runtime": 9.003,
-      "eval_s_loss": 0.0007874123984947801,
-      "eval_samples_per_second": 74.642,
-      "eval_steps_per_second": 74.642,
-      "step": 31000
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 7.766632951963343e-07,
-      "loss": 0.0059,
-      "r_loss": 0.005764458328485489,
-      "s_loss": 0.0008497489034198225,
-      "step": 31100
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 7.142811138731459e-07,
-      "loss": 0.006,
-      "r_loss": 0.005635739304125309,
-      "s_loss": 0.0007945407414808869,
-      "step": 31200
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 6.544491622350635e-07,
-      "loss": 0.006,
-      "r_loss": 0.005129328928887844,
-      "s_loss": 0.0008712293347343802,
-      "step": 31300
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 5.971781212439903e-07,
-      "loss": 0.0059,
-      "r_loss": 0.00499305035918951,
-      "s_loss": 0.0008739501936361194,
-      "step": 31400
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 5.42478214698256e-07,
-      "loss": 0.006,
-      "r_loss": 0.005520367994904518,
-      "s_loss": 0.0008639748557470739,
-      "step": 31500
-    },
-    {
-      "epoch": 0.94,
-      "eval_loss": 0.006423806771636009,
-      "eval_r_loss": 0.005639917217195034,
-      "eval_runtime": 9.5481,
-      "eval_s_loss": 0.0007838893216103315,
-      "eval_samples_per_second": 70.381,
-      "eval_steps_per_second": 70.381,
-      "step": 31500
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 4.903592074074914e-07,
-      "loss": 0.0059,
-      "r_loss": 0.004892979748547077,
-      "s_loss": 0.0007891397108323872,
-      "step": 31600
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 4.408304034494748e-07,
-      "loss": 0.006,
-      "r_loss": 0.00487134512513876,
-      "s_loss": 0.0007864002254791558,
-      "step": 31700
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 3.9390064450918195e-07,
-      "loss": 0.0059,
-      "r_loss": 0.004203725606203079,
-      "s_loss": 0.0007678180118091404,
-      "step": 31800
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 3.495783083004273e-07,
-      "loss": 0.0059,
-      "r_loss": 0.005060626659542322,
-      "s_loss": 0.0008796448237262666,
-      "step": 31900
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 3.0787130707028155e-07,
-      "loss": 0.0059,
-      "r_loss": 0.00450053671374917,
-      "s_loss": 0.0007761311717331409,
-      "step": 32000
-    },
-    {
-      "epoch": 0.95,
-      "eval_loss": 0.006359361112117767,
-      "eval_r_loss": 0.005576182622462511,
-      "eval_runtime": 8.5745,
-      "eval_s_loss": 0.0007831782568246126,
-      "eval_samples_per_second": 78.372,
-      "eval_steps_per_second": 78.372,
-      "step": 32000
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 2.687870861866354e-07,
-      "loss": 0.0058,
-      "r_loss": 0.004816841334104538,
-      "s_loss": 0.0008092151256278157,
-      "step": 32100
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 2.3233262280905887e-07,
-      "loss": 0.0058,
-      "r_loss": 0.005017046816647053,
-      "s_loss": 0.0008538334514014423,
-      "step": 32200
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 1.985144246432896e-07,
-      "loss": 0.0059,
-      "r_loss": 0.004773393739014864,
-      "s_loss": 0.0008774587768130004,
-      "step": 32300
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 1.673385287794771e-07,
-      "loss": 0.0059,
-      "r_loss": 0.004963357001543045,
-      "s_loss": 0.0008022256079129875,
-      "step": 32400
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 1.3881050061448963e-07,
-      "loss": 0.0058,
-      "r_loss": 0.005114908795803785,
-      "s_loss": 0.0008205736521631479,
-      "step": 32500
-    },
-    {
-      "epoch": 0.97,
-      "eval_loss": 0.006366991437971592,
-      "eval_r_loss": 0.005584825295954943,
-      "eval_runtime": 8.9973,
-      "eval_s_loss": 0.0007821662584319711,
-      "eval_samples_per_second": 74.689,
-      "eval_steps_per_second": 74.689,
-      "step": 32500
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 1.1342690454311188e-07,
-      "loss": 0.006,
-      "r_loss": 0.0049808090552687645,
-      "s_loss": 0.0008341091452166438,
-      "step": 32600
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 9.015622251951239e-08,
-      "loss": 0.006,
-      "r_loss": 0.005653849337249994,
-      "s_loss": 0.0008855736814439297,
-      "step": 32700
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 6.95471864728997e-08,
-      "loss": 0.0059,
-      "r_loss": 0.006156204268336296,
-      "s_loss": 0.0008836152264848351,
-      "step": 32800
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 5.1603475446377335e-08,
-      "loss": 0.0059,
-      "r_loss": 0.005304061807692051,
-      "s_loss": 0.0009092881809920073,
-      "step": 32900
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 3.6328292679828624e-08,
-      "loss": 0.0059,
-      "r_loss": 0.004687966778874397,
-      "s_loss": 0.0007698750705458224,
-      "step": 33000
-    },
-    {
-      "epoch": 0.98,
-      "eval_loss": 0.006356844212859869,
-      "eval_r_loss": 0.005574433133006096,
-      "eval_runtime": 8.7324,
-      "eval_s_loss": 0.0007824110798537731,
-      "eval_samples_per_second": 76.955,
-      "eval_steps_per_second": 76.955,
-      "step": 33000
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 2.37243650380925e-08,
-      "loss": 0.0058,
-      "r_loss": 0.0053665488958358765,
-      "s_loss": 0.0008012793259695172,
-      "step": 33100
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 1.3793942524174541e-08,
-      "loss": 0.0059,
-      "r_loss": 0.004292100202292204,
-      "s_loss": 0.0007570346933789551,
-      "step": 33200
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 6.538797877583269e-09,
-      "loss": 0.0059,
-      "r_loss": 0.005391569808125496,
-      "s_loss": 0.0008714336436241865,
-      "step": 33300
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 1.9602262578682917e-09,
-      "loss": 0.0059,
-      "r_loss": 0.004852307494729757,
-      "s_loss": 0.0007645284058526158,
-      "step": 33400
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 5.90450134152487e-11,
-      "loss": 0.0059,
-      "r_loss": 0.0045965323224663734,
-      "s_loss": 0.0008654047851450741,
-      "step": 33500
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 0.006353782489895821,
-      "eval_r_loss": 0.0055714258924126625,
-      "eval_runtime": 9.2592,
-      "eval_s_loss": 0.0007823564810678363,
-      "eval_samples_per_second": 72.576,
-      "eval_steps_per_second": 72.576,
-      "step": 33500
-    }
-  ],
-  "max_steps": 33513,
-  "num_train_epochs": 9223372036854775807,
-  "total_flos": 2.119174456955371e+16,
-  "trial_name": null,
-  "trial_params": null
-}

last-checkpoint/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:308f6c0d3916cfaa1801ef8138ac88dd659462c3200361fad5cfa39ff8dd4faf
-size 3899

last-checkpoint/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:359f0bb9c7fdaf6b9a47c37a482edc40df921b373339ce1a6c7b9f57147c1ae3
 size 264627500

 version https://git-lfs.github.com/spec/v1
+oid sha256:34e13ead3f3ca792bed6d415823f1aaf158e7fa1020ff23991dc7bd3acab5151
 size 264627500