Upload 14 files

Browse files

Files changed (14) hide show

added_tokens.json +107 -0
config.json +32 -0
generation_config.json +7 -0
optimizer.pt +3 -0
pytorch_model-00001-of-00002.bin +3 -0
pytorch_model-00002-of-00002.bin +3 -0
pytorch_model.bin.index.json +519 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +117 -0
spiece.model +3 -0
tokenizer_config.json +24 -0
trainer_state.json +211 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "<dec>": 132,
+  "<extra_id_0>": 31,
+  "<extra_id_10>": 41,
+  "<extra_id_11>": 42,
+  "<extra_id_12>": 43,
+  "<extra_id_13>": 44,
+  "<extra_id_14>": 45,
+  "<extra_id_15>": 46,
+  "<extra_id_16>": 47,
+  "<extra_id_17>": 48,
+  "<extra_id_18>": 49,
+  "<extra_id_19>": 50,
+  "<extra_id_1>": 32,
+  "<extra_id_20>": 51,
+  "<extra_id_21>": 52,
+  "<extra_id_22>": 53,
+  "<extra_id_23>": 54,
+  "<extra_id_24>": 55,
+  "<extra_id_25>": 56,
+  "<extra_id_26>": 57,
+  "<extra_id_27>": 58,
+  "<extra_id_28>": 59,
+  "<extra_id_29>": 60,
+  "<extra_id_2>": 33,
+  "<extra_id_30>": 61,
+  "<extra_id_31>": 62,
+  "<extra_id_32>": 63,
+  "<extra_id_33>": 64,
+  "<extra_id_34>": 65,
+  "<extra_id_35>": 66,
+  "<extra_id_36>": 67,
+  "<extra_id_37>": 68,
+  "<extra_id_38>": 69,
+  "<extra_id_39>": 70,
+  "<extra_id_3>": 34,
+  "<extra_id_40>": 71,
+  "<extra_id_41>": 72,
+  "<extra_id_42>": 73,
+  "<extra_id_43>": 74,
+  "<extra_id_44>": 75,
+  "<extra_id_45>": 76,
+  "<extra_id_46>": 77,
+  "<extra_id_47>": 78,
+  "<extra_id_48>": 79,
+  "<extra_id_49>": 80,
+  "<extra_id_4>": 35,
+  "<extra_id_50>": 81,
+  "<extra_id_51>": 82,
+  "<extra_id_52>": 83,
+  "<extra_id_53>": 84,
+  "<extra_id_54>": 85,
+  "<extra_id_55>": 86,
+  "<extra_id_56>": 87,
+  "<extra_id_57>": 88,
+  "<extra_id_58>": 89,
+  "<extra_id_59>": 90,
+  "<extra_id_5>": 36,
+  "<extra_id_60>": 91,
+  "<extra_id_61>": 92,
+  "<extra_id_62>": 93,
+  "<extra_id_63>": 94,
+  "<extra_id_64>": 95,
+  "<extra_id_65>": 96,
+  "<extra_id_66>": 97,
+  "<extra_id_67>": 98,
+  "<extra_id_68>": 99,
+  "<extra_id_69>": 100,
+  "<extra_id_6>": 37,
+  "<extra_id_70>": 101,
+  "<extra_id_71>": 102,
+  "<extra_id_72>": 103,
+  "<extra_id_73>": 104,
+  "<extra_id_74>": 105,
+  "<extra_id_75>": 106,
+  "<extra_id_76>": 107,
+  "<extra_id_77>": 108,
+  "<extra_id_78>": 109,
+  "<extra_id_79>": 110,
+  "<extra_id_7>": 38,
+  "<extra_id_80>": 111,
+  "<extra_id_81>": 112,
+  "<extra_id_82>": 113,
+  "<extra_id_83>": 114,
+  "<extra_id_84>": 115,
+  "<extra_id_85>": 116,
+  "<extra_id_86>": 117,
+  "<extra_id_87>": 118,
+  "<extra_id_88>": 119,
+  "<extra_id_89>": 120,
+  "<extra_id_8>": 39,
+  "<extra_id_90>": 121,
+  "<extra_id_91>": 122,
+  "<extra_id_92>": 123,
+  "<extra_id_93>": 124,
+  "<extra_id_94>": 125,
+  "<extra_id_95>": 126,
+  "<extra_id_96>": 127,
+  "<extra_id_97>": 128,
+  "<extra_id_98>": 129,
+  "<extra_id_99>": 130,
+  "<extra_id_9>": 40,
+  "<inc>": 131,
+  "[CLS]": 28,
+  "[MASK]": 30,
+  "[SEP]": 29
+}

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "./generator_model/round10/checkpoint-13500/",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 16384,
+  "d_kv": 128,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "max_length": 128,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 24,
+  "num_heads": 32,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.1",
+  "use_cache": true,
+  "vocab_size": 133
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "max_length": 128,
+  "pad_token_id": 0,
+  "transformers_version": "4.28.1"
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf8f885e4b52102334b0da9b3fc029a5da66a3cd24f20dd55a8bfc9e77871c66
+size 22550994275

pytorch_model-00001-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:807c287000c57cdb54d7e6ec29818f195e5bad74a20ea294bf4913681782f101
+size 9983585125

pytorch_model-00002-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24aca625f005dc364da6c724154f1cda9b7662c467eceeb2c2bdb93ad03d600e
+size 1292476709

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,519 @@

+{
+  "metadata": {
+    "total_size": 11276976128
+  },
+  "weight_map": {
+    "decoder.block.0.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.0.SelfAttention.relative_attention_bias.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.0.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.1.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.10.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.11.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.12.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.13.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.14.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.15.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.16.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.17.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.18.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.19.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.19.layer.0.SelfAttention.o.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.19.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.19.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.19.layer.0.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.19.layer.1.EncDecAttention.k.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.19.layer.1.EncDecAttention.o.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.19.layer.1.EncDecAttention.q.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.19.layer.1.EncDecAttention.v.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.19.layer.1.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.19.layer.2.DenseReluDense.wi.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.19.layer.2.DenseReluDense.wo.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.19.layer.2.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.2.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.2.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.20.layer.0.SelfAttention.k.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.0.SelfAttention.o.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.0.SelfAttention.q.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.0.SelfAttention.v.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.0.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.1.EncDecAttention.k.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.1.EncDecAttention.o.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.1.EncDecAttention.q.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.1.EncDecAttention.v.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.1.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.2.DenseReluDense.wi.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.2.DenseReluDense.wo.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.20.layer.2.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.0.SelfAttention.k.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.0.SelfAttention.o.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.0.SelfAttention.q.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.0.SelfAttention.v.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.0.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.1.EncDecAttention.k.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.1.EncDecAttention.o.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.1.EncDecAttention.q.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.1.EncDecAttention.v.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.1.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.2.DenseReluDense.wi.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.2.DenseReluDense.wo.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.21.layer.2.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.0.SelfAttention.k.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.0.SelfAttention.o.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.0.SelfAttention.q.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.0.SelfAttention.v.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.0.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.1.EncDecAttention.k.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.1.EncDecAttention.o.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.1.EncDecAttention.q.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.1.EncDecAttention.v.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.1.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.2.DenseReluDense.wi.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.2.DenseReluDense.wo.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.22.layer.2.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.0.SelfAttention.k.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.0.SelfAttention.o.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.0.SelfAttention.q.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.0.SelfAttention.v.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.0.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.1.EncDecAttention.k.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.1.EncDecAttention.o.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.1.EncDecAttention.q.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.1.EncDecAttention.v.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.1.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.2.DenseReluDense.wi.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.2.DenseReluDense.wo.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.23.layer.2.layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "decoder.block.3.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.3.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.4.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.5.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.6.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.7.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.8.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.1.EncDecAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.1.EncDecAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.1.EncDecAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.1.EncDecAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.2.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.2.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.block.9.layer.2.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.embed_tokens.weight": "pytorch_model-00001-of-00002.bin",
+    "decoder.final_layer_norm.weight": "pytorch_model-00002-of-00002.bin",
+    "encoder.block.0.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.0.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.0.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.0.layer.0.SelfAttention.relative_attention_bias.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.0.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.0.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.0.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.0.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.0.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.1.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.1.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.1.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.1.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.1.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.1.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.1.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.1.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.10.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.10.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.10.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.10.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.10.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.10.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.10.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.10.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.11.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.11.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.11.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.11.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.11.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.11.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.11.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.11.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.12.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.12.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.12.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.12.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.12.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.12.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.12.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.12.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.13.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.13.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.13.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.13.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.13.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.13.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.13.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.13.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.14.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.14.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.14.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.14.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.14.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.14.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.14.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.14.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.15.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.15.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.15.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.15.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.15.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.15.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.15.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.15.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.16.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.16.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.16.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.16.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.16.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.16.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.16.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.16.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.17.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.17.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.17.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.17.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.17.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.17.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.17.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.17.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.18.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.18.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.18.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.18.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.18.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.18.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.18.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.18.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.19.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.19.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.19.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.19.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.19.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.19.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.19.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.19.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.2.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.2.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.2.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.2.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.2.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.2.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.2.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.2.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.20.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.20.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.20.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.20.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.20.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.20.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.20.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.20.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.21.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.21.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.21.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.21.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.21.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.21.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.21.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.21.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.22.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.22.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.22.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.22.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.22.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.22.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.22.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.22.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.23.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.23.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.23.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.23.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.23.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.23.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.23.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.23.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.3.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.3.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.3.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.3.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.3.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.3.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.3.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.3.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.4.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.4.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.4.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.4.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.4.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.4.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.4.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.4.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.5.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.5.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.5.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.5.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.5.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.5.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.5.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.5.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.6.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.6.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.6.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.6.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.6.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.6.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.6.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.6.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.7.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.7.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.7.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.7.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.7.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.7.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.7.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.7.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.8.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.8.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.8.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.8.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.8.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.8.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.8.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.8.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.9.layer.0.SelfAttention.k.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.9.layer.0.SelfAttention.o.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.9.layer.0.SelfAttention.q.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.9.layer.0.SelfAttention.v.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.9.layer.0.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.9.layer.1.DenseReluDense.wi.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.9.layer.1.DenseReluDense.wo.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.block.9.layer.1.layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.embed_tokens.weight": "pytorch_model-00001-of-00002.bin",
+    "encoder.final_layer_norm.weight": "pytorch_model-00001-of-00002.bin",
+    "lm_head.weight": "pytorch_model-00002-of-00002.bin",
+    "shared.weight": "pytorch_model-00001-of-00002.bin"
+  }
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3bc8266276eac1246b0c7ba71522daa0e4b43e1997bd42394ca169330d104a2
+size 17563

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:764206e66155a628fea07320d1841ebe81fba71df3dae94eab976be4e5552c1c
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,117 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "[SEP]",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74da7b4afcde53faa570114b530c726135bdfcdb813dec3abfb27f9d44db7324
+size 237990

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "keep_accents": false,
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "[MASK]",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "remove_space": true,
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "AlbertTokenizer",
+  "unk_token": "<unk>",
+  "use_fast": true
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,211 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.7321835340058575,
+  "global_step": 13500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.981921394222078e-05,
+      "loss": 0.1383,
+      "step": 500
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.963842788444155e-05,
+      "loss": 0.1388,
+      "step": 1000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.945764182666233e-05,
+      "loss": 0.1394,
+      "step": 1500
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.92768557688831e-05,
+      "loss": 0.1395,
+      "step": 2000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.909606971110389e-05,
+      "loss": 0.1401,
+      "step": 2500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.891528365332466e-05,
+      "loss": 0.1402,
+      "step": 3000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 9.873449759554544e-05,
+      "loss": 0.1404,
+      "step": 3500
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 9.855371153776621e-05,
+      "loss": 0.1404,
+      "step": 4000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 9.837292547998698e-05,
+      "loss": 0.1404,
+      "step": 4500
+    },
+    {
+      "epoch": 0.24,
+      "eval_bleu": 58.9732,
+      "eval_gen_len": 127.0,
+      "eval_loss": 0.16096045076847076,
+      "eval_max_gen_len": 127.0,
+      "eval_runtime": 5905.2845,
+      "eval_samples_per_second": 2.54,
+      "eval_steps_per_second": 0.053,
+      "step": 4500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 9.819213942220776e-05,
+      "loss": 0.1407,
+      "step": 5000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.801135336442853e-05,
+      "loss": 0.1408,
+      "step": 5500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 9.78305673066493e-05,
+      "loss": 0.1414,
+      "step": 6000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 9.764978124887008e-05,
+      "loss": 0.1412,
+      "step": 6500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 9.746899519109087e-05,
+      "loss": 0.1412,
+      "step": 7000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 9.728820913331164e-05,
+      "loss": 0.1414,
+      "step": 7500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 9.710742307553242e-05,
+      "loss": 0.1414,
+      "step": 8000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.69266370177532e-05,
+      "loss": 0.1417,
+      "step": 8500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 9.674585095997398e-05,
+      "loss": 0.1412,
+      "step": 9000
+    },
+    {
+      "epoch": 0.49,
+      "eval_bleu": 58.854,
+      "eval_gen_len": 126.9273,
+      "eval_loss": 0.1599324494600296,
+      "eval_max_gen_len": 127.0,
+      "eval_runtime": 5913.6366,
+      "eval_samples_per_second": 2.537,
+      "eval_steps_per_second": 0.053,
+      "step": 9000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 9.656506490219475e-05,
+      "loss": 0.1414,
+      "step": 9500
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 9.638427884441553e-05,
+      "loss": 0.1414,
+      "step": 10000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 9.62034927866363e-05,
+      "loss": 0.1416,
+      "step": 10500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 9.602270672885707e-05,
+      "loss": 0.1417,
+      "step": 11000
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 9.584192067107786e-05,
+      "loss": 0.1413,
+      "step": 11500
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 9.566113461329863e-05,
+      "loss": 0.1414,
+      "step": 12000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 9.548034855551941e-05,
+      "loss": 0.1419,
+      "step": 12500
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 9.529956249774018e-05,
+      "loss": 0.1416,
+      "step": 13000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 9.511877643996096e-05,
+      "loss": 0.1415,
+      "step": 13500
+    },
+    {
+      "epoch": 0.73,
+      "eval_bleu": 58.7355,
+      "eval_gen_len": 127.0,
+      "eval_loss": 0.15812213718891144,
+      "eval_max_gen_len": 127.0,
+      "eval_runtime": 5912.1982,
+      "eval_samples_per_second": 2.537,
+      "eval_steps_per_second": 0.053,
+      "step": 13500
+    }
+  ],
+  "max_steps": 276570,
+  "num_train_epochs": 15,
+  "total_flos": 1.402764131303424e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ade82c60e19eef37b5ec086d0bea0ba53eafd7aab29d60a65cf8367a013062bc
+size 3695