Upload 3 files

Browse files

Files changed (3) hide show

special_tokens_map.json +21 -0
tokenizer.json +0 -0
tokenizer_config.json +131 -0

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<|padding|>",
+    "<|mask|>",
+    "<|user|>",
+    "<|assistant|>",
+    "<|system|>",
+    "<|end|>",
+    "<|en|>",
+    "<|ru|>",
+    "<|tok|>",
+    "<|",
+    "|>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|end|>",
+  "mask_token": "<|mask|>",
+  "pad_token": "<|padding|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,131 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|mask|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<|end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<|en|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<|ru|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<|tok|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<|",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<|padding|>",
+    "<|mask|>",
+    "<|user|>",
+    "<|assistant|>",
+    "<|system|>",
+    "<|end|>",
+    "<|en|>",
+    "<|ru|>",
+    "<|tok|>",
+    "<|",
+    "|>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "chat_template": "{% for message in messages %}{% if message['lang'] %}{{ \"<|\" + message['lang'] + \"|>\" }}{% endif %}{{ \"<|\" + message['role'] + \"|>\" }}{{ message['content'] }}<|end|>{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|end|>",
+  "extra_special_tokens": {},
+  "mask_token": "<|mask|>",
+  "max_length": 65536,
+  "model_max_length": 65536,
+  "pad_to_multiple_of": 8,
+  "pad_token": "<|padding|>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "stride": 0,
+  "tokenizer_class": "PreTrainedTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<|endoftext|>"
+}