tokenizer_ruaccent_vocab / tokenizer_config.json

m.utrobin

tokenizer upload

c38b776 3 months ago

13.4 kB

	{
	"add_prefix_space": false,
	"added_tokens_decoder": {
	"0": {
	"content": "<\|pad\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"1": {
	"content": "<\|unk\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"2": {
	"content": "<\|bos\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"3": {
	"content": "<\|eos\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"4": {
	"content": "фь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"5": {
	"content": "+ы",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"6": {
	"content": "съ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"7": {
	"content": "ть",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"8": {
	"content": "+ю",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"9": {
	"content": "рь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"10": {
	"content": "хъ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"11": {
	"content": "+о",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"12": {
	"content": "шь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"13": {
	"content": "дь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"14": {
	"content": "щь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"15": {
	"content": "ць",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"16": {
	"content": "+а",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"17": {
	"content": "пь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"18": {
	"content": "ль",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"19": {
	"content": "+е",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"20": {
	"content": "тъ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"21": {
	"content": "зь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"22": {
	"content": "+у",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"23": {
	"content": "нь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"24": {
	"content": "дъ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"25": {
	"content": "въ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"26": {
	"content": "+и",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"27": {
	"content": "нъ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"28": {
	"content": "мь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"29": {
	"content": "зъ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"30": {
	"content": "+ё",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"31": {
	"content": "+я",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"32": {
	"content": "чь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"33": {
	"content": "сь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"34": {
	"content": "вь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"35": {
	"content": "жь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"36": {
	"content": "+э",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"37": {
	"content": "бь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"38": {
	"content": "бъ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"39": {
	"content": "т",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"40": {
	"content": "о",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"41": {
	"content": "л",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"42": {
	"content": "ь",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"43": {
	"content": "к",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"44": {
	"content": " ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"45": {
	"content": "ч",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"46": {
	"content": "в",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"47": {
	"content": "ы",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"48": {
	"content": "д",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"49": {
	"content": "у",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"50": {
	"content": "м",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"51": {
	"content": "а",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"52": {
	"content": "ю",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"53": {
	"content": ",",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"54": {
	"content": "н",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"55": {
	"content": "з",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"56": {
	"content": "с",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"57": {
	"content": "ж",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"58": {
	"content": "и",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"59": {
	"content": ".",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"60": {
	"content": "х",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"61": {
	"content": "е",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"62": {
	"content": "ш",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"63": {
	"content": "п",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"64": {
	"content": "г",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"65": {
	"content": "?",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"66": {
	"content": "р",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"67": {
	"content": "я",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"68": {
	"content": "б",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"69": {
	"content": "ц",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"70": {
	"content": "ё",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"71": {
	"content": "!",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"72": {
	"content": "—",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"73": {
	"content": "й",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"74": {
	"content": "э",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"75": {
	"content": "ф",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"76": {
	"content": "щ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"77": {
	"content": "-",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"78": {
	"content": "ъ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	}
	},
	"bos_token": "<\|bos\|>",
	"clean_up_tokenization_spaces": true,
	"eos_token": "<\|eos\|>",
	"errors": "replace",
	"model_max_length": 1000000000000000019884624838656,
	"pad_token": "<\|pad\|>",
	"tokenizer_class": "WhisperTokenizer",
	"unk_token": "<\|unk\|>"
	}