metadata
license: cc-by-nc-4.0
tags:
- tts
- russian
- fine-tuned
- f5-tts
- voice-clone
language:
- ru
base_model:
- SWivid/F5-TTS
pipeline_tag: text-to-speech
F5-TTS_RUSSIAN - дообученная версия оригинальной модели F5-TTS, адаптированная для синтеза русской речи.
Модель обучалась на 5 000 часах с сочетанием русской и английской речи и поддерживает управление ударением в словах.
Ключевые особенности
- Ударения: для изменения ударения поставьте символ
+
перед ударной гласной (молок+о → молокó
).
Для автоматической расстановки ударений можно использовать модель RUAccent. - Демо: демо работы модели (F5-TTS_RUSSIAN/F5TTS_v1_Base) и сравнение с XTTS и FishSpeech — https://misha24-10.github.io/Misha24-10/
Обучающие данные (5000+ часов)
Источник | Часов |
---|---|
Кастомный русский датасет | 4 000 |
Common Voice RU | 239 |
Common Voice EN | 240 |
Sova (RuDevices + RuAudiobooks) | 400 |
LibriHeavy (частично) | 180 |
Доступные модели
F5-TTS_RUSSIAN/F5TTS_v1_Base — первая версия модели, использованная для генерации демо-записей.
F5-TTS_RUSSIAN/F5TTS_v1_Base_accent_tune — дообученная версия с полной разметкой ударений (100% предложений в обучающем датасете). Рекомендуется использовать символы ударения для лучшего качества синтеза.
F5-TTS_RUSSIAN/F5TTS_v1_Base_v2 — дообученная версия (+16 эпох). Добавлена фильтрация данных (удалено ~5% записей с артефактами, soft-clean), с полной разметка ударений в тексте.