F5-TTS_CHUVASH / README.md
Misha Yakovlev
update lang
f66aabc
metadata
license: cc-by-nc-4.0
tags:
  - tts
  - chuvash
  - russian
  - fine-tuned
  - f5-tts
  - voice-clone
  - low-resource
language:
  - cv
base_model:
  - Misha24-10/F5-TTS_CHUVASH
pipeline_tag: text-to-speech

F5-TTS_CHUVASH

Эксперимент по дообучению модели F5-TTS для чувашского языка, основанный на предварительно обученной русскоязычной модели F5-TTS.

О проекте

Данный эксперимент был проведен для проверки возможности дообучения моделей F5-TTS на малоресурсных языке. Для дообучения был выбран чувашский язык, который имеет похожую фонетическую структуру с русским языком.

Методология

  • В токенайзер были добавлены специфические символы чувашского алфавита: «ҫ», «ĕ», «ӑ», «ӳ», «ӗ», «Ÿ»
  • Для обучения использован набор данных Common Voice на чувашском языке (все файлы из validated.tsv)
  • Датасет был дополнительно обработан для унификации представления чувашских символов:
    text.replace('ӱ', 'ӳ').replace('ÿ', 'ӳ').replace('ӗ', 'ĕ')
    
  • Проведена фильтрация аудиофайлов по длительности (0.3-30 секунд)
  • Итоговый объем данных для обучения - 24.2 часа аудио
  • Модель обучалась на 70 эпохах
  • Параметры и графики обучения wandb.ai

Результаты

Эксперимент показал возможность успешного дообучения модели на близкородственном языке даже с ограниченным объемом данных (25 часов). Модель частично освоила задачу клонирования голоса на чувашском языке.

Примечание: Для тестирования использовался чекпоинт без загрузки EMA весов, так как 40 000 итераций оказалось недостаточно для cходимотси EMA весов, необходимо большее количество итераций обучения.

Примеры сгенерированной речи

В таблице ниже представлены некоторые примеры генерации речи на чувашском языке без загрузки EMA весов:

Текст для генерации Prompt Generation
ҫапла хӑтланнишӗн парламент ертӳҫисем «Тӗрӗслӗхшӗн Раҫҫей» парти пайташне депутат этикине пӑснишӗн ӳпкеленӗ теҫҫӗ.
«Чӑваш Ен» кӑларӑм валли Ирина Николаева, Наталья Егорова, Алиса Александрова, Михаил Солин.
Ку вӗрентӳре ҫапла, чӑн пурнӑҫра вара штраф ҫын пурнӑҫӗпе танлашать.