Dmospeech 2 на базе f5 tts

#14
by Mikhail2024ru - opened

https://github.com/yl4579/DMOSpeech2

Я так понял, что это доработанный f5 tts. Можно ли уже обученный файнтюн для f5 прикрутить к нему? Либо обучить его русскому языку? Качество клонирования речи высокое, я попробовал, несмотря на то, что речь воспроизводит некорректно.

https://github.com/yl4579/DMOSpeech2/blob/main/src/demo.ipynb

Initialize the model

tts = DMOInference(
student_checkpoint_path="../ckpts/model_85000.pt",
duration_predictor_path="../ckpts/model_1500.pt",
device="cuda",
model_type="F5TTS_Base"
)

Расширение .pt у моделей совпадают. Может удастся русский сделать?

Привет, модели все-же разные. Буду наблюдать за развитием проекта. В будущем можно будет на основе него обучить новую модель.
Совпадение расширений .pt особо ничего не значат, немного разные модели)

Я попробовал клонировать русскую речь и синтезировал ее на английском. Качество голоса и речи на порядок выше, чем у оригинального f5, и fish в том числе. Если я правильно понял, то это не самостоятельный синтез, а надстройка f5. Поэтому да, ваша обученная модель как есть работать не будет. На ее основе, а это получается, вроде русского претрейна, обучается новая модель. В будущем - это когда? Минимум до осени точно не предвидится? :) Проект сам по себе еще сырой. Сгенерированные семплы на телефоне у меня содержат фрагменты китайской речи в начале записи или в конце. В наголовных наушниках я слышу присутствие звенящего металла в записи. Но если автор форка это исправит, то проект в целом многообещающий. Пока неясно, как его запускать на colab, и есть ли вообще gradio с веб-интерфейсом. Но если кто-то сможет его реализовать, то будет очень здорово!

Буду следить за развитием данного проекта (DMOSpeech2). Ждать выхода стабильной версии

Sign up or log in to comment