Dmospeech 2 на базе f5 tts

#14

by Mikhail2024ru - opened Jul 22

Discussion

Mikhail2024ru

Jul 22

•

edited Jul 22

https://github.com/yl4579/DMOSpeech2

Я так понял, что это доработанный f5 tts. Можно ли уже обученный файнтюн для f5 прикрутить к нему? Либо обучить его русскому языку? Качество клонирования речи высокое, я попробовал, несмотря на то, что речь воспроизводит некорректно.

https://github.com/yl4579/DMOSpeech2/blob/main/src/demo.ipynb

Initialize the model

tts = DMOInference(
student_checkpoint_path="../ckpts/model_85000.pt",
duration_predictor_path="../ckpts/model_1500.pt",
device="cuda",
model_type="F5TTS_Base"
)

Расширение .pt у моделей совпадают. Может удастся русский сделать?

Misha24-10

Owner Jul 22

Привет, модели все-же разные. Буду наблюдать за развитием проекта. В будущем можно будет на основе него обучить новую модель.
Совпадение расширений .pt особо ничего не значат, немного разные модели)

Mikhail2024ru

Jul 22

•

edited Jul 22

Я попробовал клонировать русскую речь и синтезировал ее на английском. Качество голоса и речи на порядок выше, чем у оригинального f5, и fish в том числе. Если я правильно понял, то это не самостоятельный синтез, а надстройка f5. Поэтому да, ваша обученная модель как есть работать не будет. На ее основе, а это получается, вроде русского претрейна, обучается новая модель. В будущем - это когда? Минимум до осени точно не предвидится? :) Проект сам по себе еще сырой. Сгенерированные семплы на телефоне у меня содержат фрагменты китайской речи в начале записи или в конце. В наголовных наушниках я слышу присутствие звенящего металла в записи. Но если автор форка это исправит, то проект в целом многообещающий. Пока неясно, как его запускать на colab, и есть ли вообще gradio с веб-интерфейсом. Но если кто-то сможет его реализовать, то будет очень здорово!

Misha24-10

Owner about 1 month ago

Буду следить за развитием данного проекта (DMOSpeech2). Ждать выхода стабильной версии

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment