Misha24-10/F5-TTS_RUSSIAN · Обрезает окончания фраз

Jun 13

Здравствуйте. Сталкиваюсь с такой проблемой, что некоторые фразы обрезаются на самом конце, иногда может быть "съедено" целое слово, особенно если оно короткое. При этом с другим сидом эта же фраза может звучать более корртектно.
От ref_audio у меня не зависит, другими настройками решить не получилось.
Есть идеи, с чем может быть связано?

Misha24-10

Owner Jun 13

Привет!
Датасет был собран с помощью модели whisper-turbo. При разделении на сегменты не всегда корректно определялся конец слов (not many), из-за чего в некоторых примерах последнее слово могло быть пропущено или речь прерывалась на середине. Частично это могло стать причиной возникновения таких проблем (галлюцинаций)

На более длинных фразах модель ведёт себя стабильнее. Для улучшения синтеза «сломанных» примеров генерации может помочь только перегенерация.

Из ближайших планов планирую выложить модель с улученным следованием ударений в словах, в данной версии чекпоинта, ударение было расставлено только в 20% предложений от всего объема датасета. Дополнительно сделаю fine-tune на русскоязычных данных c добавлением ударений (100% предложений) на 2-3 эпохах.

Далее, если будет время, попробую улучить синтез сокращений и "проглатывание" части слов.

AseevGerman

Jun 14

Спасибо за ответ, очень буду ждать обновлений.

TheHard

Jun 25

Добрый день, а есть какие-то сроки, когда ждать обновлений?
Модель очень понравилась, если добить следование ударениям и убрать проглатывания, то будет самый топ из открытых решений.

AseevGerman

Jun 25

Добрый день, а есть какие-то сроки, когда ждать обновлений?
Модель очень понравилась, если добить следование ударениям и убрать проглатывания, то будет самый топ из открытых решений.

Для ударений предлагаю воспользоваться ИИ для расстановки ударений, которая указана на странице текущей модели: https://github.com/Den4ikAI/ruaccent

Misha24-10

Owner Jun 25

В данный момент я дополнительно обучил модель на 3 эпохах с ударениями на всём датасете, но не было времени протестировать качество. Могу прикрепить несколько чекпоинтов, а вы подскажете, какой из них можно оставить

Misha24-10

Owner Jun 26

Добавил новые чекпоинты, жду от вас фидбека по качеству, улучшилось ли следование ударениям

TheHard

Jun 26

Добавил новые чекпоинты, жду от вас фидбека по качеству, улучшилось ли следование ударениям

Спасибо большое, особенно за оперативность. Сегодня-завтра потестирую и отпишусь.

TheHard

Jun 28

•

edited Jun 30

Добавил новые чекпоинты, жду от вас фидбека по качеству, улучшилось ли следование ударениям

Чисто на слух изменений между всеми чекпоинтами и не слышно.
Качество генерации примерно одинаковое, следование ударениям есть, но также модель их может игнорировать на словах с разных ударением в зависимости от числа, падежа и тп.
Например, "Дв+ери закрыв+аются" и "Сто+ять у двер+и". В обоих случаях, если дополнить контекстом, модель будет делать ударение на букву Е.
Ну и также очень часто (20-30%) окончания фраз съедаются, особенно это заметно, когда на входе текст (длинный) чанкуется.

Misha24-10

Owner Jun 29

Окей, спасибо за фидбэк. Придется дополнительно почистить датасет от записей с артефактами.
Ближайшие обновления по модели, возможно будут, но не ранее начала или середины августа

psiheya

4 days ago

Привет, использую последнюю модель v1_base_v2 и окончания так же пропадают. Есть какой-нибудь дискорд проекта хочу помочь в развитии может датасет разметить или еще чего.