Обрезает окончания фраз
Здравствуйте. Сталкиваюсь с такой проблемой, что некоторые фразы обрезаются на самом конце, иногда может быть "съедено" целое слово, особенно если оно короткое. При этом с другим сидом эта же фраза может звучать более корртектно.
От ref_audio у меня не зависит, другими настройками решить не получилось.
Есть идеи, с чем может быть связано?
Привет!
Датасет был собран с помощью модели whisper-turbo. При разделении на сегменты не всегда корректно определялся конец слов (not many), из-за чего в некоторых примерах последнее слово могло быть пропущено или речь прерывалась на середине. Частично это могло стать причиной возникновения таких проблем (галлюцинаций)
На более длинных фразах модель ведёт себя стабильнее. Для улучшения синтеза «сломанных» примеров генерации может помочь только перегенерация.
Из ближайших планов планирую выложить модель с улученным следованием ударений в словах, в данной версии чекпоинта, ударение было расставлено только в 20% предложений от всего объема датасета. Дополнительно сделаю fine-tune на русскоязычных данных c добавлением ударений (100% предложений) на 2-3 эпохах.
Далее, если будет время, попробую улучить синтез сокращений и "проглатывание" части слов.
Спасибо за ответ, очень буду ждать обновлений.
Добрый день, а есть какие-то сроки, когда ждать обновлений?
Модель очень понравилась, если добить следование ударениям и убрать проглатывания, то будет самый топ из открытых решений.
Добрый день, а есть какие-то сроки, когда ждать обновлений?
Модель очень понравилась, если добить следование ударениям и убрать проглатывания, то будет самый топ из открытых решений.
Для ударений предлагаю воспользоваться ИИ для расстановки ударений, которая указана на странице текущей модели: https://github.com/Den4ikAI/ruaccent
В данный момент я дополнительно обучил модель на 3 эпохах с ударениями на всём датасете, но не было времени протестировать качество. Могу прикрепить несколько чекпоинтов, а вы подскажете, какой из них можно оставить
Добавил новые чекпоинты, жду от вас фидбека по качеству, улучшилось ли следование ударениям
Добавил новые чекпоинты, жду от вас фидбека по качеству, улучшилось ли следование ударениям
Спасибо большое, особенно за оперативность. Сегодня-завтра потестирую и отпишусь.
Добавил новые чекпоинты, жду от вас фидбека по качеству, улучшилось ли следование ударениям
Чисто на слух изменений между всеми чекпоинтами и не слышно.
Качество генерации примерно одинаковое, следование ударениям есть, но также модель их может игнорировать на словах с разных ударением в зависимости от числа, падежа и тп.
Например, "Дв+ери закрыв+аются" и "Сто+ять у двер+и". В обоих случаях, если дополнить контекстом, модель будет делать ударение на букву Е.
Ну и также очень часто (20-30%) окончания фраз съедаются, особенно это заметно, когда на входе текст (длинный) чанкуется.
Окей, спасибо за фидбэк. Придется дополнительно почистить датасет от записей с артефактами.
Ближайшие обновления по модели, возможно будут, но не ранее начала или середины августа