hotstone228/F5-TTS-Russian · Новая версия

NGC404

Dec 30, 2024

Доброе утро , когда ждать новую версию модели ?

hotstone228

Owner Jan 3

Доброе, после праздников

NGC404

Jan 3

Крута, буду ждать с нетерпением. )))

leamamoor

Jan 4

Во-первых, спасибо за русский язык! Это то, чего многим клонированиям не хватает, тем более с таким доступным подключением (в локальной среде). Во-вторых, можно ли вам как-то помочь с апдейтами?)
И можно узнать, что нового будет в обновлении? По поводу ударений в словах из другого топика - да, прям очень часто не туда они.

hotstone228

Owner Jan 4

🖐️, в новом релизе будет расширен датасет (возможно уйдет проблема с ударениями) и будет добавлен английский язык

leamamoor

Jan 4

То есть нет точной зависимости между ударениями и объёмом датасета?

makcimbx

Jan 5

Ооо, за английский одновременно с русским отдельное спасибо.

erzhanbakanbayev

Jan 8

Спасибо за модель. Хочу натренировать эту модель на другом языке. Подскажите сколько данных и какого характера желательно нужно для получения хороших результатов?

hotstone228

Owner Jan 8

Добрый день, можно получить хорошие результаты, начиная с 50к семплов, но чем больше, тем лучше. Важно, чтобы каждый голос был уникальным. Подробнее можно почитать в оригинальном репозитории

AugustLight

Jan 20

Как узнал о проекте, уже несколько недель каждый день захожу сюда чтобы проверить, не появилась-ли новая версия.
Нету-ли до сих пор каких-то примерных дат, когда стоит ожидать модель? 🥲

EidzokuMakura

Jan 21

@AugustLight вся правда, тоже захожу сюда в надежде на появление новой версии)

hotstone228

Owner Jan 21

Доброе утро, к концу недели будет новая версия, если качество модели меня устроит

NGC404

Jan 21

•

edited Jan 22

Я такая же фигня 😀 Очень жду !!!

persey01

Jan 22

Тоже захожу каждый день )))

leamamoor

Jan 23

Нас таких уже несколько)

tomasris

Jan 25

Спасибо за новую версию. К сожалению "акцентатор нада". Русский язык слишком сложный для этой модели. Пример слова "слова".

hotstone228

Owner Jan 25

В каком то из обсуждений советовали вставлять @ в качестве ударений

tomasris

Jan 25

Я игрался со знаком ' . Это работает, но после ударение падает на несколько слог.

hotstone228

Owner Jan 25

В моём случае знак ' не давал положительного эффекта

AugustLight

Jan 25

•

edited Jan 25

у меня есть очень крутая идея: сделать так чтобы за ударения отвечал знак "+".
я уже знаю хорошую модель для расставления ударений - RUAccent(даже знаком с автором). И она работает просто превосходно.
я думаю даже смогу сам дописать поддержку Ruaccent перед синтезом. Главное чтобы модель понимала что это.

P.S: либо просто + заменю на @. Думаю там знак для ударения не так принципиален.

вот статья на хабре: https://habr.com/ru/articles/767560/

NGC404

Jan 25

у меня есть очень крутая идея: сделать так чтобы за ударения отвечал знак "+".
я уже знаю хорошую модель для расставления ударений - RUAccent(даже знаком с автором). И она работает просто превосходно.
я думаю даже смогу сам дописать поддержку Ruaccent перед синтезом. Главное чтобы модель понимала что это.

P.S: либо просто + заменю на @. Думаю там знак для ударения не так принципиален.

вот статья на хабре: https://habr.com/ru/articles/767560/

У меня есть такой скрипт могу скинуть я уже это сделал

tomasris

Jan 25

у меня есть очень крутая идея: сделать так чтобы за ударения отвечал знак "+".
я уже знаю хорошую модель для расставления ударений - RUAccent(даже знаком с автором). И она работает просто превосходно.
я думаю даже смогу сам дописать поддержку Ruaccent перед синтезом. Главное чтобы модель понимала что это.

P.S: либо просто + заменю на @. Думаю там знак для ударения не так принципиален.

вот статья на хабре: https://habr.com/ru/articles/767560/

Есть много хороших. Знаки и место можно переписать с питоном, несложно соединить с F5TTS, чтобы подготовили текст для воспроизведения. Всё упирается в модель интерпретации. "Датасет нада" :)

AugustLight

Jan 25

у меня есть очень крутая идея: сделать так чтобы за ударения отвечал знак "+".
я уже знаю хорошую модель для расставления ударений - RUAccent(даже знаком с автором). И она работает просто превосходно.
я думаю даже смогу сам дописать поддержку Ruaccent перед синтезом. Главное чтобы модель понимала что это.

P.S: либо просто + заменю на @. Думаю там знак для ударения не так принципиален.

вот статья на хабре: https://habr.com/ru/articles/767560/

У меня есть такой скрипт могу скинуть я уже это сделал

я думаю, если на то пошло, то лучше сразу сделать с ним space.

tomasris

Jan 25

Есть такой датасет https://ankiweb.net/shared/info/613414639 , но с ним поработать надо.

EidzokuMakura

Feb 1

Будет ли исправление ударений или может у кого-нибудь есть мысли, как их исправить?

AugustLight

Feb 1

Будет ли исправление ударений или может у кого-нибудь есть мысли, как их исправить?

что я только не пробовал: и использовать "@" и "`" и "+". Даже буквы повышал. Но ничего из этого не дало результат.
RUAccent неплохо расставляет ударения. Главное понять, как заставить модель акцентировать внимание в нужных местах.

EidzokuMakura

Feb 4

@AugustLight Единственный вариант который увидел, это подсказка в ветке "Ударения?"
Расширить словарь символами а', о', и' и так далее. Для этого нужно будет прогнать расшифровки всех датасетов через ruAccent, а потом заново натренировать модель.
Не знаю насколько это реализуемо, всего лишь теория, я явно не эксперт в этом. Единственный вопрос как модель будет понимать символ a', это ведь по сути 2 символа.

AugustLight

Feb 4

@AugustLight Единственный вариант который увидел, это подсказка в ветке "Ударения?"
Расширить словарь символами а', о', и' и так далее. Для этого нужно будет прогнать расшифровки всех датасетов через ruAccent, а потом заново натренировать модель.
Не знаю насколько это реализуемо, всего лишь теория, я явно не эксперт в этом. Единственный вопрос как модель будет понимать символ a', это ведь по сути 2 символа.

надеюсь автор заметит и реализует, потому что у меня к сожалению сейчас нет возможности зафайнтюнить модель 😭🙏

hotstone228

Owner Feb 4

Для такого нужен новый tokenizer, у меня сейчас нет возможности делать свою реализацию. Сейчас экспериментирую с параметрами обучения, возможно будут улучшения

Den4ikAI

Feb 9

у меня есть очень крутая идея: сделать так чтобы за ударения отвечал знак "+".
я уже знаю хорошую модель для расставления ударений - RUAccent(даже знаком с автором). И она работает просто превосходно.
я думаю даже смогу сам дописать поддержку Ruaccent перед синтезом. Главное чтобы модель понимала что это.

P.S: либо просто + заменю на @. Думаю там знак для ударения не так принципиален.

вот статья на хабре: https://habr.com/ru/articles/767560/

Есть много хороших. Знаки и место можно переписать с питоном, несложно соединить с F5TTS, чтобы подготовили текст для воспроизведения. Всё упирается в модель интерпретации. "Датасет нада" :)
@tomasris
Даже интересно, какие есть еще ударяторы?

EidzokuMakura

Feb 12

Появился такой вопрос: если токенайзер с символов апострофа (или любым другим) сложно реализуем, то никак не получится использовать заглавную букву?
Слышал о проблеме, что F5-TTS просто пропускает заглавную букву или она звучит как-то неправильно.
У меня в голове вырисовывается план, поэтому хочу услышать ваше мнение:

Прогнать все расшифровки голосов датасетов через ruaccent следующим образом: сначала весь текст в lowercase, потом в каждом слове ударная буква превращается в заглавную.
Натренировать модель на этом датасете
Во время использования в поле text to generate подавать полностью lowercase текст и делать ударные буквы заглавными

BesNamedDemon

Feb 21

Появился такой вопрос: если токенайзер с символов апострофа (или любым другим) сложно реализуем, то никак не получится использовать заглавную букву?
Слышал о проблеме, что F5-TTS просто пропускает заглавную букву или она звучит как-то неправильно.
У меня в голове вырисовывается план, поэтому хочу услышать ваше мнение:

Прогнать все расшифровки голосов датасетов через ruaccent следующим образом: сначала весь текст в lowercase, потом в каждом слове ударная буква превращается в заглавную.

Натренировать модель на этом датасете

Во время использования в поле text to generate подавать полностью lowercase текст и делать ударные буквы заглавными

Хорошая идея, но ruaccent проставляет ударения через зам+ок, жарк+ое итп, то есть знаком плюс перед ударной гласной.
Попробую внедрить обработку ruaccent в процесс транскрибирования(делается буквально в десяток строк) и пофайнтюнить модель на не большом объеме данных.

Den4ikAI

Feb 21

•

edited Feb 21

Появился такой вопрос: если токенайзер с символов апострофа (или любым другим) сложно реализуем, то никак не получится использовать заглавную букву?
Слышал о проблеме, что F5-TTS просто пропускает заглавную букву или она звучит как-то неправильно.
У меня в голове вырисовывается план, поэтому хочу услышать ваше мнение:

Прогнать все расшифровки голосов датасетов через ruaccent следующим образом: сначала весь текст в lowercase, потом в каждом слове ударная буква превращается в заглавную.

Натренировать модель на этом датасете

Во время использования в поле text to generate подавать полностью lowercase текст и делать ударные буквы заглавными

Хорошая идея, но ruaccent проставляет ударения через зам+ок, жарк+ое итп, то есть знаком плюс перед ударной гласной.
Попробую внедрить обработку ruaccent в процесс транскрибирования(делается буквально в десяток строк) и пофайнтюнить модель на не большом объеме данных.

А в чем проблема в токенизатор докинуть токенов для ударений? Ну или заюзать какой-нибудь символ для этого уже присутвствующий?

Кстати, можно вот тут спросить в телеграме: @speech_recognition_ru, наверное, подскажут

BesNamedDemon

Feb 21

А в чем проблема в токенизатор докинуть токенов для ударений? Ну или заюзать какой-нибудь символ для этого уже присутвствующий?

Проблема в том, чтобы эти токены ударений проставить в выборку для обучения, если модель при обучении ни разу не видела ударений в валидационном тексте, то она без понятия что с ними делать.

Den4ikAI

Feb 21

А в чем проблема в токенизатор докинуть токенов для ударений? Ну или заюзать какой-нибудь символ для этого уже присутвствующий?

Проблема в том, чтобы эти токены ударений проставить в выборку для обучения, если модель при обучении ни разу не видела ударений в валидационном тексте, то она без понятия что с ними делать.

Ну да, нужно чтобы либо автор заново обучил модель, либо поучить на небольшом корпусе поверх.

BesNamedDemon

Feb 21

Ну да, нужно чтобы либо автор заново обучил модель, либо поучить на небольшом корпусе поверх.

Ну да, вот я и хочу добавить ruaccent в текущую логику транскрибирования при подготовке сета. Закинуть пару аудиокниг и проверить эту гипотезу, прежде, чем думать о более глобальном переобучении. =)

Отличная работа с ruaccent, кстати. Очень шустро, и качественно расставляет ударения!

EidzokuMakura

Feb 27

Есть ли какие-то продвижения у создателя модели или у других участников? Мониторю каждый день

hotstone228

Owner Feb 28

Добрый день, сейчас обучаю модель на датасете с ударениями. По срокам ориентировки нет

BesNamedDemon

Mar 6

У меня, кстати, получилось с ударениями через ruaccent. Но ресурсов на полноценное обучение и больших датасетов нет.
В сумме у меня есть около 400 часов датасета, сделанного из аудиокниг, которые прогнал через whisper. Затем 25% от результата прогнал через ruaccent и тюню на базовой модеи. Если разметить ударения на всех данных, модель плохо начинает работать на словах без ударений.

Примерно на 20к шагов уже получается более или менее осознанная русская речь. В районе 200к уже начинают кривенько работать ударения. На 300к уже очень даже сносный результат.

С какими проблемами столкнулся:

Whisper, конечно, далеко не идеально размечает текст, довольно много откровенно мусорных сэмплов. Вычищал руками сэмплы с сильным несоответствием между количеством токенов и длиной аудио. А так-же транскрипты типа строк из 100+ одной буквы (ааааа.., ээээээ.. итп)
ruaccent, конечно, очень хорошо расставляет ударения и ё. Но вот спикеры очень часто проговаривают ударения не "по канону". Помогает только ручная дообработка.

В итоге вручную дообработал около 3% датасета, хоть чуть-чуть утучшил обучение. В итоге, как и почти все в обучение упирается в качество данных ))

BesNamedDemon

Mar 6

А, и еще, с числами тоже беда. Числа тоже преобразовал в текст с помощью num2words. Есть еще проблемы с 1-й -> один-й итп, но это лучше, чем когда в тексте просто числа, и на выходе бессвязное бормотание

Den4ikAI

Mar 6

А, и еще, с числами тоже беда. Числа тоже преобразовал в текст с помощью num2words. Есть еще проблемы с 1-й -> один-й итп, но это лучше, чем когда в тексте просто числа, и на выходе бессвязное бормотание

Можно попробовать https://github.com/Den4ikAI/runorm, но он в глубокой бете и может быть нестабильным.

EidzokuMakura

Mar 8

У меня, кстати, получилось с ударениями через ruaccent. Но ресурсов на полноценное обучение и больших датасетов нет.
В сумме у меня есть около 400 часов датасета, сделанного из аудиокниг, которые прогнал через whisper. Затем 25% от результата прогнал через ruaccent и тюню на базовой модеи. Если разметить ударения на всех данных, модель плохо начинает работать на словах без ударений.

Примерно на 20к шагов уже получается более или менее осознанная русская речь. В районе 200к уже начинают кривенько работать ударения. На 300к уже очень даже сносный результат.

С какими проблемами столкнулся:

Whisper, конечно, далеко не идеально размечает текст, довольно много откровенно мусорных сэмплов. Вычищал руками сэмплы с сильным несоответствием между количеством токенов и длиной аудио. А так-же транскрипты типа строк из 100+ одной буквы (ааааа.., ээээээ.. итп)

ruaccent, конечно, очень хорошо расставляет ударения и ё. Но вот спикеры очень часто проговаривают ударения не "по канону". Помогает только ручная дообработка.

В итоге вручную дообработал около 3% датасета, хоть чуть-чуть утучшил обучение. В итоге, как и почти все в обучение упирается в качество данных ))

Получается бросаем все силы на очистку датасета?)

BesNamedDemon

Mar 8

Ну что значит бросаем? В любом обучении всегда важны не только объем, но и качество данных. Это всегда понятно, а не я обнаружил. Я только жаловался на не очень высокое качество данных полученных через автотранскрибацию с whisper.
Я руками поразбирал common voice, и там даже в отобранных данных из-за не выского качества процентов 30 подойдут только для обучения распознавания голоса, но не для его генерации.
Если в данных большой процент слов произносится не правильно, неразборчиво или с неправильным ударением, то и готовая модель будет так генерировать.

snzhkhd

Mar 12

более менее получается проставить ударения если продублировать букву. например так - "жиительница москвыы потеряяла боолее двуух миллиоонов рублеей, повеерив мошеенникам, котоорые обещаали ей быыстрый зааработок на биирже "
иногда звучит не много странно но вроде работает. писать с большой буквы вообще как я понял нельзя, он её не произносит, глотает

NGC404

Mar 30

Доброе утро , когда ждать новую версию модели ?

hotstone228

Owner Mar 30

Доброе, точного времени нет. Проектом почти не занимаюсь, ресурсы не позволяют часто модели тренировать

EidzokuMakura

Apr 4

У кого-нибудь есть успешные наработки или возможности тренировать модель?

AugustLight

Apr 18

•

edited Apr 18

У меня появилась более мощное оборудование, в связи с чем я хотел-бы попробовать помочь продолжить проект.
Не могли бы мы обсудить детали в телеграмме? Я в этом не совсем новичок, но есть некоторые вопросы. В идеале, возможно взял бы обучение на себя.
Мой тг: @augustlight

hotstone228

Owner Apr 18

Добрый день, вы можете задать вопросы здесь, а я на них отвечу. Вдруг это будет кому-нибудь полезно

AugustLight

Apr 18

Добрый день, вы можете задать вопросы здесь, а я на них отвечу. Вдруг это будет кому-нибудь полезно

Ох. У меня более общие. Мне кажется кто-то уже спрашивал, но на чем до этого обучалась модель? В плане, какая видеокарта использовалась? Сколько времени на ней это занимало? Где именно найти датасет или где вы нашли предыдущие?

Я так-же подозреваю, что мне придётся с нуля переобучить модель, но с применением ударений от руакцент.
Так-же, хоть на оффициальной странице и есть гайд, был бы благодарен, если бы мог обратиться в случае возникновения траблов.

Да и в принципе, интересно что показывала функция потерь при обучении. По вашему мнению: можно ли добиться лучшего результата путем файнтюна на имеющихся данных, или нужны новые? (извините если много вопросов. возможно стоит создать отдельную ветку обсуждений?)

hotstone228

Owner Apr 18

Датасет состоит около 2 млн семплов: 30% английский (Emilia, что и в оригинале) и остальное русский (Open-STT + commonvoice_ru). Использовалась RTX 4070Ti 12Gb, но на новых версиях репозитория её стало не хватать, видимо изменился алгоритм. Правильный размер батча на одну карту должен быть суммарно 38400, как заявляет автор. Это достижимо только на 80Гб vram, либо можно пожертвовать скоростью обучения и поставить batch_size=4800, grad_accumulation_steps=8 и обучать до 800 тыс шагов, вместо 100 тыс при 38400. У меня полный цикл с батчем 4000 и grad_accumulation_steps=1 занимал неделю. Насколько я помню у автора обучение занимало неделю на 8 теслах А80.

OpenSTT долго скачивать с их хостов, так как стоит ограничение скорости, поэтому я бы остановился на commonvoice + emilia в том же % соотношении. Ruaccent можно применить к получившемуся metadata.csv и обучить с нуля, хотя возможно, если используется большой батч, то нужды в расстановке ударений не будет. Графики обучения есть в этом репозитории, они не сказать что хорошие, тут нужны эксперименты с learning rate, я использовал стандартные значения. Если будут вопросы, то пишите сюда или в новую ветку, я помогу

Den4ikAI

Apr 20

OpenSTT долго скачивать с их хостов, так как стоит ограничение скорости, поэтому я бы остановился на commonvoice + emilia в том же % соотношении. Ruaccent можно применить к получившемуся metadata.csv и обучить с нуля, хотя возможно, если используется большой батч, то нужды в расстановке ударений не будет. Графики обучения есть в этом репозитории, они не сказать что хорошие, тут нужны эксперименты с learning rate, я использовал стандартные значения. Если будут вопросы, то пишите сюда или в новую ветку, я помогу

Не надо учить на OpenSTT. Это отвратительного качества датасет. Там куча грязи, а также мисалаймента. Если есть желание, можно в тг поболтать: @bceloss