Проблема с буквосочетаниями

#3
by Mikhail2024ru - opened

Есть ли способ добавлять буквосочетания? Например, "СИЗО", f5 не умеет четко проговаривать. И еще, если клон голоса не очень, ни манера речи не похожа, ни интонации, есть смысл в файнтюне, например, 25 часов записей?

  1. Существует такая проблема с аббревиатурами, это происходит из-за Out-of-Distribution (OOD), в обучающих данных было мало данных с аббревиатурами. Только если дополнительно дообучаит на таких примерах. Посмотрю, возможно в будущем дообучу на таких примерах.

  2. В этом есть смысл, дообучение улучшит качество синтеза.

Еще есть проблема с цифрами, например, 17 не прочитывает. И везде, где в тексте будут встречаться цифры, будет не очень хорошо.

Для работы с числами нужна предобработка текста для синтеза. Числа, цифры были представлены в датасете, но этого недостаточно, часто будут галлюцинации.

Можно использовать LLM или открытые библиотеки для преобразования цифр/чисел в текст.

Подробнее можешь глянуть тут:
https://github.com/alphacep/awesome-russian-speech?tab=readme-ov-file

Примеры библиотек:
https://github.com/Den4ikAI/runorm
https://github.com/snakers4/russian_stt_text_normalization
https://github.com/shigabeev/russian_tts_normalization

  1. Существует такая проблема с аббревиатурами, это происходит из-за Out-of-Distribution (OOD), в обучающих данных было мало данных с аббревиатурами. Только если дополнительно дообучаит на таких примерах. Посмотрю, возможно в будущем дообучу на таких примерах.

Возможно можно добавлять в словарь сокращения и модель будет искать в словаре и менять словосочетание на нужное слово. Либо можно пред-обработкой такие случаи тоже вылавливать.

Sign up or log in to comment