Проблема с буквосочетаниями
Есть ли способ добавлять буквосочетания? Например, "СИЗО", f5 не умеет четко проговаривать. И еще, если клон голоса не очень, ни манера речи не похожа, ни интонации, есть смысл в файнтюне, например, 25 часов записей?
Существует такая проблема с аббревиатурами, это происходит из-за Out-of-Distribution (OOD), в обучающих данных было мало данных с аббревиатурами. Только если дополнительно дообучаит на таких примерах. Посмотрю, возможно в будущем дообучу на таких примерах.
В этом есть смысл, дообучение улучшит качество синтеза.
Еще есть проблема с цифрами, например, 17 не прочитывает. И везде, где в тексте будут встречаться цифры, будет не очень хорошо.
Для работы с числами нужна предобработка текста для синтеза. Числа, цифры были представлены в датасете, но этого недостаточно, часто будут галлюцинации.
Можно использовать LLM или открытые библиотеки для преобразования цифр/чисел в текст.
Подробнее можешь глянуть тут:
https://github.com/alphacep/awesome-russian-speech?tab=readme-ov-file
Примеры библиотек:
https://github.com/Den4ikAI/runorm
https://github.com/snakers4/russian_stt_text_normalization
https://github.com/shigabeev/russian_tts_normalization
- Существует такая проблема с аббревиатурами, это происходит из-за Out-of-Distribution (OOD), в обучающих данных было мало данных с аббревиатурами. Только если дополнительно дообучаит на таких примерах. Посмотрю, возможно в будущем дообучу на таких примерах.
Возможно можно добавлять в словарь сокращения и модель будет искать в словаре и менять словосочетание на нужное слово. Либо можно пред-обработкой такие случаи тоже вылавливать.