Проблема с буквосочетаниями

by Mikhail2024ru - opened May 25

Mikhail2024ru

May 25

Есть ли способ добавлять буквосочетания? Например, "СИЗО", f5 не умеет четко проговаривать. И еще, если клон голоса не очень, ни манера речи не похожа, ни интонации, есть смысл в файнтюне, например, 25 часов записей?

Misha24-10

Owner May 25

Существует такая проблема с аббревиатурами, это происходит из-за Out-of-Distribution (OOD), в обучающих данных было мало данных с аббревиатурами. Только если дополнительно дообучаит на таких примерах. Посмотрю, возможно в будущем дообучу на таких примерах.
В этом есть смысл, дообучение улучшит качество синтеза.

Mikhail2024ru

May 25

Еще есть проблема с цифрами, например, 17 не прочитывает. И везде, где в тексте будут встречаться цифры, будет не очень хорошо.

Misha24-10

Owner May 25

Для работы с числами нужна предобработка текста для синтеза. Числа, цифры были представлены в датасете, но этого недостаточно, часто будут галлюцинации.

Можно использовать LLM или открытые библиотеки для преобразования цифр/чисел в текст.

Подробнее можешь глянуть тут:
https://github.com/alphacep/awesome-russian-speech?tab=readme-ov-file

Примеры библиотек:
https://github.com/Den4ikAI/runorm
https://github.com/snakers4/russian_stt_text_normalization
https://github.com/shigabeev/russian_tts_normalization

AngryBear9019

Jun 2

•

edited Jun 2

Существует такая проблема с аббревиатурами, это происходит из-за Out-of-Distribution (OOD), в обучающих данных было мало данных с аббревиатурами. Только если дополнительно дообучаит на таких примерах. Посмотрю, возможно в будущем дообучу на таких примерах.

Возможно можно добавлять в словарь сокращения и модель будет искать в словаре и менять словосочетание на нужное слово. Либо можно пред-обработкой такие случаи тоже вылавливать.

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment