Ajuda
Cara sincero, não ia pedir ajuda mas sei la rs... 3 dias baixando modelos e não consigo tirar nada de nenhum deles... tudo que sai de audio é algo intelegivel... e vejo as pessoas postando exemplos rodando fico de cara e não roda aqui.
Ele le os modelos no software, acha o vocab.txt, sintetiza mas o audio que sai não se entende nada... nem se parece com nada... é um misturado de silabas que não fazem sentido. A unica coisa que resta é o Config: in a dictionary form tentei os 3 e nada... e tentei tbm o safetensors e o model_last... to fazendo algo errado?
Valeu
Fala irmao! Tudo bem ?
Cara vou te ser sincero também kk modelo tts é complicado, este em questão, as referencias que nao passaram no treinamento tendem a gerar audios ruins, minha sugestão, se quiser audios com vozes especificas, sugiro você fazer um finettuning com o teu dataset, sobre a ultima versao do modelo.
Como tu pode fazer para gerar algo bom, usando o ultimo checkpoint, pegue alguma referencia de audio desse dataset abaixo, que foi o que usei para treinar o modelo:
https://huggingface.co/datasets/Tharyck/multispeaker-tts-ptbr
Ele pode gerar audios assim vou deixar um exemplo abaixo
Puts cara ...eu não tava conseguindo nem gerar o básico...serio não estava gerando uma palavra que fosse entendida... mas depois de muito ler, ver suas referencias, e entender que eu sou burro pra caramba... fiz funcionar hahaahah to brincando com seu modelo agora... e sim vou fazer um finetune nele com minha voz... pra saber eu tava usando o config de safetensor num .pt, e não percebi... qd vc carrega uma referencia nova ele não zera a transcrição... transcrição diferente do audio... zoa tudo!
Mas obrigado pelo seu esforço e trabalho ta dando pra tirar uma onda bem legal