vocab.txt para o modelo F5-TTS-pt-br
Assunto: vocab.txt para o modelo F5-TTS-pt-br
Olá firstpixel,
Estou tentando usar seu modelo F5-TTS-pt-br localmente e tenho enfrentado problemas com a qualidade do áudio (resultando em "gibberish" ou uma sonoridade de "outra língua").
A investigação sugere fortemente que o problema principal é o uso de um vocab.txt inadequado (atualmente estou usando o do SWivid/F5-TTS/F5TTS_Base/, que parece ser para inglês/chinês).
Em uma discussão anterior aqui no repositório (com o usuário brunoavn, se não me engano), você mencionou que planejava subir uma nova versão atualizada que incluiria o vocab.txt específico para português brasileiro.
Gostaria de saber se este vocab.txt específico para o F5-TTS-pt-br já está disponível em algum lugar, ou se há alguma orientação sobre qual vocabulário devemos usar para obter resultados corretos em português.
Minha configuração:
- Biblioteca f5-tts: versão 1.1.4
- PyTorch: 2.7.0+cu126
- CUDA: 12.6
Qualquer ajuda ou direcionamento seria muito apreciado! Acredito que ter o vocab.txt correto resolverá o principal problema que estou enfrentando.
Obrigado!
Acredito que o problema é que o F5-TTS-pt-br foi treinado na versão base (ou v0) do F5-TTS e não no F5-TTS_v1.
A versao que utilizei do F5-TTS, fiz uma copia no github, deve ser bem mais antiga que as atuais.
https://github.com/firstpixel/F5-TTS