vocab.txt para o modelo F5-TTS-pt-br

#15
by Ltbltbltbltb - opened

Assunto: vocab.txt para o modelo F5-TTS-pt-br

Olá firstpixel,

Estou tentando usar seu modelo F5-TTS-pt-br localmente e tenho enfrentado problemas com a qualidade do áudio (resultando em "gibberish" ou uma sonoridade de "outra língua").
A investigação sugere fortemente que o problema principal é o uso de um vocab.txt inadequado (atualmente estou usando o do SWivid/F5-TTS/F5TTS_Base/, que parece ser para inglês/chinês).

Em uma discussão anterior aqui no repositório (com o usuário brunoavn, se não me engano), você mencionou que planejava subir uma nova versão atualizada que incluiria o vocab.txt específico para português brasileiro.

Gostaria de saber se este vocab.txt específico para o F5-TTS-pt-br já está disponível em algum lugar, ou se há alguma orientação sobre qual vocabulário devemos usar para obter resultados corretos em português.

Minha configuração:

  • Biblioteca f5-tts: versão 1.1.4
  • PyTorch: 2.7.0+cu126
  • CUDA: 12.6

Qualquer ajuda ou direcionamento seria muito apreciado! Acredito que ter o vocab.txt correto resolverá o principal problema que estou enfrentando.

Obrigado!

Acredito que o problema é que o F5-TTS-pt-br foi treinado na versão base (ou v0) do F5-TTS e não no F5-TTS_v1.

Isso é fácil de resolver, da forma da imagem funciona com o modelo que aqui está disponível, se não fizer isso não vai funcionar. O comentário acima mencionou muito bem.... o modelo aqui é da versão anterior.. então não vai funcionar se não for assim. Bom penso eu né na minha humilde opinião.

image.png

A versao que utilizei do F5-TTS, fiz uma copia no github, deve ser bem mais antiga que as atuais.
https://github.com/firstpixel/F5-TTS

Sign up or log in to comment