--- license: apache-2.0 datasets: - Tharyck/multispeaker-tts-ptbr language: - pt base_model: - SWivid/F5-TTS pipeline_tag: text-to-speech --- Este repositório contém um modelo de TTS (Text-to-Speech) treinado no modelo F5TTS, com foco em vozes brasileiras multilocutor.

github https://github.com/tharyckgusmao/multispeaker-audio-f5/tree/main 📦 Dados utilizados O treinamento utilizou uma combinação de datasets públicos e privados, totalizando: ⏱️ Total em horas: 390.78h 📄 Total de registros: 159,348 samples 📂 Dataset público: [multispeaker-tts-ptbr](https://huggingface.co/datasets/Tharyck/multispeaker-tts-ptbr) 🚀 Treinamento ☁️ Cloud: Runpod 🛠️ Fases do treino: ~30h: segmentação e transição ~24h com GPU A40 ~30h com GPU A4000 💸 Custo estimado: $50 USD 🔊 Samples de áudio 🎙️ Voz única (locutor único): [single](https://voca.ro/18NRon2EX7XW) 👥 Múltiplas vozes (multilocutor): [multi](https://voca.ro/133EpebV0D6u) ⚠️ Aviso Este projeto foi desenvolvido com fins educacionais e de pesquisa. Não me responsabilizo pelo uso indevido ou aplicações comerciais sem o devido licenciamento.