HirCoir/Piper-TTS-Spanish · ¿GPT SoVits en Español para HugginFace?

19 days ago

Me gusta mucho los resultados del agoritmo "GPT SoVits":
https://pypi.org/project/fish-audio-sdk/
https://github.com/fishaudio/fish-audio-python
https://huggingface.co/fishaudio/fish-speech-1.5

Tiene una calidad mejor que Piper, también soporta voces de tonos muy profundos y agudos.

HirCoir

Owner 18 days ago

Hola!, me ha interesado dicho proyecto...
Tienes algún cuaderno de entrenamiento para probarlo?
Tengo mi Dataset en formato ljspeech

Mitsubachi

17 days ago

Solo encontré una demo... Aunque FishAudio se pueden hacer modelos demos con 1:30 segundos. Sin embargo, sería mejor un modelo que entrene desde cero sería bueno "Fish Speech 1.5 (Zero-Shot)": https://colab.research.google.com/drive/1x8k95S34IwhyzTyZrkrPx_Z9n1VfoAvt?usp=sharing

Por otro lado, también podría interesarte el Seed Voice Conversion:
https://huggingface.co/spaces/Plachta/Seed-VC
https://youtu.be/w7AJUT7Jtls?si=Zpasy2qG3915GkMR&t=358

La cuál funciona bien para hacer fandubs porque con solo unos segundos de audio de una voz que exprese alguna emoción como miedo, enojo o alegría. Logra en la mayoría de casos sonar extremadamente bien.