Spaces:
Running
¿GPT SoVits en Español para HugginFace?
Me gusta mucho los resultados del agoritmo "GPT SoVits":
https://pypi.org/project/fish-audio-sdk/
https://github.com/fishaudio/fish-audio-python
https://huggingface.co/fishaudio/fish-speech-1.5
Tiene una calidad mejor que Piper, también soporta voces de tonos muy profundos y agudos.
Hola!, me ha interesado dicho proyecto...
Tienes algún cuaderno de entrenamiento para probarlo?
Tengo mi Dataset en formato ljspeech
Solo encontré una demo... Aunque FishAudio se pueden hacer modelos demos con 1:30 segundos. Sin embargo, sería mejor un modelo que entrene desde cero sería bueno "Fish Speech 1.5 (Zero-Shot)": https://colab.research.google.com/drive/1x8k95S34IwhyzTyZrkrPx_Z9n1VfoAvt?usp=sharing
Por otro lado, también podría interesarte el Seed Voice Conversion:
https://huggingface.co/spaces/Plachta/Seed-VC
https://youtu.be/w7AJUT7Jtls?si=Zpasy2qG3915GkMR&t=358
La cuál funciona bien para hacer fandubs porque con solo unos segundos de audio de una voz que exprese alguna emoción como miedo, enojo o alegría. Logra en la mayoría de casos sonar extremadamente bien.