Lectures et ressources complémentaires
Cette unité a introduit la tâche de synthèse vocale et a couvert beaucoup de terrain. Vous voulez en savoir plus ? Vous trouverez ici des ressources qui vous aideront à approfondir votre compréhension des sujets et à améliorer votre expérience d’apprentissage.
- HiFi-GAN : Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis : article présentant HiFi-GAN pour la synthèse vocale.
- X-Vectors : Robust DNN Embeddings For Speaker Recognition : article présentant la méthode X-Vector pour l’intégration des locuteurs.
- FastSpeech 2 : Fast and High-Quality End-to-End Text to Speech : un article présentant FastSpeech 2, un autre modèle de synthèse vocale populaire qui utilise une méthode de TTS non autorégressive.
- A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech : un article présentant MQTTS, un système TTS autorégressif qui remplace les mel-spectrogrammes par une représentation discrète quantifiée.