本次模型总结了上一炉Chtholly_V3的经验,使用SoVits的v1训练分支制作。 | |
V1原版分支的好处在于,相比于768分支,具有更好的抗杂音抗干扰性能;但是对音色的拟合度会略微降低,在推理时需要花费更多时间进行调音。 | |
本次模型添加了末日三问的广播剧,并对上次数据集进行精简,使其可以对珂朵莉系列模型的高音域容易破音问题作出了针对性调整。 | |
添加了少量噪音数据,意图使其适应英文输出。 | |
中文效果:7/10 | |
日文效果:8/10 | |
英文效果:6/10 | |
实验目标:70%情况下,在入门级发烧HiFi设备下无法识别出与人类声音的区别(未达成) | |
实验结论:在添加了不足二分钟的杂音音频情况下制作出的模型对于英文的平滑音适应性良好、对爆破音适应性良好、对过渡音不合格(存在跑调现象)、对长音适应性勉强达标 | |
(附 聚类模型) | |