摘要
arXiv:2408.10771v3 宣告类型: 替换-交叉
摘要:尽管最近的零样本多说话者文本到语音(TTS)模型取得了令人印象深刻的成果,但它们通常依赖于来自众多说话者的大量转录语音数据集和复杂的训练管道。同时,自我监督学习(SSL)语音特征已经成为TTS的有效中间表示。此外,来自不同说话者的线性接近的SSL特征共享音素信息并保持各自说话者的身份。在这项研究中,我们介绍了一种名为kNN-TTS的简单而有效的框架,用于使用检索方法的零样本多说话者TTS,该方法利用SSL特征之间的线性关系。客观和主观评估显示,仅在单个说话者的转录语音上训练的我们的模型在性能上与在显著更大的训练数据集上培训的当前最先进的模型相当。低训练数据要求意味着kNN-TTS非常适合低资源领域和语言的多说话者TTS系统的开发。我们还引入了一个插值参数,使细粒度的声音形态成为可能。演示样本可在 https://idiap.github.io/knn-tts 获取。