LLM2D

摘要

尽管最近的零样本多说话人文本转语音 (TTS) 模型取得了令人印象深刻的结果，但它们通常依赖于来自众多说话人的大量转录语音数据集以及复杂的训练流程。同时，自监督学习 (SSL) 语音特征已成为 TTS 的有效中间表示。还观察到来自不同说话人的线性接近的 SSL 特征共享语音信息，同时保持个体说话人身份，这使得直接且稳健的语音克隆成为可能。在本研究中，我们介绍了 SSL-TTS，这是一个轻量级且高效的零样本 TTS 框架，在来自单个说话人的转录语音上进行训练。SSL-TTS 利用 SSL 特征和检索方法来实现简单而稳健的零样本多说话人合成。客观和主观评估表明，我们的方法实现了与最先进模型相当的性能，而这些模型需要明显更大的训练数据集。较低的训练数据要求意味着 SSL-TTS 非常适合开发用于低资源领域和语言的多说话人 TTS 系统。我们还引入了一个插值参数，它可以通过混合声音来实现对输出语音的精细控制。演示样本可在以下网址获取：https://idiap.github.io/ssl-tts