摘要
大规模文本转语音 (TTS) 系统通过增加训练数据量,在零样本语音合成方面取得了显著进展。然而,这些系统存在一些局限性:它们需要大量的训练数据,这会增加成本,并且往往忽略了韵律相似性。为了解决这些问题,我们提出了 MultiVerse,一个零样本多任务 TTS 系统,能够在零样本和跨语言条件下执行 TTS 或语音风格转换。MultiVerse 比传统的数据驱动方法需要更少的训练数据。为了确保在数据有限的情况下也能实现零样本性能,我们利用基于源滤波器理论的解耦,利用提示来建模滤波器相关和源相关的表示。此外,为了进一步增强韵律相似性,我们采用了一种结合基于提示的自回归和非自回归方法的韵律建模方法。评估表明 MultiVerse 具有显著的零样本多任务 TTS 性能,并表明 MultiVerse 不仅在数据量少的情况下实现了与数据驱动 TTS 系统相当的零样本 TTS 性能,而且显著优于使用相同少量数据训练的其他零样本 TTS 系统。特别是,我们新颖的韵律建模技术显著促进了 MultiVerse 能够生成与给定提示具有高度韵律相似性的语音。我们的样本可在 https://nc-ai.github.io/speech/publications/multiverse/index.html 获取。