摘要
近年来,大规模文本转语音 (TTS) 系统通常被分为自回归系统和非自回归系统。自回归系统隐式地对时长进行建模,但在稳健性和时长可控性方面存在一定的缺陷。非自回归系统在训练过程中需要文本和语音之间的显式对齐信息,并预测语言单位(例如音素)的时长,这可能会影响其自然度。在本文中,我们介绍了掩码生成编解码器 Transformer (MaskGCT),这是一种完全非自回归的 TTS 模型,它消除了对文本和语音监督之间显式对齐信息的需要,以及音素级别的时长预测。MaskGCT 是一种两阶段模型:在第一阶段,模型使用文本预测从语音自监督学习 (SSL) 模型中提取的语义标记,在第二阶段,模型根据这些语义标记预测声学标记。MaskGCT 遵循掩码和预测学习范式。在训练期间,MaskGCT 学习根据给定的条件和提示预测掩码的语义或声学标记。在推理期间,模型以并行的方式生成指定长度的标记。在 100,000 小时的野外语音上的实验表明,MaskGCT 在质量、相似性和可理解性方面优于当前最先进的零样本 TTS 系统。音频样本可在 https://maskgct.github.io/ 获取。