LLM2D

摘要

近年来，大规模文本转语音 (TTS) 系统通常被分为自回归系统和非自回归系统。自回归系统隐式地对时长进行建模，但在稳健性和时长可控性方面存在一定的缺陷。非自回归系统在训练过程中需要文本和语音之间的显式对齐信息，并预测语言单位（例如音素）的时长，这可能会影响其自然度。在本文中，我们介绍了掩码生成编解码器 Transformer (MaskGCT)，这是一种完全非自回归的 TTS 模型，它消除了对文本和语音监督之间显式对齐信息的需要，以及音素级别的时长预测。MaskGCT 是一种两阶段模型：在第一阶段，模型使用文本预测从语音自监督学习 (SSL) 模型中提取的语义标记，在第二阶段，模型根据这些语义标记预测声学标记。MaskGCT 遵循掩码和预测学习范式。在训练期间，MaskGCT 学习根据给定的条件和提示预测掩码的语义或声学标记。在推理期间，模型以并行的方式生成指定长度的标记。在 100,000 小时的野外语音上的实验表明，MaskGCT 在质量、相似性和可理解性方面优于当前最先进的零样本 TTS 系统。音频样本可在 https://maskgct.github.io/ 获取。