摘要
arXiv:2502.11094v1 Announce Type: cross
摘要:本文提出了一种双流文本到语音(TTS)模型——SyncSpeech,该模型能够在接收来自上游模型的流式文本输入的同时生成流式语音,从而与大规模语言模型实现无缝交互。SyncSpeech具有以下优势:低延迟,因为它在接收到第二个文本标记后就开始生成流式语音;高效率,因为它可以一步解码每个到达的文本标记对应的所有语音标记。为了实现这一点,我们提出了时间掩码变换器作为SyncSpeech的骨干网络,并结合标记级别时长预测来预测语音标记及其下一步骤的时长。此外,我们设计了一种两阶段训练策略,以提高训练效率和生成语音的质量。我们在英语和 Mandarin 数据集上评估了 SyncSpeech。与最近的双流TTS模型相比,SyncSpeech显著减少了语音标记的第一个包延迟,并加速了实时因子。此外,与传统的自回归TTS模型相比,在相同的数据量下,SyncSpeech在语音质量和鲁棒性方面都取得了相当的性能。语音样本可在 https://SyncSpeech.github.io/ 获得。