LLM2D
快速且高质量的自回归语音合成方法:推测性解码
Fast and High-Quality Auto-Regressive Speech Synthesis via Speculative Decoding
作者: Bohan Li, Hankun Wang, Situo Zhang, Yiwei Guo, Kai Yu
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2410.21951v2

摘要

arXiv:2410.21951v2 通知类型: 替换-交叉 摘要: 自回归架构,如GPTs,在现代文本到语音(TTS)系统中广泛应用。然而,它会导致显著的推理时间,特别是在预测长语音令牌序列的下一个令牌时所面临的挑战。在本文中,我们介绍了VADUSA,这是一种通过推测性解码加速自回归TTS的首创方法之一。我们的结果表明,VADUSA不仅显著提高了推理速度,而且还通过引入草稿头以自回归方式预测未来语音内容来提高性能。此外,在采样过程中引入容忍机制加速了推理,同时不牺牲质量。我们的方法在大型数据集和各种类型的语音令牌上展示了强大的泛化能力。