摘要
arXiv:2502.03930v2 通知类型: 替换-交叉
摘要:最近有几项研究尝试通过结合扩散模型和自回归模型来自回归生成连续语音表示,而无需使用离散语音标记,但它们往往面临计算负担过重或结果不佳的挑战。本文我们提出了一种基于补丁的自回归框架——DiTAR(Diffusion Transformer Autoregressive Modeling),该框架将语言模型与扩散变压器结合。这种方法显著增强了自回归模型在连续标记上的有效性,并降低了计算需求。DiTAR 采用分而治之的策略生成补丁,语言模型处理聚合的补丁嵌入,扩散变压器随后基于语言模型的输出生成下一个补丁。在推理方面,我们提出将温度定义为在反向扩散 ODE 中引入噪声的时间点,以平衡多样性和确定性。此外,我们在广泛的扩展分析中证明了 DiTAR 的卓越扩展性。在零样本语音生成中,DiTAR 实现了在稳健性、说话者相似性和自然度方面的最佳性能。