摘要
arXiv:2502.03930v1 Announce Type: cross
摘要:近期有一些研究尝试通过结合扩散模型和自回归模型来生成连续语音表示而不使用离散的语音标记,但它们经常面临计算负载过重或结果不佳的挑战。在本文中,我们提出了Diffusion Transformer Autoregressive Modeling (DiTAR),这是一种基于块的自回归框架,结合了语言模型和扩散变换器。这种方法显著提高了自回归模型处理连续标记的效率,并减少了计算需求。DiTAR 采用分而治之的策略进行块生成,语言模型处理聚合的块嵌入,而扩散变换器随后根据语言模型的输出生成下一个块。在推理时,我们建议将温度定义为在反向扩散微分方程中引入噪声的时间点,以平衡多样性和确定性。此外,在广泛的缩放分析中,我们展示了DiTAR具有出色的可扩展性。在零样本语音生成中,DiTAR 在稳健性、说话人相似性和自然性方面达到了最先进的性能。