摘要
arXiv:2502.03897v3 公告类型: replace-cross
摘要:随着扩散模型的兴起,音频-视频生成得到了革命性的改变。然而,现有的大多数方法依赖于各自独立的模块,对统一的生成架构探索有限。此外,许多方法仅限于单一任务和小型数据集。为了解决这些限制,我们首先提出了一种统一的多任务扩散变换器UniForm,它在一个共享的潜在空间中同时生成音频和视频模态。单个扩散过程同时捕获音频和视频之间的固有关联。其次,我们引入了特定任务的噪声方案和任务标记,使得单一模型能够支持多个任务,包括文本到音频-视频、音频到视频和视频到音频的生成。此外,通过利用大规模语言模型和大规模的文本-音频-视频组合数据集,UniForm在生成多样性方面超越了之前的方法。广泛的实验表明,UniForm在音频-视频生成任务中达到了最先进的性能,生成的内容不仅符合预期,而且接近实际数据分布。我们的演示可以在https://uniform-t2av.github.io/找到。