LLM2D

摘要

arXiv:2502.03897v3 公告类型: replace-cross 摘要：随着扩散模型的兴起，音频-视频生成得到了革命性的改变。然而，现有的大多数方法依赖于各自独立的模块，对统一的生成架构探索有限。此外，许多方法仅限于单一任务和小型数据集。为了解决这些限制，我们首先提出了一种统一的多任务扩散变换器UniForm，它在一个共享的潜在空间中同时生成音频和视频模态。单个扩散过程同时捕获音频和视频之间的固有关联。其次，我们引入了特定任务的噪声方案和任务标记，使得单一模型能够支持多个任务，包括文本到音频-视频、音频到视频和视频到音频的生成。此外，通过利用大规模语言模型和大规模的文本-音频-视频组合数据集，UniForm在生成多样性方面超越了之前的方法。广泛的实验表明，UniForm在音频-视频生成任务中达到了最先进的性能，生成的内容不仅符合预期，而且接近实际数据分布。我们的演示可以在https://uniform-t2av.github.io/找到。