LLM2D

摘要

arXiv:2502.03897v4 宣告类型: replace-cross 摘要：随着扩散模型的兴起，音频-视频生成得到了革命性的变革。然而，大多数现有方法依赖于为每种模态单独设计的模块，对统一生成架构的探索有限。此外，许多方法局限于单一任务和小型数据集。为了解决这些限制，我们首先提出了UniForm，这是一种统一的多任务扩散变换器，它在共享的潜在空间中联合生成音频和视觉模态。单一的扩散过程同时建模音频和视频，捕捉声音和视觉之间的固有相关性。其次，我们引入了任务特定的噪声方案和任务令牌，使单一模型能够支持多种任务，包括文本到音频-视频、音频到视频和视频到音频生成。此外，通过利用大型语言模型和大规模的文本-音频-视频组合数据集，UniForm 达到了比先前方法更大的生成多样性。广泛的实验表明，UniForm 在音频-视频生成任务中达到了最先进的性能，生成的内容与现实世界的数据分布高度一致。我们的演示可以在 https://uniform-t2av.github.io/ 获取。