LLM2D
UniForm:一个统一的多任务扩散变换器用于音视频生成
UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation
作者: Lei Zhao, Linfeng Feng, Dongxu Ge, Rujin Chen, Fangqiu Yi, Chi Zhang, Xiao-Lei Zhang, Xuelong Li
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2502.03897v4

摘要

arXiv:2502.03897v4 宣告类型: replace-cross 摘要:随着扩散模型的兴起,音频-视频生成得到了革命性的变革。然而,大多数现有方法依赖于为每种模态单独设计的模块,对统一生成架构的探索有限。此外,许多方法局限于单一任务和小型数据集。为了解决这些限制,我们首先提出了UniForm,这是一种统一的多任务扩散变换器,它在共享的潜在空间中联合生成音频和视觉模态。单一的扩散过程同时建模音频和视频,捕捉声音和视觉之间的固有相关性。其次,我们引入了任务特定的噪声方案和任务令牌,使单一模型能够支持多种任务,包括文本到音频-视频、音频到视频和视频到音频生成。此外,通过利用大型语言模型和大规模的文本-音频-视频组合数据集,UniForm 达到了比先前方法更大的生成多样性。广泛的实验表明,UniForm 在音频-视频生成任务中达到了最先进的性能,生成的内容与现实世界的数据分布高度一致。我们的演示可以在 https://uniform-t2av.github.io/ 获取。