LLM2D

摘要

arXiv:2502.03897v1 Announce Type: cross 摘要：作为一种自然的多模态内容，可听视频提供了一种沉浸式的感官体验。因此，音视频生成系统具有巨大的潜力。然而，现有的基于扩散的方法主要使用相对独立的模块来生成每种模态，缺乏对共享权重生成模块的探索。这种方法可能未能充分利用音频和视觉模态之间的内在相关性，导致生成质量不佳。为了应对这一挑战，我们提出了一种名为UniForm的统一扩散变换器，旨在增强跨模态一致性。通过拼接音视频信息，UniForm在统一的潜在空间内学习同时生成音频和视频，从而促进高质量且对齐良好的音视频对的创造。大量实验表明，我们的方法在联合音视频生成、音频引导的视频生成和视频引导的音频生成任务中表现出优越的性能。我们的演示可以在 https://uniform-t2av.github.io/ 查看。