LLM2D
JavisDiT:联合音频-视频扩散变换器与分层时空先验同步
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization
作者: Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23377v1

摘要

arXiv:2503.23377v1 类型: cross 摘要: 本文介绍了一种名为 JavisDiT 的新颖联合音频-视频扩散变换器,用于同步音频-视频生成 (JAVG)。基于强大的扩散变换器 (DiT) 架构,JavisDiT 能够从开放式的用户提示中同时生成高质量的音频和视频内容。为了确保最佳同步,我们通过层次空间-时间同步先验 (HiST-Sypo) 估计器引入了一种精细的空间-时间对齐机制。该模块提取了全局和精细的空间-时间先验,指导视觉和听觉组件之间的同步。此外,我们提出了一种新的基准,JavisBench,包含 10,140 条高质量的文本-标题音视频,覆盖多种场景和复杂的实际场景。此外,我们特别设计了一种稳健的评估指标,用于评估生成的音频-视频对在复杂内容中的同步性。实验结果表明,JavisDiT 在确保高质量生成和精准同步方面显著优于现有方法,为 JAVG 任务设定了新的标准。我们的代码、模型和数据集将在 https://javisdit.github.io/ 公开。