LLM2D

摘要

arXiv:2503.23377v1 类型: cross 摘要: 本文介绍了一种名为 JavisDiT 的新颖联合音频-视频扩散变换器，用于同步音频-视频生成 (JAVG)。基于强大的扩散变换器 (DiT) 架构，JavisDiT 能够从开放式的用户提示中同时生成高质量的音频和视频内容。为了确保最佳同步，我们通过层次空间-时间同步先验 (HiST-Sypo) 估计器引入了一种精细的空间-时间对齐机制。该模块提取了全局和精细的空间-时间先验，指导视觉和听觉组件之间的同步。此外，我们提出了一种新的基准，JavisBench，包含 10,140 条高质量的文本-标题音视频，覆盖多种场景和复杂的实际场景。此外，我们特别设计了一种稳健的评估指标，用于评估生成的音频-视频对在复杂内容中的同步性。实验结果表明，JavisDiT 在确保高质量生成和精准同步方面显著优于现有方法，为 JAVG 任务设定了新的标准。我们的代码、模型和数据集将在 https://javisdit.github.io/ 公开。