LLM2D

摘要

arXiv:2504.05684v1 类别: cross 摘要: 本文介绍了一种名为 Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning (TARO) 的新颖框架，该框架用于高保真且时空一致的视频到音频合成。TARO 基于基于流的变换器构建，这些变换器提供了稳定训练和增强同步和音频质量的连续变换。TARO 引入了两项关键技术创新：(1) Timestep-Adaptive Representation Alignment (TRA)，它通过根据噪声调度调整对齐强度来动态对齐潜在表示，从而确保平滑演化和提高保真度；(2) Onset-Aware Conditioning (OAC)，它结合了起始线索，这些线索作为音频相关视觉时刻的尖锐事件驱动标记，以增强与动态视觉事件的同步。在 VGGSound 和 Landscape 数据集上的 extensive 实验表明，TARO 超过了先前的方法，实现了相对 53% 较低的 Frechet 距离 (FD)、29% 较低的 Frechet 音频距离 (FAD) 和 97.19% 的对齐精度，突显了其卓越的音频质量和同步精度。