LLM2D
TARO:基于起始意识条件的时间步自适应表示对齐同步视频到音频合成
TARO: Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning for Synchronized Video-to-Audio Synthesis
作者: Tri Ton, Ji Woo Hong, Chang D. Yoo
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05684v1

摘要

arXiv:2504.05684v1 类别: cross 摘要: 本文介绍了一种名为 Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning (TARO) 的新颖框架,该框架用于高保真且时空一致的视频到音频合成。TARO 基于基于流的变换器构建,这些变换器提供了稳定训练和增强同步和音频质量的连续变换。TARO 引入了两项关键技术创新:(1) Timestep-Adaptive Representation Alignment (TRA),它通过根据噪声调度调整对齐强度来动态对齐潜在表示,从而确保平滑演化和提高保真度;(2) Onset-Aware Conditioning (OAC),它结合了起始线索,这些线索作为音频相关视觉时刻的尖锐事件驱动标记,以增强与动态视觉事件的同步。在 VGGSound 和 Landscape 数据集上的 extensive 实验表明,TARO 超过了先前的方法,实现了相对 53% 较低的 Frechet 距离 (FD)、29% 较低的 Frechet 音频距离 (FAD) 和 97.19% 的对齐精度,突显了其卓越的音频质量和同步精度。