摘要
arXiv:2411.05679v3 宣告类型:替换了原来的版本
摘要:视觉和音频场景的内容是多方面的,因此一个视频可以搭配各种各样的音频,反之亦然。因此,在视频到音频生成任务中,引入引导方法以控制生成的音频是至关重要的。尽管视频到音频生成是一个成熟的生成任务,现有的方法在可控性方面存在不足。在本工作中,我们提出VATT,这是一个多模态生成框架,它接受视频和可选的文字提示作为输入,并生成音频和可选的音频描述文本。该框架有两个优势:i) 通过文字对视频到音频生成过程进行细化和控制,以补充视觉信息的上下文,ii) 模型可以根据生成的音频描述文本建议适合视频的音频内容。VATT 包含两个关键模块:VATT Converter,一个专为指令微调的LLM,并包含一个投影层,将视频特征映射到LLM向量空间;以及VATT Audio,一个变压器,通过迭代并行解码从视觉帧和可选文本提示生成音频令牌。预训练神经编码器将音频令牌转换为波形。实验显示,当将VATT与现有视频到音频生成方法进行客观指标比较时,在未提供音频描述文本的情况下,VATT达到竞争力的性能。当提供音频描述文本作为提示时,VATT实现了更加精细的性能(最低KLD分数为1.41)。此外,主观研究显示,VATT Audio 生成的音频比现有方法生成的音频更受偏好。VATT 通过文字实现可控的视频到音频生成,并通过音频描述文本为视频提供文字提示,打开了新的应用可能性,例如以文本引导的视频到音频生成和视频到音频描述。