LLM2D

摘要

arXiv:2411.05679v3 宣告类型：替换了原来的版本摘要：视觉和音频场景的内容是多方面的，因此一个视频可以搭配各种各样的音频，反之亦然。因此，在视频到音频生成任务中，引入引导方法以控制生成的音频是至关重要的。尽管视频到音频生成是一个成熟的生成任务，现有的方法在可控性方面存在不足。在本工作中，我们提出VATT，这是一个多模态生成框架，它接受视频和可选的文字提示作为输入，并生成音频和可选的音频描述文本。该框架有两个优势：i) 通过文字对视频到音频生成过程进行细化和控制，以补充视觉信息的上下文，ii) 模型可以根据生成的音频描述文本建议适合视频的音频内容。VATT 包含两个关键模块：VATT Converter，一个专为指令微调的LLM，并包含一个投影层，将视频特征映射到LLM向量空间；以及VATT Audio，一个变压器，通过迭代并行解码从视觉帧和可选文本提示生成音频令牌。预训练神经编码器将音频令牌转换为波形。实验显示，当将VATT与现有视频到音频生成方法进行客观指标比较时，在未提供音频描述文本的情况下，VATT达到竞争力的性能。当提供音频描述文本作为提示时，VATT实现了更加精细的性能（最低KLD分数为1.41）。此外，主观研究显示，VATT Audio 生成的音频比现有方法生成的音频更受偏好。VATT 通过文字实现可控的视频到音频生成，并通过音频描述文本为视频提供文字提示，打开了新的应用可能性，例如以文本引导的视频到音频生成和视频到音频描述。