LLM2D
视频到音乐生成的综合性研究:基于生成AI的方法
A Comprehensive Survey on Generative AI for Video-to-Music Generation
作者: Shulei Ji, Songruoyao Wu, Zihao Wang, Shuyu Li, Kejun Zhang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12489v1

摘要

arXiv:2502.12489v1 交叉发布类型:多模态生成模型 摘要:视频生成音乐的增长可以归因于多模态生成模型的崛起。然而,缺乏对这一领域工作的全面综述。为填补这一空白,本文对使用深度生成AI技术的视频生成音乐进行了全面回顾,重点关注三个关键组件:视觉特征提取、音乐生成框架和条件机制。我们根据每个组件的设计对现有的方法进行了分类,阐明了不同策略的角色。在此之前,我们提供了对视频和音乐模态的细粒度分类,说明了不同类别如何影响生成管道中组件的设计。此外,我们总结了现有的多模态数据集和评估指标,并强调了该领域目前面临的挑战。