摘要
arXiv:2502.12489v1 交叉发布类型:多模态生成模型
摘要:视频生成音乐的增长可以归因于多模态生成模型的崛起。然而,缺乏对这一领域工作的全面综述。为填补这一空白,本文对使用深度生成AI技术的视频生成音乐进行了全面回顾,重点关注三个关键组件:视觉特征提取、音乐生成框架和条件机制。我们根据每个组件的设计对现有的方法进行了分类,阐明了不同策略的角色。在此之前,我们提供了对视频和音乐模态的细粒度分类,说明了不同类别如何影响生成管道中组件的设计。此外,我们总结了现有的多模态数据集和评估指标,并强调了该领域目前面临的挑战。