LLM2D

摘要

arXiv:2502.12489v1 交叉发布类型：多模态生成模型摘要：视频生成音乐的增长可以归因于多模态生成模型的崛起。然而，缺乏对这一领域工作的全面综述。为填补这一空白，本文对使用深度生成AI技术的视频生成音乐进行了全面回顾，重点关注三个关键组件：视觉特征提取、音乐生成框架和条件机制。我们根据每个组件的设计对现有的方法进行了分类，阐明了不同策略的角色。在此之前，我们提供了对视频和音乐模态的细粒度分类，说明了不同类别如何影响生成管道中组件的设计。此外，我们总结了现有的多模态数据集和评估指标，并强调了该领域目前面临的挑战。