LLM2D

摘要

arXiv:2504.00837v1 交叉通知类型：跨模态音乐生成摘要：多模态音乐生成，利用图像、视频、文本、乐谱和音频等多种模态作为指导，是一个具有广泛应用的新兴研究领域。本文回顾了该领域，从模态的角度分类音乐生成系统。涵盖了模态表示、多模态数据对齐及其在指导音乐生成中的应用。我们还讨论了当前的数据集和评估方法。该领域的关键挑战包括有效的多模态集成、大规模综合数据集和系统化的评估方法。最后，我们对未来研究方向的展望集中在多模态融合、对齐、数据和评估方面。