摘要
arXiv:2504.00837v2 公告类型: replace-cross
摘要:多模态音乐生成是利用文本、图像、视频以及音乐谱和音频作为引导的多个模态的生成,是一个具有广泛应用的研究领域。本文回顾了这一领域,从模态的角度对音乐生成系统进行了分类。回顾涵盖了模态表示、多模态数据对齐及其在指导音乐生成中的应用。同时,文中还讨论了当前的数据集和评估方法。该领域的关键挑战包括有效的多模态集成、大规模综合数据集和系统的评估方法。最后,本文提供了对未来研究方向的展望,重点关注创造力、效率、多模态对齐和评估。