LLM2D
单模态、跨模态和多模态视角下的音乐生成综述
A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives
作者: Shuyu Li, Shulei Ji, Zihao Wang, Songruoyao Wu, Jiaxing Yu, Kejun Zhang
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.00837v2

摘要

arXiv:2504.00837v2 公告类型: replace-cross 摘要:多模态音乐生成是利用文本、图像、视频以及音乐谱和音频作为引导的多个模态的生成,是一个具有广泛应用的研究领域。本文回顾了这一领域,从模态的角度对音乐生成系统进行了分类。回顾涵盖了模态表示、多模态数据对齐及其在指导音乐生成中的应用。同时,文中还讨论了当前的数据集和评估方法。该领域的关键挑战包括有效的多模态集成、大规模综合数据集和系统的评估方法。最后,本文提供了对未来研究方向的展望,重点关注创造力、效率、多模态对齐和评估。