LLM2D
Home
Arxiv
返回列表
单一模态、跨模态和多模态视角下的音乐生成综述:数据、方法与挑战
A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives: Data, Methods, and Challenges
作者:
Shuyu Li, Shulei Ji, Zihao Wang, Songruoyao Wu, Jiaxing Yu, Kejun Zhang
发布日期:
4/2/2025
arXiv ID:
oai:arXiv.org:2504.00837v1
摘要
arXiv:2504.00837v1 交叉通知类型:跨模态音乐生成 摘要:多模态音乐生成,利用图像、视频、文本、乐谱和音频等多种模态作为指导,是一个具有广泛应用的新兴研究领域。本文回顾了该领域,从模态的角度分类音乐生成系统。涵盖了模态表示、多模态数据对齐及其在指导音乐生成中的应用。我们还讨论了当前的数据集和评估方法。该领域的关键挑战包括有效的多模态集成、大规模综合数据集和系统化的评估方法。最后,我们对未来研究方向的展望集中在多模态融合、对齐、数据和评估方面。
查看原文
下载 PDF