摘要
arXiv:2503.21254v1 宣告类型: cross
摘要:从视觉生成音乐,包括视频生成音乐和图像生成音乐,是多模态人工智能的一个重要分支,在电影配乐、短视频创作和舞蹈音乐合成等领域展现了广阔的 applications 潜力。然而,与文本和图像等模态的快速发展相比,由于视觉与音乐之间复杂内部结构和动态关系建模的难度,视觉生成音乐的研究仍处于初级阶段。现有的综述主要集中在一般音乐生成上,缺乏对视觉生成音乐的全面讨论。在本文中,我们系统地回顾了视觉生成音乐领域的研究进展。首先,我们分析了三种输入类型:通用视频、人体运动视频和图像,以及两种输出类型:符号音乐和音频音乐的技术特性和核心挑战。然后,我们从架构角度总结了现有的视觉生成音乐方法。我们还提供了一般数据集和评估指标的详细回顾。最后,我们讨论了当前研究中的挑战和未来研究的有希望的方向。我们希望我们的综述能够激发在视觉生成音乐以及更广泛的多模态生成领域的学术研究和工业应用中的进一步创新。为了跟进最新的工作并与进一步创新,我们正在持续维护一个 GitHub 仓库,网址为 https://github.com/wzk1015/Awesome-Vision-to-Music-Generation。