LLM2D
多模态音乐符号理解for视觉大型语言模型
NOTA: Multimodal Music Notation Understanding for Visual Large Language Model
作者: Mingni Tang, Jiajia Li, Lu Yang, Zhiqiang Zhang, Jinghao Tian, Zuchao Li, Lefei Zhang, Ping Wang
发布日期: 2/24/2025
arXiv ID: oai:arXiv.org:2502.14893v1

摘要

arXiv:2502.14893v1 Announce Type: cross 摘要:符号音乐有两种不同形式的表示:二维、直观的乐谱图像和一维、标准化的文本标注序列。虽然大型语言模型在音乐方面展示了极其出色的潜力,但当前的研究主要集中在单一模态符号序列文本上。现有的通用领域视觉语言模型在乐谱理解方面仍然缺乏能力。认识到这一差距,我们提出了NOTA,这是第一个大规模综合多模态乐谱数据集。该数据集包含1,019,237条记录,来自世界三个地区,并包含3个任务。基于该数据集,我们训练了NotaGPT,这是一种乐谱视觉大型语言模型。具体来说,我们包括了一个预对齐训练阶段,用于在音乐谱中表示的音乐符号与其ABC符号文本表示之间的跨模态对齐。随后的训练阶段专注于基础音乐信息提取,然后进行乐谱分析的训练。实验结果显示,我们的NotaGPT-7B在音乐理解方面取得了显著的改进,展示了NOTA和训练管道的有效性。我们的数据集已在https://huggingface.co/datasets/MYTH-Lab/NOTA-dataset 中开源。