LLM2D

摘要

arXiv:2502.14893v1 Announce Type: cross 摘要：符号音乐有两种不同形式的表示：二维、直观的乐谱图像和一维、标准化的文本标注序列。虽然大型语言模型在音乐方面展示了极其出色的潜力，但当前的研究主要集中在单一模态符号序列文本上。现有的通用领域视觉语言模型在乐谱理解方面仍然缺乏能力。认识到这一差距，我们提出了NOTA，这是第一个大规模综合多模态乐谱数据集。该数据集包含1,019,237条记录，来自世界三个地区，并包含3个任务。基于该数据集，我们训练了NotaGPT，这是一种乐谱视觉大型语言模型。具体来说，我们包括了一个预对齐训练阶段，用于在音乐谱中表示的音乐符号与其ABC符号文本表示之间的跨模态对齐。随后的训练阶段专注于基础音乐信息提取，然后进行乐谱分析的训练。实验结果显示，我们的NotaGPT-7B在音乐理解方面取得了显著的改进，展示了NOTA和训练管道的有效性。我们的数据集已在https://huggingface.co/datasets/MYTH-Lab/NOTA-dataset 中开源。