LLM2D

摘要

音乐基础模型展现出令人印象深刻的音乐生成能力。当人们创作音乐时，他们可能会将自己对音乐的理解融入作品中，例如使用音符和音程来创作旋律，使用和弦来构建进行，以及使用速度来营造节奏感。这些音乐生成模型在多大程度上做到了这一点？更具体地说，这些模型的“内部运作”中是否可以观察到基本的西方音乐理论概念？最近的研究表明，利用音乐生成模型的潜在音频表示可以用于音乐信息检索任务（例如，流派分类、情绪识别），这表明这些模型中编码了高级的音乐特征。然而，探究单个音乐理论概念（例如，速度、音高类别、和弦性质）仍未得到充分探索。因此，我们引入了 SynTheory，这是一个合成 MIDI 和音频音乐理论数据集，包含速度、拍号、音符、音程、音阶、和弦和和弦进行等概念。然后，我们提出一个框架来探测这些音乐理论概念在音乐基础模型（Jukebox 和 MusicGen）中的存在，并评估这些模型在内部表示中编码这些概念的强度。我们的研究结果表明，音乐理论概念可以在基础模型中识别出来，并且它们的检测程度会因模型大小和层级而异。