LLM2D
音乐生成模型是否编码了音乐理论?
Do Music Generation Models Encode Music Theory?
作者: Megan Wei, Michael Freeman, Chris Donahue, Chen Sun
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00872v1

摘要

音乐基础模型展现出令人印象深刻的音乐生成能力。当人们创作音乐时,他们可能会将自己对音乐的理解融入作品中,例如使用音符和音程来创作旋律,使用和弦来构建进行,以及使用速度来营造节奏感。这些音乐生成模型在多大程度上做到了这一点?更具体地说,这些模型的“内部运作”中是否可以观察到基本的西方音乐理论概念?最近的研究表明,利用音乐生成模型的潜在音频表示可以用于音乐信息检索任务(例如,流派分类、情绪识别),这表明这些模型中编码了高级的音乐特征。然而,探究单个音乐理论概念(例如,速度、音高类别、和弦性质)仍未得到充分探索。因此,我们引入了 SynTheory,这是一个合成 MIDI 和音频音乐理论数据集,包含速度、拍号、音符、音程、音阶、和弦和和弦进行等概念。然后,我们提出一个框架来探测这些音乐理论概念在音乐基础模型(Jukebox 和 MusicGen)中的存在,并评估这些模型在内部表示中编码这些概念的强度。我们的研究结果表明,音乐理论概念可以在基础模型中识别出来,并且它们的检测程度会因模型大小和层级而异。