摘要
近年来,大型语言模型在音乐音频领域取得了快速发展。这些模型能够端到端地生成更高质量的音乐,一些模型还允许使用文本描述进行条件生成。然而,文本控制对音乐的控制能力本质上是有限的,因为它们只能通过元数据(如歌手和乐器)或高级表示(如流派和情绪)间接地描述音乐。我们旨在进一步为模型配备对音高、和弦和鼓轨等固有音乐语言的直接和内容驱动的控制。为此,我们贡献了 Coco-Mulla,一种用于音乐大型语言建模的内容驱动的控制方法。它使用了一种针对基于 Transformer 的音频模型量身定制的、参数高效的微调 (PEFT) 方法。实验表明,我们的方法在低资源半监督学习下实现了高质量的音乐生成,与原始模型相比,参数调整量不到 4%,并且在不到 300 首歌曲的小数据集上进行训练。此外,我们的方法能够实现有效的内容驱动的控制,我们通过和弦和节奏(音乐音频最显著的两个特征)展示了控制能力。此外,我们还表明,通过结合内容驱动的控制和文本描述,我们的系统可以实现灵活的音乐变奏生成和编排。我们的源代码和演示可在网上获取。