LLM2D

摘要

近年来，大型语言模型在音乐音频领域取得了快速发展。这些模型能够端到端地生成更高质量的音乐，一些模型还允许使用文本描述进行条件生成。然而，文本控制对音乐的控制能力本质上是有限的，因为它们只能通过元数据（如歌手和乐器）或高级表示（如流派和情绪）间接地描述音乐。我们旨在进一步为模型配备对音高、和弦和鼓轨等固有音乐语言的直接和内容驱动的控制。为此，我们贡献了 Coco-Mulla，一种用于音乐大型语言建模的内容驱动的控制方法。它使用了一种针对基于 Transformer 的音频模型量身定制的、参数高效的微调 (PEFT) 方法。实验表明，我们的方法在低资源半监督学习下实现了高质量的音乐生成，与原始模型相比，参数调整量不到 4%，并且在不到 300 首歌曲的小数据集上进行训练。此外，我们的方法能够实现有效的内容驱动的控制，我们通过和弦和节奏（音乐音频最显著的两个特征）展示了控制能力。此外，我们还表明，通过结合内容驱动的控制和文本描述，我们的系统可以实现灵活的音乐变奏生成和编排。我们的源代码和演示可在网上获取。