LLM2D

摘要

我们提出了旋律引导音乐生成（MMGen）模型，这是第一个使用旋律引导音乐生成的新颖方法，尽管方法非常简单，资源也非常有限，但它取得了优异的性能。具体来说，我们首先使用多模态对齐模块将旋律与音频波形及其关联描述对齐。随后，我们将扩散模块条件化到学习到的旋律表示上。这使得 MMGen 能够生成与提供的音频风格相匹配的音乐，同时还能生成反映给定文本描述内容的音乐。为了解决高质量数据稀缺的问题，我们构建了一个多模态数据集 MusicSet，其中包含旋律、文本和音频，并将公开发布。我们进行了大量的实验，证明了所提模型在实验指标和实际性能质量方面的优越性。