LLM2D

摘要

我们提出了旋律引导音乐生成 (MMGen) 模型，这是首个使用旋律引导音乐生成的新方法，尽管方法非常简单，资源也非常有限，但它取得了优异的性能。具体来说，我们首先使用多模态对齐模块将旋律与音频波形及其相关描述对齐。随后，我们根据学习到的旋律表示对扩散模块进行条件化。这使得 MMGen 能够生成与提供的音频风格相匹配的音乐，同时还能生成反映给定文本描述内容的音乐。为了解决高质量数据稀缺的问题，我们构建了一个多模态数据集 MusicSet，其中包含旋律、文本和音频，并将公开发布。我们进行了广泛的实验，证明了所提议模型在实验指标和实际性能质量方面均具有优越性。