摘要
我们提出了旋律引导音乐生成(MMGen)模型,这是第一个使用旋律引导音乐生成的新颖方法,尽管方法非常简单,资源也非常有限,但它取得了优异的性能。具体来说,我们首先使用多模态对齐模块将旋律与音频波形及其关联描述对齐。随后,我们将扩散模块条件化到学习到的旋律表示上。这使得 MMGen 能够生成与提供的音频风格相匹配的音乐,同时还能生成反映给定文本描述内容的音乐。为了解决高质量数据稀缺的问题,我们构建了一个多模态数据集 MusicSet,其中包含旋律、文本和音频,并将公开发布。我们进行了大量的实验,证明了所提模型在实验指标和实际性能质量方面的优越性。