摘要
我们提出了旋律引导音乐生成 (MMGen) 模型,这是首个使用旋律引导音乐生成的新方法,尽管方法非常简单,资源也非常有限,但它取得了优异的性能。具体来说,我们首先使用多模态对齐模块将旋律与音频波形及其相关描述对齐。随后,我们根据学习到的旋律表示对扩散模块进行条件化。这使得 MMGen 能够生成与提供的音频风格相匹配的音乐,同时还能生成反映给定文本描述内容的音乐。为了解决高质量数据稀缺的问题,我们构建了一个多模态数据集 MusicSet,其中包含旋律、文本和音频,并将公开发布。我们进行了广泛的实验,证明了所提议模型在实验指标和实际性能质量方面均具有优越性。