LLM2D
音乐生成只需旋律
Melody Is All You Need For Music Generation
作者: Shaopeng Wei, Manzhen Wei, Haoyu Wang, Yu Zhao, Gang Kou
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2409.20196v3

摘要

我们提出了一种名为旋律引导音乐生成 (MG2) 的模型,这是一种利用旋律引导文本到音乐生成的新方法。尽管方法简单,资源极其有限,但该模型取得了优异的性能。具体来说,我们首先使用新提出的对比语言-音乐预训练方法将文本与音频波形及其相关的旋律对齐,从而使学习到的文本表示融合了隐含的旋律信息。随后,我们将检索增强扩散模块与文本提示和检索到的旋律进行条件关联。这使得 MG2 能够生成反映给定文本描述内容的音乐,同时在显式旋律信息的引导下保持内在的和谐性。我们在两个公共数据集 MusicCaps 和 MusicBench 上进行了广泛的实验。实验结果表明,与最先进的模型相比,所提出的 MG2 模型超越了当前的开源文本到音乐生成模型,其参数数量不到 1/3,训练数据不到 1/200。此外,我们还进行了全面的用户评估,以探索 MG2 在现实场景中的潜在应用。