LLM2D

摘要

我们提出了一种名为旋律引导音乐生成 (MG2) 的模型，这是一种利用旋律引导文本到音乐生成的新方法。尽管方法简单，资源极其有限，但该模型取得了优异的性能。具体来说，我们首先使用新提出的对比语言-音乐预训练方法将文本与音频波形及其相关的旋律对齐，从而使学习到的文本表示融合了隐含的旋律信息。随后，我们将检索增强扩散模块与文本提示和检索到的旋律进行条件关联。这使得 MG2 能够生成反映给定文本描述内容的音乐，同时在显式旋律信息的引导下保持内在的和谐性。我们在两个公共数据集 MusicCaps 和 MusicBench 上进行了广泛的实验。实验结果表明，与最先进的模型相比，所提出的 MG2 模型超越了当前的开源文本到音乐生成模型，其参数数量不到 1/3，训练数据不到 1/200。此外，我们还进行了全面的用户评估，以探索 MG2 在现实场景中的潜在应用。