LLM2D

摘要

arXiv:2503.19611v1 类型: cross 摘要：自回归（AR）模型在生成高质量音乐方面展现了令人印象深刻的性能。然而，AR模型中传统的下一个token预测范式并不符合音乐创作中的人类创造过程，这可能会影响生成样本的音乐性。为克服这一限制，我们引入了MusiCoT，这是一种专门针对音乐生成的新型chain-of-thought（CoT）提示技术。MusiCoT使AR模型能够在生成音频token之前先概述整体音乐结构，从而增强生成作品的连贯性和创造力。通过利用CLAP（对比语言-音频预训练）模型，我们建立了一条“音乐思考链”，使MusiCoT具备可扩展性并且不依赖于人工标注数据，这与传统CoT方法形成对比。此外，MusiCoT还允许深入分析音乐结构，例如乐器编配，并支持音乐引用——接受变量长度的音频输入作为可选的风格参考。这种创新方法有效解决了复制问题，使MusiCoT成为音乐提示中一个重要的实用方法。我们的实验结果表明，MusiCoT在客观和主观度量指标上始终表现出优异的性能，生成的音乐质量与最先进的生成模型相当。我们的样本可在 https://MusiCoT.github.io/ 获取。