LLM2D
可分析的音乐思维链提示以实现高保真音乐生成
Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation
作者: Max W. Y. Lam, Yijin Xing, Weiya You, Jingcheng Wu, Zongyu Yin, Fuqiang Jiang, Hangyu Liu, Feng Liu, Xingda Li, Wei-Tsung Lu, Hanyu Chen, Tong Feng, Tianwei Zhao, Chien-Hung Liu, Xuchen Song, Yang Li, Yahui Zhou
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19611v1

摘要

arXiv:2503.19611v1 类型: cross 摘要:自回归(AR)模型在生成高质量音乐方面展现了令人印象深刻的性能。然而,AR模型中传统的下一个token预测范式并不符合音乐创作中的人类创造过程,这可能会影响生成样本的音乐性。为克服这一限制,我们引入了MusiCoT,这是一种专门针对音乐生成的新型chain-of-thought(CoT)提示技术。MusiCoT使AR模型能够在生成音频token之前先概述整体音乐结构,从而增强生成作品的连贯性和创造力。通过利用CLAP(对比语言-音频预训练)模型,我们建立了一条“音乐思考链”,使MusiCoT具备可扩展性并且不依赖于人工标注数据,这与传统CoT方法形成对比。此外,MusiCoT还允许深入分析音乐结构,例如乐器编配,并支持音乐引用——接受变量长度的音频输入作为可选的风格参考。这种创新方法有效解决了复制问题,使MusiCoT成为音乐提示中一个重要的实用方法。我们的实验结果表明,MusiCoT在客观和主观度量指标上始终表现出优异的性能,生成的音乐质量与最先进的生成模型相当。 我们的样本可在 https://MusiCoT.github.io/ 获取。