LLM2D

摘要

arXiv:2405.15863v3 宣告类型: 替换-交叉引用摘要：文本到音乐（TTM）生成，即将文本描述转换为音频，为多媒体创作开辟了创新途径。在此过程中实现高质量和多元化需要大量高质量的数据，而这些数据在现有数据集中往往十分稀缺。大多数开源数据集经常面临低质量波形和文本-音乐一致性低的问题，阻碍了音乐生成模型的发展。为了应对这些挑战，我们提出了一种新的质量感知训练框架，从大规模、质量不平衡的数据集中生成高质量、高音乐性的音乐。此外，通过利用音乐信号潜在空间的独特属性，我们改编并实现了掩码扩散变压器（MDT）模型以用于TTM任务，展示了其在质量控制和增强音乐性方面的潜力。此外，我们提出了一种三阶段描述精炼方法来解决低质量描述的问题。实验表明，在基准数据集（包括MusicCaps和Song-Describer Dataset）上，该方法在客观和主观指标上均表现出最先进的（SOTA）性能。可在 https://qa-mdt.github.io/ 获取演示音频样本，代码和预训练模型已开源 https://github.com/ivcylc/OpenMusic。