摘要
arXiv:2405.15863v3 宣告类型: 替换-交叉引用
摘要:文本到音乐(TTM)生成,即将文本描述转换为音频,为多媒体创作开辟了创新途径。在此过程中实现高质量和多元化需要大量高质量的数据,而这些数据在现有数据集中往往十分稀缺。大多数开源数据集经常面临低质量波形和文本-音乐一致性低的问题,阻碍了音乐生成模型的发展。为了应对这些挑战,我们提出了一种新的质量感知训练框架,从大规模、质量不平衡的数据集中生成高质量、高音乐性的音乐。此外,通过利用音乐信号潜在空间的独特属性,我们改编并实现了掩码扩散变压器(MDT)模型以用于TTM任务,展示了其在质量控制和增强音乐性方面的潜力。此外,我们提出了一种三阶段描述精炼方法来解决低质量描述的问题。实验表明,在基准数据集(包括MusicCaps和Song-Describer Dataset)上,该方法在客观和主观指标上均表现出最先进的(SOTA)性能。可在 https://qa-mdt.github.io/ 获取演示音频样本,代码和预训练模型已开源 https://github.com/ivcylc/OpenMusic。