摘要
生成式大型语言模型在各种任务中仅通过提示就表现出令人印象深刻的上下文学习能力。以往的旋律到歌词的研究受限于稀缺的高质量对齐数据和不清晰的创造力标准。大多数努力集中在一般主题或情感上,鉴于当前语言模型的能力,这些主题或情感价值较低。在像普通话这样的音调语言中,音调轮廓受旋律和音调的共同影响,导致歌词-旋律匹配的差异。我们的研究通过 Mpop600 数据集验证,证实词作者和旋律作者在创作过程中会考虑这种匹配。在本研究中,我们开发了一个多智能体系统,将旋律到歌词的任务分解成子任务,每个智能体控制韵律、音节数、歌词-旋律对齐和一致性。通过基于扩散的歌唱语音合成器进行听力测试,以评估不同智能体组生成的歌词质量。