LLM2D

摘要

arXiv:2406.15231v4 宣告类型：替换-交叉摘要：近年来，使用大型语言模型（LLMs）生成音乐内容，尤其是歌词，越来越受欢迎。这些进展为艺术家提供了有价值的工具，增强了他们的创作过程，但也引发了版权侵犯、消费者满意度和内容垃圾邮件的担忧。此前的研究已经在各个领域探索了内容检测，但没有一项研究关注音乐中的文本模式，即歌词。为弥补这一空白，我们收集了多种语言、音乐流派和艺术家的真歌词和合成歌词的数据集。生成管道通过人类和自动化方法进行了验证。我们对现有现有的合成文本检测方法在歌词上的表现进行了彻底的评估，这也是一种此前未被探索的数据类型。我们还研究了如何通过无监督领域适应将表现最佳的特征应用到歌词中。在遵循音乐和产业限制的同时，我们考察了这些方法在不同语言中的适用性、随着数据可用性的扩展性、对多语言内容的处理能力以及在少量示例设置下对新颖流派的表现。我们的研究结果表明了有希望的结果，这些结果可以为AI生成音乐的政策制定提供信息，并增强用户的透明度。