LLM2D

摘要

arXiv:2406.15231v3 宣传类型：替换交叉摘要：近年来，使用大型语言模型（LLMs）生成音乐内容，尤其是歌词，变得越来越流行。这些进展为艺术家提供了有价值的工具，提升了他们的创作过程，但也引发了关于版权侵权、消费者满意度和内容垃圾邮件的担忧。先前的研究已经探索了各种领域的内容检测。然而，没有任何工作集中在音乐中的文本模式——歌词上。为弥补这一空白，我们收集了一个多样化的数据集，其中包括多种语言、音乐类型和艺术家的真实和合成歌词。生成管道通过人类和自动化方法都得到了验证。我们对现有的一些合成文本检测方法在歌词上的表现进行了全面评估，这是一个之前未被探索的数据类型。我们还研究了如何通过无监督领域适应将表现最好的特征适应到歌词中。遵循音乐和工业约束，我们研究了这些方法在不同语言下的一般化能力、随着数据可用性的扩展、处理多语言内容以及在少量样本中的表现情况。我们的研究结果显示出可行的结果，这些结果可以为AI生成音乐的政策决策提供信息，并增强用户的透明度。