摘要
近年来,人工智能生成的歌曲的激增带来了激动人心的可能性和挑战。虽然这些发明使音乐创作民主化,但也需要能够区分人作曲和合成歌曲,以维护艺术完整性和保护人类音乐艺术。现有的假歌检测研究和数据集只关注歌唱声音深度伪造检测 (SVDD),其中人声是人工智能生成的,但器乐音乐来自真实歌曲。然而,这些方法不足以检测所有成分(人声、音乐、歌词和风格)都可能是人工智能生成的当代端到端人工歌曲。此外,现有数据集缺乏音乐-歌词多样性、长时歌曲和开放访问的假歌曲。为了解决这些差距,我们推出了 SONICS,一个用于端到端合成歌曲检测 (SSD) 的新数据集,包含超过 97,000 首歌曲(4,751 小时),其中超过 49,000 首合成歌曲来自 Suno 和 Udio 等流行平台。此外,我们强调了对歌曲中长距离时间依赖关系进行建模以实现有效真实性检测的重要性,这一点在现有方法中完全被忽略。为了利用长距离模式,我们引入了 SpecTTTra,这是一种新颖的架构,与传统的 CNN 和基于 Transformer 的模型相比,它显着提高了时间和内存效率。特别是,对于长音频样本,我们表现最佳的变体在 F1 分数上比 ViT 高出 8%,同时速度提高了 38%,内存使用量减少了 26%。此外,与 ConvNeXt 相比,我们的模型在 F1 分数上提高了 1%,速度提高了 20%,内存使用量减少了 67%。我们模型家族的其他变体提供了更好的速度和内存效率,同时具有竞争力的性能。