LLM2D
SONAR:合成 AI 音频检测框架与基准测试
SONAR: A Synthetic AI-Audio Detection Framework~and Benchmark
作者: Xiang Li, Pin-Yu Chen, Wenqi Wei
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04324v1

摘要

近年来,基于生成式人工智能 (AI) 技术的文本转语音 (TTS) 和语音转换 (VC) 技术取得了显著进展,使得生成高质量、逼真的类人语音成为可能。这带来了重大挑战,即如何区分 AI 合成的语音和真实的人类语音,并可能引发潜在的滥用问题,例如冒充和欺诈、传播虚假信息、深度伪造和诈骗。然而,现有的 AI 合成音频检测技术尚未跟上步伐,并且在不同数据集上的泛化能力通常较差。本文介绍了 SONAR,一个合成 AI 音频检测框架和基准,旨在为区分最先进的 AI 合成音频内容提供全面的评估。SONAR 包含一个新颖的评估数据集,该数据集源自 9 个不同的音频合成平台,包括领先的 TTS 提供商和最先进的 TTS 模型。它是第一个统一基准测试 AI 音频检测的框架,涵盖了传统和基于基础模型的深度伪造检测系统。通过大量的实验,我们揭示了现有检测方法的泛化局限性,并证明了基础模型具有更强的泛化能力,这可以归因于它们模型的规模以及预训练数据的规模和质量。此外,我们探讨了少样本微调在提高泛化能力方面的有效性和效率,突出了其在定制应用中的潜力,例如针对特定实体或个人的个性化检测系统。代码和数据集可在 https://github.com/Jessegator/SONAR 获取。