LLM2D
SONAR:一种合成AI音频检测框架和基准
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark
作者: Xiang Li, Pin-Yu Chen, Wenqi Wei
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.04324v3

摘要

基于生成式人工智能技术的文本转语音 (TTS) 和语音转换 (VC) 技术的最新进展使得生成高质量、逼真的类人语音成为可能。这给区分人工智能合成语音和真实人声带来了巨大的挑战,并可能引发恶意用途的潜在问题,例如冒充和欺诈、传播虚假信息、深度伪造和诈骗。然而,现有的 AI 合成音频检测技术尚未跟上步伐,并且在不同数据集上的泛化能力往往较差。本文介绍了 SONAR,一个合成 AI 音频检测框架和基准,旨在为区分最先进的 AI 合成音频内容提供全面的评估。SONAR 包含一个来自 9 个不同音频合成平台(包括领先的 TTS 提供商和最先进的 TTS 模型)的新型评估数据集。它是第一个统一基准测试传统和基于基础模型的深度伪造检测系统 AI 音频检测的框架。通过大量实验,我们揭示了现有检测方法的泛化局限性,并证明基础模型具有更强的泛化能力,这可以归因于其模型大小以及预训练数据的规模和质量。此外,我们探讨了少样本微调在提高泛化能力方面的有效性和效率,突出了其在定制应用中的潜力,例如针对特定实体或个人的个性化检测系统。代码和数据集可在 https://github.com/Jessegator/SONAR 获取。