LLM2D

摘要

近年来，基于生成式人工智能 (AI) 技术的文本转语音 (TTS) 和语音转换 (VC) 技术取得了显著进展，使得生成高质量、逼真的类人语音成为可能。这带来了重大挑战，即如何区分 AI 合成的语音和真实的人类语音，并可能引发潜在的滥用问题，例如冒充和欺诈、传播虚假信息、深度伪造和诈骗。然而，现有的 AI 合成音频检测技术尚未跟上步伐，并且在不同数据集上的泛化能力通常较差。本文介绍了 SONAR，一个合成 AI 音频检测框架和基准，旨在为区分最先进的 AI 合成音频内容提供全面的评估。SONAR 包含一个新颖的评估数据集，该数据集源自 9 个不同的音频合成平台，包括领先的 TTS 提供商和最先进的 TTS 模型。它是第一个统一基准测试 AI 音频检测的框架，涵盖了传统和基于基础模型的深度伪造检测系统。通过大量的实验，我们揭示了现有检测方法的泛化局限性，并证明了基础模型具有更强的泛化能力，这可以归因于它们模型的规模以及预训练数据的规模和质量。此外，我们探讨了少样本微调在提高泛化能力方面的有效性和效率，突出了其在定制应用中的潜力，例如针对特定实体或个人的个性化检测系统。代码和数据集可在 https://github.com/Jessegator/SONAR 获取。