LLM2D

摘要

基于生成式人工智能技术的文本转语音 (TTS) 和语音转换 (VC) 技术的最新进展使得生成高质量、逼真的类人语音成为可能。这给区分人工智能合成语音和真实人声带来了巨大的挑战，并可能引发恶意用途的潜在问题，例如冒充和欺诈、传播虚假信息、深度伪造和诈骗。然而，现有的 AI 合成音频检测技术尚未跟上步伐，并且在不同数据集上的泛化能力往往较差。本文介绍了 SONAR，一个合成 AI 音频检测框架和基准，旨在为区分最先进的 AI 合成音频内容提供全面的评估。SONAR 包含一个来自 9 个不同音频合成平台（包括领先的 TTS 提供商和最先进的 TTS 模型）的新型评估数据集。它是第一个统一基准测试传统和基于基础模型的深度伪造检测系统 AI 音频检测的框架。通过大量实验，我们揭示了现有检测方法的泛化局限性，并证明基础模型具有更强的泛化能力，这可以归因于其模型大小以及预训练数据的规模和质量。此外，我们探讨了少样本微调在提高泛化能力方面的有效性和效率，突出了其在定制应用中的潜力，例如针对特定实体或个人的个性化检测系统。代码和数据集可在 https://github.com/Jessegator/SONAR 获取。