LLM2D

摘要

arXiv:2410.04324v4 Announce Type: replace-cross 摘要：近年来，利用生成人工智能（AI）技术进行文本到语音（TTS）和语音转换（VC）的进步使得生成高质量和具拟人化的音频成为可能。这在识别人工智能合成语音和真实人类声音之间制造了日益增长的难度，并可能导致个人冒充、欺诈、传播虚假信息和欺诈等问题。然而，现有的人工智能合成音频检测方法并未跟上进展，经常无法在多种多样数据集上泛化。在本文中，我们介绍了SONAR，一种合成AI音频检测框架和基准测试，旨在提供对最先进的AI合成听觉内容进行区分的全面评估。SONAR包括来自9个不同的音频合成平台的新颖评估数据集，其中包括领先的TTS提供商和最先进的TTS模型。它是首个在传统检测系统和基于基础模型的检测系统之间提供统一基准测试的框架。通过广泛的实验，（1）我们揭示了现有检测方法的局限性，并证明了基础模型表现出更强的泛化能力，这可能归因于它们的模型大小以及预训练数据的质量和规模。（2）语言基础模型展现出强大的跨语言泛化能力，即使仅微调于英语语音数据，也能够保持在多种语言上的强大性能。这一发现还表明，在音频深度合成检测中，主要挑战更多地与合成音频的真实性和质量有关，而非语言特定特性。（3）我们探讨了少量样本微调在提高泛化性能方面的有效性和效率，强调了其在定制化应用方面的潜在优势，例如针对特定实体或个体的个性化检测系统。