LLM2D
音频水印在生成式AI模型中的 robust 性如何?
SoK: How Robust is Audio Watermarking in Generative AI models?
作者: Yizhu Wen, Ashwin Innuganti, Aaron Bien Ramos, Hanqing Guo, Qiben Yan
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.19176v2

摘要

arXiv:2503.19176v2 公告类型: replace-cross 摘要:音频水印越来越多地用于验证AI生成内容的来源,使其能够应用于检测AI生成的语音、保护音乐版权以及防范声音克隆。为了有效,音频水印必须能够抵抗那些会扭曲信号以逃避检测的去除攻击。尽管许多方案声称具有稳健性,但这些声明通常是在孤立情况下进行测试,并且仅针对少数几种攻击。缺乏对多样去除攻击的系统性评估,阻碍了实际部署。在这篇文章中,我们研究了那些声称稳健的最新水印方案是否能够抵御广泛的去除攻击。首先,我们引入了一种涵盖22个音频水印方案的分类体系。接下来,我们总结了这些方案所基于的技术和潜在的漏洞。然后,我们进行了大规模的经验性研究以评估它们的稳健性。为了支持这一点,我们建立了一种评估框架,共涵盖22种类型的去除攻击(109种配置),包括信号级、物理级和AI引起的失真。我们使用开源代码重现了9个水印方案,发现了8种新的非常有效的攻击,并指出了11个关键发现,这些发现揭示了这些方法在3个公开数据集上的根本局限性。我们的结果显示,调查中调查的任何方案都无法抵御所有测试的失真。这种评估提供了对当前水印方法在真实世界威胁下表现的全面看法。我们提供了演示和代码,可在 https://sokaudiowm.github.io/ 获取。