LLM2D
善、恶与丑:水印、可转移攻击和对抗防御
The Good, the Bad and the Ugly: Watermarks, Transferable Attacks and Adversarial Defenses
作者: Grzegorz G{\l}uch, Berkant Turan, Sai Ganesh Nagarajan, Sebastian Pokutta
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08864v1

摘要

我们将现有的基于后门的**水印**和**对抗防御**定义形式化并扩展为两个参与者之间的交互协议。这些方案的存在本质上与它们所针对的学习任务相关联。我们的主要结果表明,对于几乎所有判别式学习任务,至少存在两种方案之一:**水印**或**对抗防御**。“几乎所有”一词表示我们还识别出第三种方案,它既反直觉又必要,即我们称之为可转移攻击的方案。通过可转移攻击,我们指的是一种高效算法,该算法计算出的查询与数据分布看起来无法区分,并且可以欺骗所有高效的防御者。为此,我们通过使用名为同态加密的加密工具的构建来证明可转移攻击的必要性。此外,我们证明任何满足我们对可转移攻击的定义的任务都隐含着一个加密原语,因此需要底层任务具有计算复杂度。这两个事实意味着可转移攻击的存在与密码学之间的“等价性”。最后,我们证明了有界 VC 维的任务类具有对抗防御,而它们的一个子类具有**水印**。