LLM2D
从密码学角度看缓解与检测在机器学习中的应用
A Cryptographic Perspective on Mitigation vs. Detection in Machine Learning
作者: Greg Gluch, Shafi Goldwasser
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20310v1

摘要

arXiv:2504.20310v1 安全类型: 横跨领域 摘要: 在本文中,我们发起了一种以密码学为导向的理论研究,探讨在机器学习算法推断过程中攻击者生成的对抗性输入时,检测对抗性输入与对其进行缓解的防御之间的差异。 我们正式定义了由检测防御 (DbD) 和由缓解防御 (DbM)。我们的定义以两个资源受限当事方之间的三轮协议形式给出:训练员/防御者和攻击者。攻击者的目标是在推断过程中生成能够迷惑训练算法的输入。我们定义了正确性、完整性以及稳健性属性,以捕捉推断过程中成功的防御,同时不会过度损害算法在训练分布输入上的性能。 我们首先展示了实现 DbD 和实现 DbM 在机器学习分类任务中是等价的。令人惊讶的是,在机器学习生成学习任务中,情况并非如此,因为每个输入可以生成许多正确输出。我们通过展示一个生成学习任务来区分 DbD 和 DbM,该任务在假设有基于身份的全同态加密 (IB-FHE)、公开可验证的零知识精简非交互式知识论据 (zk-SNARK) 和强不可伪造签名的情况下,可以证明通过缓解防御是可以实现的,但通过检测防御是不可能实现的。缓解阶段使用远少于初始训练算法的样本。