LLM2D

摘要

arXiv:2504.20310v1 安全类型: 横跨领域摘要: 在本文中，我们发起了一种以密码学为导向的理论研究，探讨在机器学习算法推断过程中攻击者生成的对抗性输入时，检测对抗性输入与对其进行缓解的防御之间的差异。我们正式定义了由检测防御 (DbD) 和由缓解防御 (DbM)。我们的定义以两个资源受限当事方之间的三轮协议形式给出：训练员/防御者和攻击者。攻击者的目标是在推断过程中生成能够迷惑训练算法的输入。我们定义了正确性、完整性以及稳健性属性，以捕捉推断过程中成功的防御，同时不会过度损害算法在训练分布输入上的性能。我们首先展示了实现 DbD 和实现 DbM 在机器学习分类任务中是等价的。令人惊讶的是，在机器学习生成学习任务中，情况并非如此，因为每个输入可以生成许多正确输出。我们通过展示一个生成学习任务来区分 DbD 和 DbM，该任务在假设有基于身份的全同态加密 (IB-FHE)、公开可验证的零知识精简非交互式知识论据 (zk-SNARK) 和强不可伪造签名的情况下，可以证明通过缓解防御是可以实现的，但通过检测防御是不可能实现的。缓解阶段使用远少于初始训练算法的样本。