LLM2D

摘要

arXiv:2404.11577v3 通知类型: replace-cross 摘要：机器遗忘更新机器学习模型以删除特定训练样本中的信息，遵守允许个人请求删除其个人信息的数据保护法规。尽管已经开发了大量遗忘算法，但这些算法的可靠评估仍是一个开放的研究问题。在本文中，我们主要关注基于成员归属推理攻击（MIA）的评估，这是评估遗忘算法最常见的方法之一，并解决了现有评估指标缺乏理论理解和可靠性的各种问题。具体而言，通过将提出的评估过程建模为遗忘算法与MIA对手之间的\emph{密码学游戏}，自然诱导出的评估指标衡量了遗忘算法的数据删除效果，并享有现有评估指标无法满足的可证明保证。此外，我们提出了一种近似计算诱导出的评估指标的实际有效方法，并通过理论分析和实证实验证明了其效果。总体而言，本文提出了一个新颖且可靠的评估遗忘算法的实证方法，为开发更有效的遗忘技术奠定了基础。