LLM2D
PRUNE:一种基于 patching 的修复框架,用于神经网络的可验证忘记
PRUNE: A Patching Based Repair Framework for Certiffable Unlearning of Neural Networks
作者: Xuran Li, Jingyi Wang, Xiaohan Yuan, Peixin Zhang, Zhan Qin, Zhibo Wang, Kui Ren
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06520v1

摘要

arXiv:2505.06520v1 Announce Type: cross 摘要:从训练好的神经网络模型中移除(即遗忘)特定部分的训练数据往往是有益的。一个典型的应用场景是为了保护数据持有者的被遗忘权,这已经被许多最近的法规推广。现有的遗忘方法通常涉及使用剩余数据训练替代模型,这从数据持有者或第三方审计师的角度来看可能会很昂贵且难以验证。在本文中,我们提供了一个新的视角,并提出了一种新的遗忘方法,通过在原始神经网络上施加精心设计的“补丁”来实现对要求删除的数据的有针对性的“遗忘”。具体来说,受到神经网络修复研究线的启发,我们提出了一种战略性的方法,以有可验证保证的方式为给定的数据点寻找一个轻量级的最小“补丁”进行遗忘。此外,为了遗忘大量的数据点(或整个类别),我们提出了一种迭代选择少量代表性数据点进行遗忘的方法,从而实现整个集合的遗忘效果。在多个类别数据集上的广泛实验表明了我们方法的有效性,实现了可测量的遗忘效果同时保持模型的性能,并且在效率和内存消耗方面与各种基线方法具有竞争力。