LLM2D
分布级特征距离:实现机器遗忘的更好权衡——在模型效用与遗忘之间的平衡
Distribution-Level Feature Distancing for Machine Unlearning: Towards a Better Trade-off Between Model Utility and Forgetting
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14747v2

摘要

随着深度学习应用的爆炸性增长,遗忘权在各个AI行业中的需求日益增加。例如,在一个人脸识别系统中,一些个人可能希望从训练好的模型中移除在训练阶段可能使用过的图像。不幸的是,现代深度神经网络有时会意外泄露个人身份。最近的研究提出了各种机器遗忘算法,使训练好的模型可以遗忘需要被忘记的数据。虽然这些方法通常在遗忘分数方面表现良好,但我们发现可能会出现意外的模型效用下降。这种现象,我们称之为关联崩溃,发生在机器遗忘算法减少了图像特征与真实标签之间的有用关联时。为了解决这一挑战,我们提出了分布级特征距离(DLFD),这是一种有效遗忘实例同时防止关联崩溃的新方法。我们的方法合成数据样本,使生成的数据分布在特征空间中远离被遗忘样本的分布,在单个训练周期内就能取得有效的结果。通过对人脸识别数据集的大量实验,我们证明了我们的方法显著优于最先进的机器遗忘方法。