LLM2D
分布级特征距离:机器遗忘中模型效用与遗忘之间的更优权衡
Distribution-Level Feature Distancing for Machine Unlearning: Towards a Better Trade-off Between Model Utility and Forgetting
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14747v1

摘要

arXiv:2409.14747v1 公告类型: 交叉 摘要: 随着深度学习应用的爆炸性增长,“被遗忘权”在各种人工智能行业中变得越来越重要。例如,在人脸识别系统中,某些个人可能希望从训练模型中移除在训练阶段可能使用过的图像。不幸的是,现代深度神经网络有时会意外泄露个人身份。最近的研究提出了各种机器遗忘算法,使训练模型能够遗忘需要被遗忘的数据。尽管这些方法在遗忘分数方面通常表现良好,但我们发现可能会出现意外的模型效用下降。这种现象,我们称之为相关性崩溃,发生在机器遗忘算法减少了图像特征与真实标签之间有用相关性的时候。为了应对这一挑战,我们提出了分布级特征距离(DLFD),这是一种新颖的方法,能够在有效遗忘实例的同时防止相关性崩溃。我们的方法通过合成数据样本,使得生成的数据分布在特征空间中远离被遗忘样本的分布,从而在一个训练周期内实现有效结果。通过对人脸识别数据集的广泛实验,我们证明了我们的方法显著优于最先进的机器遗忘方法。