摘要
arXiv:2406.17216v2 通知类型: 替换-交叉
摘要:我们重新评估了几种为大规模深度学习开发的近似机器遗忘实用方法的有效性。除了遵守数据删除请求外,遗忘方法的一个经常被引用的应用是去除被污染数据的影响。我们实验证明,虽然现有的遗忘方法在多个设置中已被证明是有效的,但它们未能在各种类型的污染攻击(不分青红皂白的、定向的以及新引入的高斯污染攻击)和模型(图像分类器和LLM)中去除数据污染的影响;即使是在获得相当大的计算预算的情况下。为了精确地表征遗忘效果,我们基于数据污染引入了新的遗忘评估指标。我们的结果显示,为了在没有证明性保证的情况下避免对深度学习中的机器遗忘程序产生虚假的信任感,需要更广泛的观点,并且包括更广泛的评估。此外,尽管遗忘方法显示出一些有效的迹象,可以通过不重新训练来高效地去除污染数据,但我们的研究表明,这些方法目前还不“准备好应对挑战”,并且相对于重新训练目前提供的益处有限。