LLM2D

摘要

arXiv:2501.19403v1 宣告类型: cross 摘要: 机器遗忘旨在系统地从训练模型中移除指定的数据，实际上在训练过程中仿佛这些数据从未出现过。虽然诸如遗忘准确度（UA）和成员推断攻击（MIA）等指标为评估遗忘性能提供了基准，但它们在评估遗忘的完整性和可靠性方面存在不足。这是因为地真相 labels 仍然在不确定性量化范围内作为潜在候选，留下了对真正遗忘评估中的空白。在本文中，我们指出了现有遗忘度量的关键局限性，并提出了受符合性预测启发的增强评估指标。我们的指标能够有效地捕捉地真相 labels 被排除出预测集的程度。此外，我们观察到，在使用我们新提出的指标评估时，许多现有的机器遗忘方法并未达到令人满意的遗忘性能。为了解决这个问题，我们提出了一种集成 Carlini & Wagner 对抗性攻击损失的遗忘框架，结合符合性预测见解。在图像分类任务上的大量实验表明，我们的增强指标为遗忘效果提供了更深入的洞察，并且我们的遗忘框架显著提高了遗忘方法的遗忘质量。