LLM2D

摘要

大型语言模型 (LLMs) 可能会记忆敏感或受版权保护的内容，从而引发隐私和法律问题。由于从头开始重新训练成本过高，研究人员试图采用机器遗忘来从 LLMs 中删除特定内容，同时保留整体性能。本文讨论了 LLM 机器遗忘中的几个问题，并对可能的方法提出了见解。为了解决遗忘后模型输出评估不足的问题，我们引入了三个额外的指标来评估词元多样性、句子语义和事实正确性。然后，我们将遗忘方法分为非目标遗忘和目标遗忘，并分别讨论了它们的问题。具体而言，非目标遗忘试图逼近的行为是不可预测的，可能涉及幻觉，而现有的正则化不足以用于目标遗忘。为了缓解这些问题，我们建议使用最大化熵 (ME) 的目标来进行非目标遗忘，并为目标遗忘加入答案保留 (AP) 损失作为正则化。在三种场景（即虚构遗忘、持续遗忘和真实世界遗忘）中的实验结果表明了我们方法的有效性。代码可在 https://github.com/sail-sg/closer-look-LLM-unlearning 获取。