LLM2D
大型语言模型机器遗忘机制的深入研究
A Closer Look at Machine Unlearning for Large Language Models
作者: Xiaojian Yuan, Tianyu Pang, Chao Du, Kejiang Chen, Weiming Zhang, Min Lin
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.08109v1

摘要

大型语言模型 (LLMs) 可能会记忆敏感或受版权保护的内容,从而引发隐私和法律问题。由于从头开始重新训练成本过高,研究人员试图采用机器遗忘来从 LLMs 中删除特定内容,同时保留整体性能。本文讨论了 LLM 机器遗忘中的几个问题,并对可能的方法提出了见解。为了解决遗忘后模型输出评估不足的问题,我们引入了三个额外的指标来评估词元多样性、句子语义和事实正确性。然后,我们将遗忘方法分为非目标遗忘和目标遗忘,并分别讨论了它们的问题。具体而言,非目标遗忘试图逼近的行为是不可预测的,可能涉及幻觉,而现有的正则化不足以用于目标遗忘。为了缓解这些问题,我们建议使用最大化熵 (ME) 的目标来进行非目标遗忘,并为目标遗忘加入答案保留 (AP) 损失作为正则化。在三种场景(即虚构遗忘、持续遗忘和真实世界遗忘)中的实验结果表明了我们方法的有效性。代码可在 https://github.com/sail-sg/closer-look-LLM-unlearning 获取。