LLM2D

摘要

在海量语料库上训练的大型语言模型 (LLM) 不可避免地会保留敏感数据，例如个人隐私信息和版权材料。知识遗忘的最新进展涉及更新 LLM 参数以消除特定知识。然而，当前的遗忘范式陷于模糊的遗忘边界，经常不加区别地消除知识。在这项工作中，我们介绍了 KnowUnDo，这是一个包含版权内容和用户隐私领域的基准，用于评估遗忘过程是否会无意中消除必要知识。我们的研究结果表明，现有的遗忘方法往往会过度遗忘。为了解决这个问题，我们提出了一种简单但有效的方法 MemFlex，它利用梯度信息来精确地定位和遗忘敏感参数。实验结果表明，MemFlex 在精确知识遗忘和 LLM 的一般知识保留方面均优于现有方法。代码和数据集已发布在 https://github.com/zjunlp/KnowUnDo。