LLM2D
遗忘还是不遗忘?面向大型语言模型的实用知识遗忘
To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models
作者: Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2407.01920v2

摘要

在海量语料库上训练的大型语言模型 (LLM) 不可避免地会保留敏感数据,例如个人隐私信息和版权材料。知识遗忘的最新进展涉及更新 LLM 参数以消除特定知识。然而,当前的遗忘范式陷于模糊的遗忘边界,经常不加区别地消除知识。在这项工作中,我们介绍了 KnowUnDo,这是一个包含版权内容和用户隐私领域的基准,用于评估遗忘过程是否会无意中消除必要知识。我们的研究结果表明,现有的遗忘方法往往会过度遗忘。为了解决这个问题,我们提出了一种简单但有效的方法 MemFlex,它利用梯度信息来精确地定位和遗忘敏感参数。实验结果表明,MemFlex 在精确知识遗忘和 LLM 的一般知识保留方面均优于现有方法。代码和数据集已发布在 https://github.com/zjunlp/KnowUnDo。