LLM2D
大型语言模型手术:在大型语言模型中实现高效的知识遗忘与编辑
LLM Surgery: Efficient Knowledge Unlearning and Editing in Large Language Models
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2409.13054v1

摘要

大型语言模型(LLMs)在多个领域引发了革命性变革,但其效用伴随着预训练过程中嵌入的过时或问题知识所带来的重大挑战。本文针对修改LLMs以遗忘问题和过时信息,同时高效整合新知识而不需从头再训练的挑战。在此,我们提出LLM手术框架,通过优化一个包含三个组件的目标函数来高效修改LLM行为:(1)对遗忘数据集(问题和过时信息)执行反向梯度;(2)对更新数据集(新信息)执行梯度下降;(3)最小化保留数据集(未变文本的小子集)上的KL散度,确保预训练模型与修改后模型输出的一致性。由于缺乏专门针对我们新任务的公开数据集,我们编译了一个新数据集和一个评估基准。使用Llama2-7B,我们展示了LLM手术能够在遗忘集上实现显著遗忘,更新集上准确率提升20%,并保持保留集上的性能。