摘要
大型语言模型(LLMs)由于知识错误或过时,经常出现幻觉现象。因此,模型编辑方法应运而生,旨在实现目标知识更新。为了实现这一目标,一种普遍的范式是定位-编辑方法,该方法首先定位有影响力的参数,然后通过引入扰动来编辑它们。虽然有效,但现有研究表明,这种扰动不可避免地会破坏 LLM 中最初保留的知识,尤其是在顺序编辑场景中。为了解决这个问题,我们引入了 AlphaEdit,这是一种新颖的解决方案,它在将扰动应用于参数之前,将其投影到保留知识的零空间上。我们从理论上证明,这种投影确保了经过编辑的 LLM 在查询保留知识时,其输出保持不变,从而减轻了破坏问题。在各种 LLM 上进行的广泛实验,包括 LLaMA3、GPT2-XL 和 GPT-J,表明 AlphaEdit 将大多数定位-编辑方法的性能平均提高了 36.4%,并且仅用一行额外的代码来进行投影。我们的代码可在以下网址获取:https://github.com/jianghoucheng/AlphaEdit。