摘要
大型语言模型(LLM)随着时间的推移可能会变得过时,因为它们可能缺乏更新的知识,从而导致事实性知识错误和缺失。知识编辑(KE)旨在通过无需昂贵重新训练的权重更新来克服这一挑战。我们建议将 KE 视为一个 LLM 对齐问题。为了实现这一目标,我们引入了知识直接偏好优化 (KDPO),这是直接偏好优化 (DPO) 的一种变体,更有效地进行知识修改。我们的方法基于一种在线方法,该方法持续更新存储在模型中的知识。我们在一个称为 DPO 的过程中使用当前知识作为负样本,使用我们想要引入的新知识作为正样本。我们还使用教师强迫进行负样本生成,并使用正样本进行优化,这有助于保持局部变化。我们在各种数据集和模型上测试了我们的 KE 方法,将其与几种最先进的方法进行了比较,其中包含 100 和 500 个顺序编辑。此外,我们进行了一项消融研究,将我们的方法与标准 DPO 方法进行了比较。我们的实验结果表明,我们改进的 DPO 方法允许更精细的 KE,与之前的方法相比,取得了相似或更好的性能。