LLM2D
WISE:重新思考大型语言模型终身模型编辑的知识记忆
WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models
作者: Peng Wang, Zexi Li, Ningyu Zhang, Ziwen Xu, Yunzhi Yao, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2405.14768v2

摘要

大型语言模型 (LLM) 需要知识更新来满足不断增长的世界事实并纠正幻觉响应,促进终身模型编辑方法的发展。更新后的知识存储在内存中的位置是模型编辑的基本问题。在本文中,我们发现编辑长期记忆(直接模型参数)或工作记忆(通过检索的神经网络激活/表示的非参数知识)会导致不可能三角——可靠性、泛化性和局部性无法在终身编辑设置中同时实现。对于长期记忆,直接编辑参数会导致与无关的预训练知识或之前的编辑冲突(可靠性和局部性差)。对于工作记忆,基于检索的激活很难让模型理解编辑并进行泛化(泛化性差)。因此,我们提出了 WISE 来弥合记忆之间的差距。在 WISE 中,我们设计了一种双参数记忆方案,包括用于预训练知识的主记忆和用于编辑知识的侧记忆。我们只编辑侧记忆中的知识,并训练一个路由器来决定在给定查询时通过哪个记忆。对于持续编辑,我们设计了一种知识分片机制,其中不同的编辑集驻留在参数的不同子空间中,并随后合并到一个共享记忆中,而不会发生冲突。大量实验表明,WISE 可以在问答、幻觉和分布外设置的终身模型编辑下,超越之前的模型编辑方法,克服不可能三角,涵盖 GPT、LLaMA 和 Mistral 等流行的 LLM 架构。代码可在 https://github.com/zjunlp/EasyEdit 获得。