摘要
arXiv:2502.04390v1 通知类型: 横向
摘要:尽管拥有卓越的能力,大型语言模型(LLMs)在不断更新知识时往往会遇到灾难性遗忘的问题。相比之下,人类可以轻松地整合新信息,发现与现有信念冲突,并选择性地更新其心理模型。本论文引入了一种启发自认知的研究范式来探讨LLMs的连续知识更新。我们实现了两个关键的灵感来源于人类认知的组件:(1)不和谐与熟悉性意识,通过对模型行为的分析来将信息分类为新颖、熟悉的或不和谐的;(2)针对性网络更新,跟踪神经活动以识别频繁使用(顽固性)和很少使用(可塑性)的神经元。通过在受控环境中精心设计的实验,我们发现了一系列实证结果,展示了该方法的潜力。首先,使用简单的激活和梯度特征进行不和谐检测是可行的,这表明认知启发式训练的潜力。其次,我们发现非不和谐的更新大多保留了先前的知识,不论是否对这些更新进行了特定的目标策略。这揭示了LLMs知识整合中的内在稳健性。最关键的是,我们发现不和谐的更新在无差别地破坏模型的知识库的同时,会影响与当前更新无关的信息。这表明神经网络在处理矛盾时存在根本性的局限,从而强调了需要更接近人类认知机制的新方法来进行知识更新的必要性。