摘要
尽管模型编辑方法取得了重大进展,但在实际应用中仍然面临挑战,因为它们常常会导致大型语言模型(LLMs)崩溃。其中,ROME 尤其令人担忧,因为它可能仅通过一次编辑就破坏 LLMs。本文研究了这种崩溃的根本原因。通过大量分析,我们确定了导致崩溃的两个主要因素:i)参数更新方程中对带前缀和不带前缀键的不一致处理会导致非常小的分母,从而导致过大的参数更新;ii)崩溃案例的主题通常是第一个标记,其不带前缀键分布与自回归变换器中的带前缀键分布显著不同,导致上述问题出现。为了验证我们的发现,我们提出了一种简单但有效的方法:在编辑阶段统一使用带前缀的键,并在测试阶段添加前缀,以确保训练和测试之间的一致性。实验结果表明,所提出的解决方案可以防止模型崩溃,同时保持编辑的有效性。