摘要
arXiv:2502.02173v1 交叉公告类型:cross
摘要:近期研究探索了在大型语言模型中更新和修改事实性知识的方法,通常侧重于特定的多层感知机块。这项研究在此基础上进一步探讨了现有知识编辑方法在不同语言中的有效性,并深入研究了注意力机制在这一过程中的作用。借鉴这些洞察,我们提出了基于注意力的大规模编辑记忆在变换器中的方法(MEMAT),该方法在所有指标上都实现了显著改进,同时只需要进行少量参数修改。MEMAT 在量值指标上实现了惊人的 10% 的提升,受益于不在训练数据中包含的语言,并且展示了高度的可移植性。我们的代码和数据可在 https://github.com/dtamayo-nlp/MEMAT 获取。