LLM2D

摘要

arXiv:2502.14838v1 交叉公告类型摘要：大型语言模型在广泛的任务中表现出卓越的性能，但仍因训练数据中的错误知识而表现出一些不 desirable 的错误。为避免这种情况，出现了知识编辑方法，这些方法可以通过微量修改少量参数来精确编辑特定的模型知识。然而，这些方法可能会导致特定性失败的问题：当与编辑知识相关的內容出现在上下文中时，可能会无意中破坏其他已有的知识。然而，这些方法可能会导致特定性失败的问题，其中现有的知识和能力由于编辑而严重退化。我们的初步结果显示，特定性失败主要源于模型的注意力头对与编辑知识相关的实体分配了过高的注意力分数，从而不当关注上下文中的特定片段，我们称之为注意力漂移现象。为了缓解这种注意力漂移问题，我们提出了一种简单而有效的方法——选择性注意力漂移限制（SADR），该方法在知识编辑过程中引入了一个额外的正则化项，以限制注意力权重分布的变化，从而防止对编辑实体的不当关注。在五个常用的强大语言模型上的实验表明，我们的方法有效，SADR 可以显著缓解主要的知识编辑任务中的特定性失败。