LLM2D

摘要

arXiv:2504.21239v1 类型: cross 摘要：当前大型语言模型（LLMs）在顺序添加新记忆和整合新知识方面存在局限性。这些限制与人类能够不断从新经验中学习并在生活中获取知识的能力形成鲜明对比。现有的大多数方法要么通过大上下文窗口，要么通过外部记忆缓冲区（例如检索增强生成）来添加记忆，关于知识注入的研究很少测试类似于日常生活的场景。在这项工作中，我们引入了一种连续学习框架，称为嵌入记忆在门控LLMs中的MEGa，该框架直接将事件记忆注入到LLMs的权重中。每个记忆都存储在一组专用的门控低秩权重中。在推理过程中，门控机制通过将查询嵌入与存储的记忆嵌入匹配来激活相关的记忆权重，这使得模型能够回忆完整的记忆并回答相关问题。在两个数据集——虚构角色和维基百科事件上，MEGa方法在减轻灾难性遗忘方面优于基准方法。我们的模型受到了人类大脑互补记忆系统的启发。