摘要
arXiv:2502.06049v1 Announce Type: cross
摘要:本文介绍了大型内存模型(LM2),这是一种增强有辅助内存模块的解码器-only Transformer 架构,旨在解决标准Transformer在多步推理、关系论证以及合成长上下文分布信息方面的局限性。所提出的LM2引入了一个内存模块,该模块充当上下文表示存储库,通过交叉注意力与输入令牌交互,并通过门控机制进行更新。为保持Transformer的一般用途能力,LM2保留了原始的信息流动,同时整合了一个互补的内存路径。在BABILong基准测试上的实验结果显示,LM2模型在任务上平均比内存增强的RMT模型高出37.1%,比基线Llama-3.2模型高出86.3%。LM2在多跳推理、数值推理和大规模上下文问答方面表现出色。在MMLU数据集上,它比预训练的vanilla模型提高了5.0%,证明了其内存模块在一般任务上不会降低性能。进一步地,在我们的分析中,我们探讨了内存解释性、内存模块的有效性以及测试时的行为。我们的发现强调了显式内存对增强Transformer架构的重要性。