LLM2D

摘要

arXiv:2502.06049v1 Announce Type: cross 摘要：本文介绍了大型内存模型（LM2），这是一种增强有辅助内存模块的解码器-only Transformer 架构，旨在解决标准Transformer在多步推理、关系论证以及合成长上下文分布信息方面的局限性。所提出的LM2引入了一个内存模块，该模块充当上下文表示存储库，通过交叉注意力与输入令牌交互，并通过门控机制进行更新。为保持Transformer的一般用途能力，LM2保留了原始的信息流动，同时整合了一个互补的内存路径。在BABILong基准测试上的实验结果显示，LM2模型在任务上平均比内存增强的RMT模型高出37.1%，比基线Llama-3.2模型高出86.3%。LM2在多跳推理、数值推理和大规模上下文问答方面表现出色。在MMLU数据集上，它比预训练的vanilla模型提高了5.0%，证明了其内存模块在一般任务上不会降低性能。进一步地，在我们的分析中，我们探讨了内存解释性、内存模块的有效性以及测试时的行为。我们的发现强调了显式内存对增强Transformer架构的重要性。