LLM2D

摘要

arXiv:2502.12851v1 论文类型: 交叉学科摘要: 记忆是基于Transformer的大型语言模型的一项基本能力，通过学习实现。在本文中，我们通过设计一种直接记忆文本的架构，提出了一个范式转变，牢记记忆先于学习的原则。我们介绍了MeMo，一种新型的语言模型架构，明确地在分层关联记忆中记住了令牌序列。通过设计，MeMo提供透明性，并允许对模型进行编辑，包括遗忘文本。我们对MeMo架构进行了实验，展示了单层和多层配置的记忆能力。