LLM2D

摘要

arXiv:2504.13173v1 Archetype 类型: cross 摘要: 设计高效的架构骨干一直是增强基础模型能力研究的核心。受到人类认知现象中的注意力偏好的启发——自然倾向于优先处理某些事件或刺激——我们将包括变压器、泰坦和现代线性递归神经网络等神经架构重新构想为关联记忆模块，这些模块使用内部目标（称为注意力偏好）学习键值映射。令人惊讶的是，我们观察到大多数现有的序列模型要么利用（1）点积相似性，要么利用（2）L2 回归目标作为其注意力偏好。超越这些目标，我们提出了一组替代的注意力偏好配置及其有效的近似方法，以稳定其训练过程。随后，我们将现代深度学习架构中的遗忘机制重新解释为保留正则化的一种形式，提供了序列模型的一种新型遗忘门。基于这些洞察，我们提出了 Miras，一个基于四种选择的一般框架：（i）关联记忆架构，（ii）注意力偏好目标，（iii）保留门，以及（iv）记忆学习算法。我们介绍了三种新颖的序列模型——Moneta、Yaad 和 Memora，这些模型超越了现有线性递归模型的能力，同时保持了高效的并行训练过程。我们的实验表明，Miras 中的不同设计选择会产生具有不同优势的模型。例如，Miras 的某些实例在特定任务（如语言建模、常识推理和记忆密集型任务）中表现出色，甚至超过了变压器和其他现代线性递归模型。