LLM2D

摘要

arXiv:2501.12352v3 宣告类型: replace-cross 摘要：序列模型是现代深度学习的核心。然而，快速的发展产生了许多看似无关的架构，如变压器和循环替代模型。在本文中，我们提出了一种统一的框架来理解并推导这些序列模型，该框架受到关联回忆经验重要性的启发，这是检索相关上下文令牌的能力。我们将关联回忆形式化为两步过程：记忆和检索，将记忆形式化为回归问题。能够结合这两步的层通过“测试时回归”其输入令牌的方式执行关联回忆。包含线性注意力、状态空间模型、快速权重程序员、在线学习器和 softmax 注意力在内的知名层作为由三种设计选择定义的特殊情况出现：回归权重、回归函数类和测试时优化算法。我们的方法澄清了线性注意力如何未能捕捉到令牌间相关性，并为 softmax 注意力中查询键规范化的经验有效性提供了数学上的解释。此外，它揭示了设计空间中的未开发领域，我们利用这些领域来推导出 softmax 注意力的新颖的高阶推广。除了统一之外，我们的工作还将序列建模与具有丰富文献的经典回归方法领域联系起来，为开发更强大和理论上有原则的架构铺平了道路。