LLM2D

摘要

arXiv:2501.12352v2 通告类型: 替换-交叉摘要：序列模型是现代深度学习的核心。然而，快速的发展产生了一种看似无关的架构多样性，例如Transformer和循环替代架构。在本文中，我们引入了一个统一框架来理解并推导这些序列模型，该框架受到关联记忆检索经验重要性的启发，即检索上下文相关令牌的能力。我们将关联记忆检索形式化为两步过程，记忆和检索，将记忆形式化为一个回归问题。结合这两步的层通过“测试时回归”在其输入令牌上执行关联记忆检索。包括线性注意、状态空间模型、快速权重编程器、在线学习者和softmax注意在内的显着层作为由三个设计选择定义的特殊情况出现：回归权重、回归器函数类和测试时优化算法。我们的方法澄清了线性注意无法捕捉令牌间相关性的原因，并为softmax注意中查询-键规范化经验上的有效性提供了数学上的解释。此外，它揭示了设计空间中未被探索的区域，我们利用这些区域推导出softmax注意的新颖的高阶推广。超越统一，我们的工作将序列建模与经典的回归方法联系起来，这是一个具有丰富文献的领域，为我们开发更强大和更具理论依据的架构铺平了道路。