摘要
arXiv:2501.12352v2 通告类型: 替换-交叉
摘要:序列模型是现代深度学习的核心。然而,快速的发展产生了一种看似无关的架构多样性,例如Transformer和循环替代架构。在本文中,我们引入了一个统一框架来理解并推导这些序列模型,该框架受到关联记忆检索经验重要性的启发,即检索上下文相关令牌的能力。我们将关联记忆检索形式化为两步过程,记忆和检索,将记忆形式化为一个回归问题。结合这两步的层通过“测试时回归”在其输入令牌上执行关联记忆检索。包括线性注意、状态空间模型、快速权重编程器、在线学习者和softmax注意在内的显着层作为由三个设计选择定义的特殊情况出现:回归权重、回归器函数类和测试时优化算法。我们的方法澄清了线性注意无法捕捉令牌间相关性的原因,并为softmax注意中查询-键规范化经验上的有效性提供了数学上的解释。此外,它揭示了设计空间中未被探索的区域,我们利用这些区域推导出softmax注意的新颖的高阶推广。超越统一,我们的工作将序列建模与经典的回归方法联系起来,这是一个具有丰富文献的领域,为我们开发更强大和更具理论依据的架构铺平了道路。