LLM2D
测试时回归:一种基于关联记忆设计序列模型的统一框架
Test-time regression: a unifying framework for designing sequence models with associative memory
作者: Ke Alexander Wang, Jiaxin Shi, Emily B. Fox
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2501.12352v2

摘要

arXiv:2501.12352v2 通告类型: 替换-交叉 摘要:序列模型是现代深度学习的核心。然而,快速的发展产生了一种看似无关的架构多样性,例如Transformer和循环替代架构。在本文中,我们引入了一个统一框架来理解并推导这些序列模型,该框架受到关联记忆检索经验重要性的启发,即检索上下文相关令牌的能力。我们将关联记忆检索形式化为两步过程,记忆和检索,将记忆形式化为一个回归问题。结合这两步的层通过“测试时回归”在其输入令牌上执行关联记忆检索。包括线性注意、状态空间模型、快速权重编程器、在线学习者和softmax注意在内的显着层作为由三个设计选择定义的特殊情况出现:回归权重、回归器函数类和测试时优化算法。我们的方法澄清了线性注意无法捕捉令牌间相关性的原因,并为softmax注意中查询-键规范化经验上的有效性提供了数学上的解释。此外,它揭示了设计空间中未被探索的区域,我们利用这些区域推导出softmax注意的新颖的高阶推广。超越统一,我们的工作将序列建模与经典的回归方法联系起来,这是一个具有丰富文献的领域,为我们开发更强大和更具理论依据的架构铺平了道路。