LLM2D
门控即是加权:通过增量学习理解门控线性注意力
Gating is Weighting: Understanding Gated Linear Attention through In-context Learning
作者: Yingcong Li, Davoud Ataee Tarzanagh, Ankit Singh Rawat, Maryam Fazel, Samet Oymak
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04308v1

摘要

arXiv:2504.04308v1 类型:交叉 摘要:线性注意力方法由于在递归解码中的高效性,为softmax注意力提供了一种有吸引力的替代方案。近期的研究重点关注通过引入门控机制来增强标准线性注意力,同时保留其计算优势。这样的门控线性注意力(GLA)架构包括具有竞争力的模型,如Mamba和RWKV。在这项工作中,我们研究了GLA模型的上下文学习能力,并做出了以下贡献。我们展示了多层GLA可以实现具有数据依赖权重的一般类加权预条件梯度下降(WPGD)算法。这些权重由门控机制和输入诱导,使模型能够控制预测中各个令牌的贡献。为了更深入地理解这种权重的作用机制,我们引入了一种新的多任务提示数据模型,并对其学习WPGD算法的优化景观进行了描述。在温和的条件下,我们建立了全局最小值的存在性和唯一性(至比例缩放),对应于唯一的WPGD解。最后,我们将这些发现应用于探讨GLA的优化景观,并揭示门控如何促进上下文感知学习,以及它在何种情况下可证明优于常规线性注意力。