LLM2D

摘要

arXiv:2504.04308v1 类型:交叉摘要:线性注意力方法由于在递归解码中的高效性，为softmax注意力提供了一种有吸引力的替代方案。近期的研究重点关注通过引入门控机制来增强标准线性注意力，同时保留其计算优势。这样的门控线性注意力(GLA)架构包括具有竞争力的模型，如Mamba和RWKV。在这项工作中，我们研究了GLA模型的上下文学习能力，并做出了以下贡献。我们展示了多层GLA可以实现具有数据依赖权重的一般类加权预条件梯度下降(WPGD)算法。这些权重由门控机制和输入诱导，使模型能够控制预测中各个令牌的贡献。为了更深入地理解这种权重的作用机制，我们引入了一种新的多任务提示数据模型，并对其学习WPGD算法的优化景观进行了描述。在温和的条件下，我们建立了全局最小值的存在性和唯一性（至比例缩放），对应于唯一的WPGD解。最后，我们将这些发现应用于探讨GLA的优化景观，并揭示门控如何促进上下文感知学习，以及它在何种情况下可证明优于常规线性注意力。