摘要
arXiv:2501.13428v3 公告类型: replace-cross
摘要: 大型语言模型在近年来取得了显著的成功,主要归功于自注意力机制的应用。然而,传统的Softmax注意力在推理令牌长度增加时会遭受数值不稳定性和性能下降的问题。本文通过将Softmax操作分解为非线性变换和$l_1$范数来解决这些问题,并确定后者对于保持模型性能至关重要。通过用Softplus激活函数替换非线性变换,并根据不变熵引入不同令牌长度的动态标度因子,我们创造了一种新型的注意力机制,在各种推理长度下其性能优于传统的Softmax注意力。为了进一步提高所提出的注意力机制在长度外推上的能力,我们引入了一种新的权重重新加权机制,它可以放大重要的注意力权重同时减弱较弱的权重,从而使模型能够更有效地集中关注相关令牌。当与我们提出的注意力机制结合使用时,该方法可以在16倍于训练令牌长度的情况下几乎保持验证损失的恒定,确保数值稳定性,并在下游基准测试上取得优异的结果。