LLM2D
sigmoid 自注意力比软注意力更好:从专家混合的视角
Sigmoid Self-Attention is Better than Softmax Self-Attention: A Mixture-of-Experts Perspective
作者: Fanqi Yan, Huy Nguyen, Pedram Akbarian, Nhat Ho, Alessandro Rinaldo
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00281v1

摘要

arXiv:2502.00281v1 类型: cross 摘要:Transformer 架构的核心是自注意力机制,该机制动态地为每个输入标记分配softmax权重,使模型能够集中于最相关的部分。然而,softmax结构由于其行向量性质而会使注意力计算变慢,并且固有地在标记之间引入了竞争:当一个标记被赋予的权重增加时,其他标记的权重会下降。这种竞争动态可能会使自注意力将焦点限制在有限的功能集上,有可能忽视其他信息特征。最近的实验研究表明,使用元素级Sigmoid函数可以帮助消除标记间的竞争并减少计算开销。尽管这些实验证据显示了积极的结果,但在文献中关于Sigmoid与softmax自注意力机制之间的严格比较仍然缺失。本文通过理论上证明Sigmoid自注意力机制比softmax自注意力机制更具样本效率来弥补这一空白。为此,我们展示了自注意力矩阵的每一行都可以表示为专家的混合模型。我们的分析表明,在Sigmoid自注意力机制中的“专家”比softmax自注意力机制中的“专家”需要显著少的数据来达到相同的逼近误差。通过在合成和真实世界数据集上的大量实验,我们验证了我们的理论发现。