LLM2D

摘要

arXiv:2502.00281v1 类型: cross 摘要：Transformer 架构的核心是自注意力机制，该机制动态地为每个输入标记分配softmax权重，使模型能够集中于最相关的部分。然而，softmax结构由于其行向量性质而会使注意力计算变慢，并且固有地在标记之间引入了竞争：当一个标记被赋予的权重增加时，其他标记的权重会下降。这种竞争动态可能会使自注意力将焦点限制在有限的功能集上，有可能忽视其他信息特征。最近的实验研究表明，使用元素级Sigmoid函数可以帮助消除标记间的竞争并减少计算开销。尽管这些实验证据显示了积极的结果，但在文献中关于Sigmoid与softmax自注意力机制之间的严格比较仍然缺失。本文通过理论上证明Sigmoid自注意力机制比softmax自注意力机制更具样本效率来弥补这一空白。为此，我们展示了自注意力矩阵的每一行都可以表示为专家的混合模型。我们的分析表明，在Sigmoid自注意力机制中的“专家”比softmax自注意力机制中的“专家”需要显著少的数据来达到相同的逼近误差。通过在合成和真实世界数据集上的大量实验，我们验证了我们的理论发现。