LLM2D

摘要

arXiv:2501.19399v1 Announce Type: cross 摘要：Softmax函数输出向量的最大元素在输入向量大小增加时趋近于零。基于Transformers的语言模型依赖Softmax来计算注意力分数，导致随着上下文大小的增加，注意力分布趋于扁平化。这降低了模型有效优先处理关键信息的能力，并且可能限制其长度泛化能力。为解决这个问题，我们提出了Scalable-Softmax（SSMax），它可以在输入向量大小变化的情况下替代Softmax。SSMax可以无缝集成到现有的基于Transformers的架构中。在语言建模中的实验结果显示，使用SSMax的模型不仅在预训练过程中更快地降低损失，还在长上下文中以及关键信息检索方面显著提高了性能。此外，对注意力分数的分析表明，SSMax使模型即使在长上下文中也能够集中注意力于关键信息。另外，虽然从预训练开始就使用SSMax的模型在长度泛化方面表现更好，但已经开始了预训练的模型也可以通过在注意力层中用SSMax替换Softmax，要么在预训练期间，要么在预训练之后，获得部分这种能力。