摘要
arXiv:2504.02827v1 声明类型:交叉
摘要:众所周知,在短序列上训练的Transformer在测试时难以稳健地推广到长序列。这引发了这样一个问题:尽管Transformer在数学问题解决和代码合成方面表现出色,它们是否真的是推理引擎。在这篇论文中,我们从消失方差的角度提出了对这一问题的见解。据我们所知,我们是第一个证明即使对于当今最前沿的模型,序列长度增加会导致多头注意力模块输出方差的减少。在argmax检索和字典查找任务中,我们的实验显示,将在注意力输出后应用层归一化会导致长度推广显著改善。我们对这一改进的解释归因于由消失方差引起的数据分布偏移的减少,而非完全消除。