摘要
arXiv:2403.06925v2 宣告类型:替换交叉
摘要:变换器在许多任务中实现了最先进的准确性和稳健性,但对其归纳偏差以及这些偏差与其他神经网络架构的差异仍然缺乏理解。在本文中,我们确定了模型对输入中令牌级别的随机扰动的敏感性作为一个统一的度量标准,它解释了变换器在不同数据模态下的归纳偏差,并使其与其他架构区分开来。我们展示了变换器在视觉和语言任务中比MLPs、CNNs、ConvMixers和LSTMs具有更低的敏感性。我们还展示了这种低敏感性偏见的重要影响:(i) 低敏感性与更好的稳健性相关;也可以作为一种高效的干预措施,进一步提高变换器的稳健性;(ii) 它对应于损失landscape中的更平坦的极小值;(iii) 它可以作为理解变换器掌握程度的指标。我们通过理论结果支持这些发现,显示了变换器在NTK范式下的(弱)谱偏置,并且由于低敏感性提高了稳健性。相关代码可在 https://github.com/estija/sensitivity 获取。