LLM2D
softmax 不足以应对(尖锐的)分布外数据
softmax is not enough (for sharp out-of-distribution)
作者: Petar Veli\v{c}kovi\'c, Christos Perivolaropoulos, Federico Barbero, Razvan Pascanu
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.01104v2

摘要

推理系统的一个关键属性是对输入数据做出明确的决策。对于当代人工智能系统而言,softmax 函数是实现明确行为的关键载体,它能够执行可微查询-键查找。人们普遍认为,利用 softmax 的网络的预测能力源于“电路”,这些电路能够在许多不同的输入中始终如一地执行特定类型的计算。然而,为了使这些电路具有鲁棒性,它们需要很好地泛化到任意有效的输入。在本文中,我们揭穿了这一神话:即使对于像寻找最大键这样简单的任务,任何学习到的电路都必须随着测试时项数的增加而分散。我们将此归因于 softmax 函数在鲁棒地逼近尖锐函数方面的基本局限性,从理论上证明了这种现象,并提出了自适应温度作为一种在推理时提高 softmax 锐度的临时技术。