摘要
推理系统的一个关键属性是能够对其输入数据做出明确的决策。对于当代人工智能系统而言,softmax 函数是明确行为的关键载体,它具有执行可微查询-键查找的能力。人们普遍认为,利用 softmax 的网络的预测能力源于“电路”,这些电路能够在许多不同的输入中始终如一地执行某些类型的计算。然而,为了使这些电路具有鲁棒性,它们需要很好地泛化到任意有效的输入。在本文中,我们揭穿了这种神话:即使对于像找到最大键这样简单的任务,任何学习到的电路都必须随着测试时项目数量的增长而分散。我们将此归因于 softmax 函数在稳健地逼近尖锐函数方面的基本局限性,从理论上证明了这种现象,并提出了自适应温度作为一种在推理时提高 softmax 尖锐度的临时技术。