LLM2D

摘要

推理系统的一个关键属性是对输入数据做出明确的决策。对于当代人工智能系统而言，softmax 函数是实现明确行为的关键载体，它能够执行可微查询-键查找。人们普遍认为，利用 softmax 的网络的预测能力源于“电路”，这些电路能够在许多不同的输入中始终如一地执行特定类型的计算。然而，为了使这些电路具有鲁棒性，它们需要很好地泛化到任意有效的输入。在本文中，我们揭穿了这一神话：即使对于像寻找最大键这样简单的任务，任何学习到的电路都必须随着测试时项数的增加而分散。我们将此归因于 softmax 函数在鲁棒地逼近尖锐函数方面的基本局限性，从理论上证明了这种现象，并提出了自适应温度作为一种在推理时提高 softmax 锐度的临时技术。