LLM2D

摘要

推理系统的一个关键属性是能够对其输入数据做出明确的决策。对于当代人工智能系统而言，softmax 函数是明确行为的关键载体，它具有执行可微查询-键查找的能力。人们普遍认为，利用 softmax 的网络的预测能力源于“电路”，这些电路能够在许多不同的输入中始终如一地执行某些类型的计算。然而，为了使这些电路具有鲁棒性，它们需要很好地泛化到任意有效的输入。在本文中，我们揭穿了这种神话：即使对于像找到最大键这样简单的任务，任何学习到的电路都必须随着测试时项目数量的增长而分散。我们将此归因于 softmax 函数在稳健地逼近尖锐函数方面的基本局限性，从理论上证明了这种现象，并提出了自适应温度作为一种在推理时提高 softmax 尖锐度的临时技术。