LLM2D

摘要

我们证明了具有二次激活函数和 $L_2$ 损失的 2 层神经网络在阿贝尔群（例如模加）上的推理任务中训练得到的解空间的丰富代数结构。这种丰富的结构使得能够从仅满足部分损失的局部解中解析地构造全局最优解，尽管其具有高度的非线性。我们将该框架称为 CoGO（组合全局优化器）。具体来说，我们表明，2 层网络不同隐藏节点数量上的权重空间具有半环代数结构，并且要优化的损失函数由单项式势组成，这些势是环同态，允许通过环加法和乘法将局部解组合成全局解。我们的实验表明，约 95% 的梯度下降获得的解与我们的理论构造完全匹配。尽管构造的全局优化器只需要少量隐藏节点，但我们对梯度动力学的分析表明，过参数化渐进地解耦了训练动力学并且是有益的。我们进一步表明，训练动力学在权重衰减下有利于更简单的解，因此诸如完美记忆之类的更高阶全局优化器是不利的。