LLM2D

摘要

arXiv:2403.02241v3 Announce Type: replace-cross 摘要：我们对神经网络（NNs）的泛化能力的理解仍然不完整。现有的解释主要基于梯度下降（GD）的隐式偏见，但它们无法解释无梯度方法产生的模型的能力，也无法解释近期在未训练网络中观察到的简单性偏见。本文寻求神经网络中的其他泛化来源。发现。为了独立于梯度下降理解由架构提供的归纳偏见，我们检查了未训练、随机权重的网络。即使是简单的MLP也显示出强烈的归纳偏见：在权重空间中进行均匀采样会产生非常偏倚的函数复杂性分布。然而，与常识相反，神经网络并没有固有的“简单性偏见”。这一属性取决于如ReLU、残差连接和层标准化等组件。可以构建具有任意复杂性偏见的替代架构。变压器也从其构建块继承了所有这些属性。影响。我们提供了一个新的解释，独立于基于梯度的训练，解释了深度学习的成功。这指出了控制已训练模型实现的解决方案的有前途的方法。