摘要
arXiv:2403.02241v3 Announce Type: replace-cross
摘要:我们对神经网络(NNs)的泛化能力的理解仍然不完整。现有的解释主要基于梯度下降(GD)的隐式偏见,但它们无法解释无梯度方法产生的模型的能力,也无法解释近期在未训练网络中观察到的简单性偏见。本文寻求神经网络中的其他泛化来源。
发现。为了独立于梯度下降理解由架构提供的归纳偏见,我们检查了未训练、随机权重的网络。即使是简单的MLP也显示出强烈的归纳偏见:在权重空间中进行均匀采样会产生非常偏倚的函数复杂性分布。然而,与常识相反,神经网络并没有固有的“简单性偏见”。这一属性取决于如ReLU、残差连接和层标准化等组件。可以构建具有任意复杂性偏见的替代架构。变压器也从其构建块继承了所有这些属性。
影响。我们提供了一个新的解释,独立于基于梯度的训练,解释了深度学习的成功。这指出了控制已训练模型实现的解决方案的有前途的方法。