LLM2D

摘要

ReLU 网络是多胞形上的分段线性函数。弄清楚这类多胞形的性质对于神经网络的研究和发展至关重要。迄今为止，关于多胞形的理论或实证研究仅停留在计数其数量的层面，这远非完整的刻画。在这里，我们建议通过多胞形的面的数量来研究多胞形的形状。然后，通过计算和分析多胞形上面的直方图，我们发现，尽管这些多胞形可以通过特定设计变得相当多样化和复杂，但在初始化和梯度下降下，ReLU 网络具有相对简单的多胞形。这一发现可以被理解为一种广义的隐式偏差，服从于 ReLU 网络空间划分中的内在几何约束。接下来，我们进行组合分析，通过用维度限制多胞形的平均面数来解释为什么增加深度不会产生更复杂的多胞形。我们的结果具体揭示了网络学习什么样的简单函数以及网络深度增加时会发生什么。此外，通过刻画多胞形的形状，面的数量可以成为其他问题的新的杠杆，例如，作为解释流行的快捷网络（如 ResNet）能力的通用工具，以及分析不同正则化策略对网络空间划分的影响。