LLM2D
在初始化和训练过程中迫使 ReLU 网络展现指数级数量的线性区域
Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
作者: Max Milkert, David Hyde, Forrest Laine
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2311.18022v4

摘要

具有 ReLU 激活的神经网络可以被视为分段线性函数的组合。对于这类网络,在输入域上表达的不同线性区域的数量可能随着深度呈指数增长,但在初始参数随机选择时,这种情况并不预期发生。因此,即使在逼近简单函数时,随机初始化的模型也往往过大。为了解决这个问题,我们提出了一种新颖的训练策略:我们首先以一种强制网络表现出指数于深度的线性区域数量的方式重新参数化网络权重。首先使用我们推导出的参数进行训练,可以提供一个初始解,然后可以通过直接更新底层模型权重来对其进行细化。这种方法使我们能够学习凸的一维函数的近似值,这些近似值的精度比随机初始化的对应函数高几个数量级。我们进一步展示了如何将我们的方法扩展到多维和非凸函数,并观察到类似的优势。