LLM2D
训练后的两层 ReLU 网络在回归问题上的良性过拟合现象
Benign Overfitting for Regression with Trained Two-Layer ReLU Networks
作者: Junhyung Park, Patrick Bloebaum, Shiva Prasad Kasiviswanathan
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06191v1

摘要

我们研究了由梯度流训练的具有 ReLU 激活函数的两层全连接神经网络的最小二乘回归问题。我们的第一个结果是一个泛化结果,它对底层回归函数或噪声没有其他假设,除了它们是有界的。我们在神经切线核机制下进行操作,并且我们的泛化结果是通过将超额风险分解为估计误差和逼近误差而得到的,将梯度流视为一种隐式正则化器。这种在神经网络背景下的分解是梯度下降的一种新视角,帮助我们避免了均匀收敛陷阱。在这项工作中,我们还确定了在相同设置下,训练后的网络会过度拟合数据。总之,这些结果建立了针对任意回归函数的有限宽度 ReLU 网络的良性过度拟合的第一个结果。