LLM2D
独立架构的一般化界面前提过参数化的深ReLU网络
Architecture independent generalization bounds for overparametrized deep ReLU networks
作者: Thomas Chen, Chun-Kai Kevin Chien, Patricia Mu\~noz Ewald, Andrew G. Moore
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.05695v2

摘要

arXiv:2504.05695v2 宣告类型: replace-cross 摘要: 我们证明了过度参数化的神经网络能够在测试误差方面实现与过度参数化级别无关并且与Vapnik-Chervonenkis (VC) 维数无关的泛化能力。我们证明了仅依赖于测试集和训练集的度量几何特征、激活函数的正则性性质以及权重的操作范数和偏差的范数的具体界。对于输入空间维度受限于训练样本大小的过度参数化的深ReLU网络,我们明确构造了无需使用梯度下降的零损失最小化器,并证明了泛化误差与网络架构无关。