LLM2D

摘要

随机神经网络的无限宽度极限会导致神经网络作为高斯过程 (NNGP)（Lee 等人 [2018]），其特征在于与任务无关的核。人们普遍认为，更大的网络宽度有助于提高泛化能力（Park 等人 [2019]）。然而，这项工作通过研究贝叶斯并行分支图神经网络 (BPB-GNN) 的窄宽度极限来挑战这一观点，该架构类似于残差网络。我们证明，当 BPB-GNN 的宽度远小于训练样本的数量时，每个分支都表现出更强大的学习能力，这是因为内核重归一化中分支的对称性被打破。令人惊讶的是，BPB-GNN 在窄宽度极限下的性能通常优于或与在偏差受限场景下的宽宽度极限下达到的性能相当。此外，窄宽度极限下每个分支的读出范数大多独立于架构超参数，但通常反映数据的本质。我们的结果描述了一般并行分支网络的新定义的窄宽度状态。