摘要
arXiv:2309.04522v3 声明类型: replace-cross
摘要:人工神经网络在近年来革新了机器学习,但其学习过程的完整理论框架仍缺乏。虽然在宽网络中取得了实质性进展,但这些进展是在两个截然不同的理论框架内实现的:神经 tangent 核(NTK),假定梯度下降动力学线性化,以及贝叶斯神经网络高斯过程(NNGP)。我们通过在宽深网络的集成中引入梯度下降学习和额外的噪声,统一了这两种理论。我们构建了网络输入-输出函数的分析理论,并引入了新的时间依赖性神经动力核(NDK),从中推导出 NTK 和 NNGP 核。我们识别出两个学习阶段:一个由梯度驱动的学习阶段,主要由损失最小化主导,时间尺度由初始化方差控制。之后是一个缓慢的扩散学习阶段,参数对解空间进行采样,时间常数由噪声和贝叶斯先验方差决定。这两个方差参数在两种体制中都会强烈影响性能,特别是在 sigmoid 单元中。与初始阶段平均预测器的指数收敛不同,向平衡的收敛过程更为复杂,可能表现出非单调性。通过表征扩散阶段,我们的工作揭示了大脑中表示漂移的现象,解释了如何在保证性能的情况下,通过持续的梯度信号同步不同突触的漂移,或者通过架构偏见生成在漂移过程抵抗的与任务相关的稳健信息,从而使神经活动连续变化。我们的工作填补了 NTK 和 NNGP 理论之间的空白,提供了一个全面的深度宽神经网络学习过程框架,并为生物电路中的动态分析提供了理论基础。