LLM2D

摘要

arXiv:2309.04522v3 声明类型: replace-cross 摘要：人工神经网络在近年来革新了机器学习，但其学习过程的完整理论框架仍缺乏。虽然在宽网络中取得了实质性进展，但这些进展是在两个截然不同的理论框架内实现的：神经 tangent 核（NTK），假定梯度下降动力学线性化，以及贝叶斯神经网络高斯过程（NNGP）。我们通过在宽深网络的集成中引入梯度下降学习和额外的噪声，统一了这两种理论。我们构建了网络输入-输出函数的分析理论，并引入了新的时间依赖性神经动力核（NDK），从中推导出 NTK 和 NNGP 核。我们识别出两个学习阶段：一个由梯度驱动的学习阶段，主要由损失最小化主导，时间尺度由初始化方差控制。之后是一个缓慢的扩散学习阶段，参数对解空间进行采样，时间常数由噪声和贝叶斯先验方差决定。这两个方差参数在两种体制中都会强烈影响性能，特别是在 sigmoid 单元中。与初始阶段平均预测器的指数收敛不同，向平衡的收敛过程更为复杂，可能表现出非单调性。通过表征扩散阶段，我们的工作揭示了大脑中表示漂移的现象，解释了如何在保证性能的情况下，通过持续的梯度信号同步不同突触的漂移，或者通过架构偏见生成在漂移过程抵抗的与任务相关的稳健信息，从而使神经活动连续变化。我们的工作填补了 NTK 和 NNGP 理论之间的空白，提供了一个全面的深度宽神经网络学习过程框架，并为生物电路中的动态分析提供了理论基础。