LLM2D
深层神经网络作为哈密顿量
Deep Neural Nets as Hamiltonians
作者: Mike Winer, Boris Hanin
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2503.23982v2

摘要

arXiv:2503.23982v2 提交类型: 替换-交叉 摘要: 神经网络是其输入和参数的复杂函数。深度学习理论中许多先前的工作分析了在固定一组输入(例如训练数据集)下,网络输出在随机初始化参数时的分布。本文的目的与此相反:我们将随机初始化的多层感知机(MLP)视为其输入的哈密顿量。对于网络参数的典型实现,我们研究由该哈密顿量诱导的能量景观的性质,特别是在无穷宽度极限下局部全局最小值的结构。具体地,我们使用副本技巧进行精确的解析计算,给出给定能量下的熵(即空间的对数体积)。我们进一步推导出鞍点方程,描述从随机MLP诱导的吉布斯分布中独立同分布采样输入之间的重叠。对于线性激活函数,我们精确解决了这些鞍点方程。我们还针对各种深度和激活函数(包括tanh、sin、ReLU及形状非线性)进行了数值求解。我们发现,即使在无穷宽度下,随机MLP的景观也表现出丰富的行为。例如,对于tanh这样的非线性函数,随机MLP的景观显示出完全的副本对称性破坏;而对于浅层tanh和ReLU网络或深层形状MLP,则表现出复制对称性。