LLM2D

摘要

arXiv:2503.23982v1 声明类型：交叉摘要：神经网络是其输入和参数的复杂函数。深度学习理论的许多先前工作分析了在网络参数随机初始化的情况下固定输入集（例如，训练数据集）的网络输出的分布。本文的目的与此相反：我们将随机初始化的多层感知器（MLP）视为其输入上的哈密顿量。对于典型的网络参数实现，我们研究由该哈密顿量诱导的能量景观的性质，重点是无限宽度极限下的近全局最小值的结构。具体地，我们使用复制技巧进行精确的解析计算，给出给定能量下的熵（空间体积的对数）。我们还推导出了描述从由随机MLP诱导的吉布斯分布抽样独立同分布输入之间的重叠的鞍点方程。对于线性激活函数，我们精确地解出了这些鞍点方程。但我们还通过对各种深度和激活函数（包括tanh、sin、ReLU以及形状非线性）的鞍点方程进行数值求解，来研究这些MLP的能量景观。我们发现，即使在无限宽度下，这些能量景观也表现出丰富的行为。例如，对于sin这种非线性函数，我们发现随机MLP的能量景观表现出完整的复制对称破坏，而浅层的tanh和ReLU网络或深层的形状MLP则是复制对称的。