LLM2D

摘要

arXiv:2503.23982v2 提交类型: 替换-交叉摘要: 神经网络是其输入和参数的复杂函数。深度学习理论中许多先前的工作分析了在固定一组输入（例如训练数据集）下，网络输出在随机初始化参数时的分布。本文的目的与此相反：我们将随机初始化的多层感知机（MLP）视为其输入的哈密顿量。对于网络参数的典型实现，我们研究由该哈密顿量诱导的能量景观的性质，特别是在无穷宽度极限下局部全局最小值的结构。具体地，我们使用副本技巧进行精确的解析计算，给出给定能量下的熵（即空间的对数体积）。我们进一步推导出鞍点方程，描述从随机MLP诱导的吉布斯分布中独立同分布采样输入之间的重叠。对于线性激活函数，我们精确解决了这些鞍点方程。我们还针对各种深度和激活函数（包括tanh、sin、ReLU及形状非线性）进行了数值求解。我们发现，即使在无穷宽度下，随机MLP的景观也表现出丰富的行为。例如，对于tanh这样的非线性函数，随机MLP的景观显示出完全的副本对称性破坏；而对于浅层tanh和ReLU网络或深层形状MLP，则表现出复制对称性。