LLM2D

摘要

arXiv:2502.06885v1 Announce Type: 交叉摘要：本文提出了一种在深度方向上逐步适应神经网络架构的新算法。特别地，我们尝试以一种数学上严格的方式来解决以下问题：i) 在训练过程中何时添加新的容量（层）？ii) 如何初始化新的容量？我们方法的核心包括两个关键成分：i) 引入一个“形状泛函”，其依赖于神经网络拓扑结构，并需最小化该泛函；ii) 引入与神经网络拓扑结构相关的形状泛函的拓扑导数。通过最优控制视角，我们证明在某些条件下网络拓扑导数存在，并推导出了其闭式表达式。特别是，我们首次探索了来自拓扑优化框架的拓扑导数与最优控制理论中的哈密顿量之间的联系。此外，我们展示了形状泛函的最优性条件导致了深层神经架构适应的特征值问题。因此，我们的方法确定了训练阶段需要插入新层的最敏感位置以及相应参数初始化方法。我们还展示了从最优传输视角出发，我们的层插入策略可以被视作在$p$-Wasserstein空间内最大化拓扑导数的解决方案，其中$p>=1$。在各种回归和分类问题上，利用完全连接网络、卷积神经网络和视觉变换器的数值研究证明，我们提出的方法可以优于临时基线网络和其他架构适应策略。此外，我们还展示了拓扑导数在领域如迁移学习中的其他应用。