LLM2D

摘要

arXiv:2502.14114v1 类型: cross 摘要: 我们确定了在监督学习背景下，对于 $\mathcal{L}^2$ 成本和通用训练数据，过参数化深度学习（DL）网络保证零损失可实现性的充分条件。我们提供了一种明确的构造零损失极小值的方法，而无需使用梯度下降。另一方面，通过分析训练雅可比矩阵的秩损失条件，指出深度增加可能会损害梯度下降算法的成本最小化效率。我们的结果阐明了在欠参数化与过参数化深度学习之间实现零损失的二分法的关键方面。