LLM2D

摘要

局部学习系数 (LLC) 作为一种用于深度神经网络 (DNN) 的全新复杂度度量被提出。认识到传统复杂度度量的局限性，LLC 利用奇异学习理论 (SLT)，该理论长期以来一直认识到奇异性在损失景观几何中的重要性。本文对 LLC 的理论基础进行了广泛的探讨，提供了清晰的定义和对其应用的直观见解。此外，我们提出了一种新的可扩展的 LLC 估计器，该估计器随后有效地应用于各种架构，包括深度线性网络（高达 1 亿个参数）、ResNet 图像模型和 Transformer 语言模型。经验证据表明，LLC 为理解训练启发式方法如何影响 DNN 的有效复杂度提供了宝贵的见解。最终，LLC 成为调和深度学习复杂性和简约原则之间明显矛盾的关键工具。