LLM2D

摘要

arXiv:2504.17243v2 通知类型: 替换-交叉摘要：Grokking 被提出并广泛研究为一种复杂的现象，在这种现象中，泛化在长时间过拟合后实现。在这项工作中，我们提出了一种名为 NeuralGrok 的新颖梯度方法，该方法学习最优的梯度变换，以加速变压器在算术任务中的泛化。具体而言，NeuralGrok 在基模型的基础上训练了一个辅助模块（例如，一个MLP块）。该模块根据各个梯度分量对泛化的影响动态调节这些分量的影响力，受到双层优化算法的指导。我们的大量实验表明，NeuralGrok 显著加速了泛化，尤其是在具有挑战性的算术任务中。我们还展示了 NeuralGrok 促进更稳定的训练范式，在不断降低模型复杂度的同时，传统正则化方法（如权重衰减）可能会引入大量不稳定性并妨碍泛化。我们进一步利用一个新颖的绝对梯度 entropy（AGE）度量来探讨模型固有复杂性，这是一种解释 NeuralGrok 通过降低模型复杂性有效促进泛化的手段。我们提供了有关 Transformer 模型的 Grokking 现象的重要见解，这鼓励了对控制泛化能力的基本原理的更深入理解。