摘要
arXiv:2504.17243v2 通知类型: 替换-交叉
摘要:Grokking 被提出并广泛研究为一种复杂的现象,在这种现象中,泛化在长时间过拟合后实现。在这项工作中,我们提出了一种名为 NeuralGrok 的新颖梯度方法,该方法学习最优的梯度变换,以加速变压器在算术任务中的泛化。具体而言,NeuralGrok 在基模型的基础上训练了一个辅助模块(例如,一个MLP块)。该模块根据各个梯度分量对泛化的影响动态调节这些分量的影响力,受到双层优化算法的指导。我们的大量实验表明,NeuralGrok 显著加速了泛化,尤其是在具有挑战性的算术任务中。我们还展示了 NeuralGrok 促进更稳定的训练范式,在不断降低模型复杂度的同时,传统正则化方法(如权重衰减)可能会引入大量不稳定性并妨碍泛化。我们进一步利用一个新颖的绝对梯度 entropy(AGE)度量来探讨模型固有复杂性,这是一种解释 NeuralGrok 通过降低模型复杂性有效促进泛化的手段。我们提供了有关 Transformer 模型的 Grokking 现象的重要见解,这鼓励了对控制泛化能力的基本原理的更深入理解。