LLM2D

摘要

arXiv:2502.01774v1 宣告类型: cross 摘要: 沟克（grokking）或延迟泛化是一种引人注目的学习现象，其中测试集损失仅在模型训练集损失收敛后才急剧下降。这挑战了对深度学习网络训练动力学的传统理解。在本文中，我们对沟克进行形式化和研究，强调其出现的关键因素是训练数据和测试数据分布之间的变化。我们介绍了两个专门设计的合成数据集，用于分析沟克。一个数据集研究了采样受限的影响，另一个研究了迁移学习在沟克中的作用。通过控制不平衡子类的采样诱导分布变化，我们系统地重现了该现象，证明虽然采样受限与沟克高度相关，但这并不是其原因。相反，采样受限充当实现必要分布变化的方便机制。我们还展示了当类别形成等变映射时，沟克可以通过模型从相似的类别或子类中学习来解释。不同于早期研究表明沟克主要源于高正则化和稀疏数据的工作，我们证明它也可以在稠密数据和最少的超参数调整下发生。我们的发现加深了对沟克的理解，并为未来训练过程中的更好停止标准奠定了基础。