摘要
arXiv:2502.01774v1 宣告类型: cross
摘要: 沟克(grokking)或延迟泛化是一种引人注目的学习现象,其中测试集损失仅在模型训练集损失收敛后才急剧下降。这挑战了对深度学习网络训练动力学的传统理解。在本文中,我们对沟克进行形式化和研究,强调其出现的关键因素是训练数据和测试数据分布之间的变化。我们介绍了两个专门设计的合成数据集,用于分析沟克。一个数据集研究了采样受限的影响,另一个研究了迁移学习在沟克中的作用。通过控制不平衡子类的采样诱导分布变化,我们系统地重现了该现象,证明虽然采样受限与沟克高度相关,但这并不是其原因。相反,采样受限充当实现必要分布变化的方便机制。我们还展示了当类别形成等变映射时,沟克可以通过模型从相似的类别或子类中学习来解释。不同于早期研究表明沟克主要源于高正则化和稀疏数据的工作,我们证明它也可以在稠密数据和最少的超参数调整下发生。我们的发现加深了对沟克的理解,并为未来训练过程中的更好停止标准奠定了基础。