LLM2D
解释 Grokking:一种统计现象
Grokking Explained: A Statistical Phenomenon
作者: Breno W. Carvalho, Artur S. d'Avila Garcez, Lu\'is C. Lamb, Em\'ilio Vital Brazil
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01774v1

摘要

arXiv:2502.01774v1 Announce Type: cross 摘要:理解或延迟泛化是一种引人入胜的学习现象,其中测试集损失仅在模型训练集损失收敛之后才会急剧下降。这挑战了对深度学习网络训练动力学的传统理解。在本文中,我们形式化并研究了理解这一现象,强调其出现的关键因素是在训练数据和测试数据之间发生了分布转移。我们引入了两个专门旨在分析理解的合成数据集。一个数据集研究了有限采样的影响,另一个则研究了转移学习在理解中的作用。通过控制子类别的不平衡采样来诱导分布转移,我们系统地重现了这一现象,表明尽管小样本量与理解密切相关,但它并非其原因。相反,小样本量作为一种方便的机制,用于实现所需的分布转移。我们还展示了当类别形成一个对称映射时,理解可以通过模型从相似的类别或子类别中学习来解释。与之前的工作认为理解主要源自高正则化和稀疏数据不同,我们展示了它也可以在密集数据和最少的超参数调优的情况下发生。我们的研究加深了对理解的理解,并为未来训练过程中的停止标准制定了更好的路径。