LLM2D
理解 vs. 学习:相同特征,不同编码
Grokking vs. Learning: Same Features, Different Encodings
作者: Dmitry Manning-Coe, Jacopo Gliozzi, Alexander G. Stapleton, Edward Hirst, Giuseppe De Tomasi, Barry Bradlyn, David S. Berman
发布日期: 2/5/2025
arXiv ID: 2502.01739

摘要

arXiv:2502.01739v1 类型: cross 摘要: Grokking通常能达到与普通、“稳定”的学习相似的损失。我们探讨了这两种不同的学习路径——Grokking与普通训练——是否会导致学得模型的内在差异。为此,我们在两个任务中比较了通过每种路径训练的模型的功能、压缩性和学习动态。我们发现,Grokking训练和稳定训练的模型学习相同的功能,但这些功能的编码效率可能有很大差异。特别是,在稳定训练中,我们发现了一种新颖的“压缩性区域”,在这种区域内,模型的损失与压缩性之间出现了线性 trade-off,而在Grokking中没有这种现象。在这一区域内,我们可以实现是基模型25倍的压缩因子,以及是Grokking中实现压缩因子5倍的压缩。然后,我们追踪模型功能和压缩性在训练过程中的发展。我们表明,Grokking中模型的发展是任务依赖的,并且在Grokking平台期后立即达到最大的压缩性。最后,引入了新的信息几何度量,表明经历Grokking的模型在信息空间中沿着直线移动。