LLM2D

摘要

arXiv:2502.01739v1 类型: cross 摘要: Grokking通常能达到与普通、“稳定”的学习相似的损失。我们探讨了这两种不同的学习路径——Grokking与普通训练——是否会导致学得模型的内在差异。为此，我们在两个任务中比较了通过每种路径训练的模型的功能、压缩性和学习动态。我们发现，Grokking训练和稳定训练的模型学习相同的功能，但这些功能的编码效率可能有很大差异。特别是，在稳定训练中，我们发现了一种新颖的“压缩性区域”，在这种区域内，模型的损失与压缩性之间出现了线性 trade-off，而在Grokking中没有这种现象。在这一区域内，我们可以实现是基模型25倍的压缩因子，以及是Grokking中实现压缩因子5倍的压缩。然后，我们追踪模型功能和压缩性在训练过程中的发展。我们表明，Grokking中模型的发展是任务依赖的，并且在Grokking平台期后立即达到最大的压缩性。最后，引入了新的信息几何度量，表明经历Grokking的模型在信息空间中沿着直线移动。