LLM2D
理解 vs. 学习:相同特征,不同编码
Grokking vs. Learning: Same Features, Different Encodings
作者: Dmitry Manning-Coe, Jacopo Gliozzi, Alexander G. Stapleton, Edward Hirst, Giuseppe De Tomasi, Barry Bradlyn, David S. Berman
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01739v1

摘要

arXiv:2502.01739v1 类型:交叉 摘要:归纳推理通常能达到与普通“稳定”学习相似的损失。我们询问这些不同的学习路径——归纳推理与普通训练——是否会导致学习到的模型存在根本性的差异。为此,我们在两个任务中比较了每种路径训练的模型的特征、压缩性和学习动力学。我们发现,归纳推理和稳定训练的模型学习相同的特征,但这些特征的编码效率可能存在很大的差异。尤其是,我们在稳定训练中发现了新颖的“压缩性区间”,在此区间内模型损失与压缩性之间出现了线性的权衡关系,而在归纳推理中则不存在这种现象。在这种区间内,我们可以实现比基础模型高25倍的压缩因子,以及比归纳推理中实现的压缩性高出5倍的压缩因子。然后,我们追踪模型特征和压缩性在整个训练过程中的发展。我们展示了归纳推理中的模型发展依赖于任务,并且峰值压缩性在归纳推理平台期之后立即达到。最后,引入了新的信息几何度量来表明,经历归纳推理的模型在信息空间中的路径是直线。