LLM2D

摘要

arXiv:2502.01739v1 类型：交叉摘要：归纳推理通常能达到与普通“稳定”学习相似的损失。我们询问这些不同的学习路径——归纳推理与普通训练——是否会导致学习到的模型存在根本性的差异。为此，我们在两个任务中比较了每种路径训练的模型的特征、压缩性和学习动力学。我们发现，归纳推理和稳定训练的模型学习相同的特征，但这些特征的编码效率可能存在很大的差异。尤其是，我们在稳定训练中发现了新颖的“压缩性区间”，在此区间内模型损失与压缩性之间出现了线性的权衡关系，而在归纳推理中则不存在这种现象。在这种区间内，我们可以实现比基础模型高25倍的压缩因子，以及比归纳推理中实现的压缩性高出5倍的压缩因子。然后，我们追踪模型特征和压缩性在整个训练过程中的发展。我们展示了归纳推理中的模型发展依赖于任务，并且峰值压缩性在归纳推理平台期之后立即达到。最后，引入了新的信息几何度量来表明，经历归纳推理的模型在信息空间中的路径是直线。