LLM2D

摘要

arXiv:2505.08727v1 宣告类型: cross 摘要: 我们通过理论证明，泛化不仅可以通过数据缩放来提高，还可以通过压缩内部表示来提高。为了将这一见解付诸实践，我们引入了信息瓶颈语言建模（IBLM）目标，将其重新定义为一个受限优化问题：在最优预测性能的约束下最小化表示的熵。从经验上讲，在 LLM 预训练期间，我们观察到一种记忆-压缩循环的出现，这体现在交叉熵和矩阵基熵（MBE）之间的梯度正负对齐中，MBE 是表示熵的一个度量。这种模式接近于 IBLM 所规定的预测-压缩权衡，并且也类似于清醒学习和睡眠巩固之间的生物交替。受此观察的启发，我们提出了门控相变（GAPT）训练算法，该算法能够适应性地在记忆和压缩阶段之间切换。当将 GAPT 应用于使用 FineWeb 数据集对 GPT-2 的预训练时，MBE 减少了 50%，而交叉熵提高了 4.8%。在针对算术乘法的预训练任务中，GAPT 将 OOD 泛化提高了 35%。在设计用于模拟灾难性遗忘的环境中，GAPT 通过压缩和分离表示来减少干扰，实现了 97% 的分离改进，这类似于睡眠巩固的功能作用。