LLM2D
记忆压缩循环提高泛化能力
Memorization-Compression Cycles Improve Generalization
作者: Fangyuan Yu
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.08727v1

摘要

arXiv:2505.08727v1 宣告类型: cross 摘要: 我们通过理论证明,泛化不仅可以通过数据缩放来提高,还可以通过压缩内部表示来提高。为了将这一见解付诸实践,我们引入了信息瓶颈语言建模(IBLM)目标,将其重新定义为一个受限优化问题:在最优预测性能的约束下最小化表示的熵。从经验上讲,在 LLM 预训练期间,我们观察到一种记忆-压缩循环的出现,这体现在交叉熵和矩阵基熵(MBE)之间的梯度正负对齐中,MBE 是表示熵的一个度量。这种模式接近于 IBLM 所规定的预测-压缩权衡,并且也类似于清醒学习和睡眠巩固之间的生物交替。受此观察的启发,我们提出了门控相变(GAPT)训练算法,该算法能够适应性地在记忆和压缩阶段之间切换。当将 GAPT 应用于使用 FineWeb 数据集对 GPT-2 的预训练时,MBE 减少了 50%,而交叉熵提高了 4.8%。在针对算术乘法的预训练任务中,GAPT 将 OOD 泛化提高了 35%。在设计用于模拟灾难性遗忘的环境中,GAPT 通过压缩和分离表示来减少干扰,实现了 97% 的分离改进,这类似于睡眠巩固的功能作用。