摘要
arXiv:2503.18866v1 类型: cross
摘要: 语言模型(LM)预训练的计算扩展已经超过了人类撰写的文本的增长,导致担忧数据将成为LM扩展的瓶颈。为了在这种数据受限的背景下继续进行预训练,我们提出明确建模和推断文本生成过程中隐藏的思想可以显著提高预训练数据的效率。直观地说,我们的方法将网络文本视为冗长的人类思维过程的压缩最终结果,而隐藏的思想包含对数据高效学习至关重要的上下文知识和推理步骤。我们通过针对数学的数据受限连续预训练来实证证明了这种方法的有效性。我们首先展示了推断隐藏思想的合成数据方法显著提高了数据效率,在MATH数据集上的表现优于在相同量的原始数据上进行训练(5.7% → 25.4%)。此外,我们展示了在没有强教师的情况下进行隐藏思想推断,语言模型通过使用EM算法迭代提高训练LM的能力和带有思想增强的预训练数据质量,从而自我提升其性能。我们证明了一个1B规模的LM在其性能至少可以跨过三个迭代,并且在使用EM算法的E步骤进行更多的推断计算时,显著优于在原始数据上训练的基础模型。推断扩展和EM迭代的收益表明了在数据受限预训练扩展方面的新的机遇。