摘要
arXiv:2504.04022v1 交叉类型: cross
摘要:语言模型自我反思其自身推理的能力为其解决复杂问题提供了关键优势。尽管最近的研究主要集中在这种能力在强化学习过程中如何发展,但我们表明,实际上这种能力在模型的预训练阶段就会开始浮现。为了研究这一点,我们在思维链中引入故意的错误,测试模型是否仍然可以通过识别和修正这些错误来得出正确的答案。通过跟踪不同预训练阶段的表现,我们观察到这种自我纠正的能力会早在很早期就出现,并且随着时间的推移不断改善。例如,一个在4万亿个标记上进行预训练的OLMo2-7B模型在我们六个自我反思任务中显示出了自我纠正能力。