LLM2D
重新思考预训练中的反射
Rethinking Reflection in Pre-Training
作者: Essential AI, :, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04022v1

摘要

arXiv:2504.04022v1 交叉类型: cross 摘要:语言模型自我反思其自身推理的能力为其解决复杂问题提供了关键优势。尽管最近的研究主要集中在这种能力在强化学习过程中如何发展,但我们表明,实际上这种能力在模型的预训练阶段就会开始浮现。为了研究这一点,我们在思维链中引入故意的错误,测试模型是否仍然可以通过识别和修正这些错误来得出正确的答案。通过跟踪不同预训练阶段的表现,我们观察到这种自我纠正的能力会早在很早期就出现,并且随着时间的推移不断改善。例如,一个在4万亿个标记上进行预训练的OLMo2-7B模型在我们六个自我反思任务中显示出了自我纠正能力。