摘要
arXiv:2502.05449v1 类型:交叉
摘要:OpenAI的o1模型和其他类似框架的最近发布展示了它们在处理复杂推理任务方面表现出色的能力。受此启发,后续研究揭示了这类测试时的扩展法则依赖于模型在训练过程中既能在单个响应内部(内在响应)搜索,也能在多个响应之间(外在响应)进行搜索的能力。关键在于,模型不仅要选择最优响应,还需要在其自身输出中发展出稳健的自我纠正能力。然而,训练模型以实现有效的自我评估和自我纠正仍然是一个重大挑战,这高度依赖于自我反思数据的质量。在这篇论文中,我们通过专注于提升复杂问题解决中的自我反思数据生成质量来应对这一挑战,从而可以改进下一代大型语言模型(LLMs)的训练。具体来说,我们探讨了如何手动触发模型的自我纠正机制以提高在复杂推理任务上的性能。为此,我们提出了一种新的迭代加深采样算法框架,旨在提升自我纠正并生成更高质量的样本。通过在Math500和AIME基准上的广泛实验,我们展示了我们的方法在困难任务上实现更高的成功率,并提供了详细的消融研究来分析其在不同环境下的有效性。