摘要
训练大型语言模型 (LLM) 在回应之前进行更多思考和反思,对于有效解决科学、编码和数学等领域中的复杂推理任务至关重要。然而,自我反思和自我纠正等机制的有效性取决于模型准确评估自身性能的能力,而这可能受到初始准确性、问题难度和缺乏外部反馈等因素的限制。本文深入研究了一种双人博弈范式,该范式将推理和评论模型的角色分开,其中评论模型提供步骤级反馈,以便在测试时和训练时监督推理(执行者)模型。我们首先提出了 AutoMathCritique,这是一个用于收集评论数据的自动化且可扩展的框架,它产生了一个包含 76,321 个响应及其步骤级反馈的数据集。使用该数据集微调语言模型使其能够生成针对数学推理的自然语言反馈。我们证明,评论模型在测试时始终能够提高执行者对难题的性能,尤其是在扩展推理时间计算时。基于这些发现,我们将基于评论的监督引入执行者的自训练过程,并提出了一种循环评论的自改进方法。实验表明,该方法提高了执行者的探索效率和解决方案多样性,尤其是在具有挑战性的问题上,从而产生了更强大的推理模型。最后,我们初步探索了通过评论监督训练自我对话推理模型,并展示了其潜力。我们的代码和数据集位于 \href{https://mathcritique.github.io/}{https://mathcritique.github.io/}。