摘要
arXiv:2502.14333v1 类型: cross
摘要:大型语言模型(LLM)的最新进展发现,通过多步思考提示策略能够提高LLM的推理能力,这主要是通过鼓励逐步解决问题实现的。因此,后续研究致力于通过过程奖励作为反馈将多步推理过程集成到LLM本身中,并实现了对提示策略的改进。由于步骤级标注的成本较高,一些研究转向结果奖励作为反馈。除了这些基于训练的方法之外,无需训练的技术利用冻结的LLM或外部工具在每一步提供反馈,以增强推理过程。由于数学领域因其实证性质而工作丰富,我们综述了利用步骤级和结果级反馈提升LLM多步数学推理的各种策略。鉴于多步推理已成为扩展LLM的关键组成部分,我们希望为更易于理解奠定基础,并促进进一步研究。