LLM2D

摘要

arXiv:2502.14333v1 类型: cross 摘要：大型语言模型（LLM）的最新进展发现，通过多步思考提示策略能够提高LLM的推理能力，这主要是通过鼓励逐步解决问题实现的。因此，后续研究致力于通过过程奖励作为反馈将多步推理过程集成到LLM本身中，并实现了对提示策略的改进。由于步骤级标注的成本较高，一些研究转向结果奖励作为反馈。除了这些基于训练的方法之外，无需训练的技术利用冻结的LLM或外部工具在每一步提供反馈，以增强推理过程。由于数学领域因其实证性质而工作丰富，我们综述了利用步骤级和结果级反馈提升LLM多步数学推理的各种策略。鉴于多步推理已成为扩展LLM的关键组成部分，我们希望为更易于理解奠定基础，并促进进一步研究。