LLM2D
退回以跃进:自我回溯增强语言模型的推理能力
Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models
作者: Xiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04404v1

摘要

arXiv:2502.04404v1 宣告类型:交叉 摘要:将慢思考机制整合到大型语言模型(LLMs)中,为实现具备水平2的AGI推理器提供了一条有希望的途径,例如OpenAI的o1系统。然而,仍然存在几个重大挑战,包括无效的过度思考和过度依赖辅助奖励模型。我们指出,这些限制源自LLMs无法内化搜索过程,这是有效推理的一个关键组成部分。解决这一问题的关键一步是使LLMs能够自主决定何时以及在何处回退,这是传统搜索算法中一个基本的操作。为此,我们提出了一个自回退机制,使LLMs能够在训练和推理过程中回退。这一机制不仅增强了推理能力,还通过自我改进将慢思考过程转化为快思考,从而提高效率。实证评估表明,我们的提议显著增强了LLMs的推理能力,与最优路径监督微调方法相比,性能提高了40%以上。我们认为,这项研究为开发更高级和更 robust 的推理器引入了一种新颖且有前景的途径。