摘要
arXiv:2502.04404v1 宣告类型:交叉
摘要:将慢思考机制整合到大型语言模型(LLMs)中,为实现具备水平2的AGI推理器提供了一条有希望的途径,例如OpenAI的o1系统。然而,仍然存在几个重大挑战,包括无效的过度思考和过度依赖辅助奖励模型。我们指出,这些限制源自LLMs无法内化搜索过程,这是有效推理的一个关键组成部分。解决这一问题的关键一步是使LLMs能够自主决定何时以及在何处回退,这是传统搜索算法中一个基本的操作。为此,我们提出了一个自回退机制,使LLMs能够在训练和推理过程中回退。这一机制不仅增强了推理能力,还通过自我改进将慢思考过程转化为快思考,从而提高效率。实证评估表明,我们的提议显著增强了LLMs的推理能力,与最优路径监督微调方法相比,性能提高了40%以上。我们认为,这项研究为开发更高级和更 robust 的推理器引入了一种新颖且有前景的途径。