LLM2D

摘要

arXiv:2502.04404v1 宣告类型：交叉摘要：将慢思考机制整合到大型语言模型（LLMs）中，为实现具备水平2的AGI推理器提供了一条有希望的途径，例如OpenAI的o1系统。然而，仍然存在几个重大挑战，包括无效的过度思考和过度依赖辅助奖励模型。我们指出，这些限制源自LLMs无法内化搜索过程，这是有效推理的一个关键组成部分。解决这一问题的关键一步是使LLMs能够自主决定何时以及在何处回退，这是传统搜索算法中一个基本的操作。为此，我们提出了一个自回退机制，使LLMs能够在训练和推理过程中回退。这一机制不仅增强了推理能力，还通过自我改进将慢思考过程转化为快思考，从而提高效率。实证评估表明，我们的提议显著增强了LLMs的推理能力，与最优路径监督微调方法相比，性能提高了40%以上。我们认为，这项研究为开发更高级和更 robust 的推理器引入了一种新颖且有前景的途径。