摘要
arXiv:2505.02665v2 公告类型: 替换
摘要:本文综述了近期在设计模仿“慢思考”的大型语言模型(LLMs)方面的进展。“慢思考”是一种灵感来源于 Kahneman 的《思考,快与慢》中描述的人类认知过程的推理过程。这些模型,如 OpenAI 的 o1,专注于在复杂任务(如数学推理、视觉推理、医疗诊断和多代理辩论)期间动态扩展计算资源。本文概述了推理 LLM 的发展并列出了其关键技术。通过综合分析超过100项研究,本文描绘了结合人类般的深度思考与可扩展效率的推理 LLM 的发展路径。该综述将方法分为三类:(1) 测试时动态调整计算量,根据任务复杂度通过搜索和采样、动态验证来调整计算;(2) 强化学习通过迭代改进,利用策略网络、奖励模型和自进化策略来精化决策;以及 (3) 慢思考框架(例如,长链推理、分层过程),这些框架在可控步骤中结构化解决问题。本文强调了该领域的挑战和进一步发展方向。理解并推进 LLM 的推理能力对于解锁其在现实世界应用中的全部潜力至关重要,从科学研究到决策支持系统。