LLM2D

摘要

arXiv:2505.02665v2 公告类型: 替换摘要：本文综述了近期在设计模仿“慢思考”的大型语言模型（LLMs）方面的进展。“慢思考”是一种灵感来源于 Kahneman 的《思考，快与慢》中描述的人类认知过程的推理过程。这些模型，如 OpenAI 的 o1，专注于在复杂任务（如数学推理、视觉推理、医疗诊断和多代理辩论）期间动态扩展计算资源。本文概述了推理 LLM 的发展并列出了其关键技术。通过综合分析超过100项研究，本文描绘了结合人类般的深度思考与可扩展效率的推理 LLM 的发展路径。该综述将方法分为三类：(1) 测试时动态调整计算量，根据任务复杂度通过搜索和采样、动态验证来调整计算；(2) 强化学习通过迭代改进，利用策略网络、奖励模型和自进化策略来精化决策；以及 (3) 慢思考框架（例如，长链推理、分层过程），这些框架在可控步骤中结构化解决问题。本文强调了该领域的挑战和进一步发展方向。理解并推进 LLM 的推理能力对于解锁其在现实世界应用中的全部潜力至关重要，从科学研究到决策支持系统。