LLM2D
基于慢思考的 reasoning LLMs 的调研:使用强化学习和推理时的缩放定律
A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law
作者: Qianjun Pan, Wenkai Ji, Yuyang Ding, Junsong Li, Shilian Chen, Junyi Wang, Jie Zhou, Qin Chen, Min Zhang, Yulan Wu, Liang He
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02665v1

摘要

arXiv:2505.02665v1 宣告类型: 新 摘要: 本文探讨了最近在推理大型语言模型(LLMs)方面的进展,这些模型旨在模仿“慢思考”——这一推理过程受到坎尼克曼在其著作《思考,快与慢》中描述的人类认知启发。这些模型,例如OpenAI的o1,专注于在复杂任务(如数学推理、视觉推理、医疗诊断和多智能体辩论)期间动态调整 computational 资源的扩展。本文概述了推理 LLMs 的发展,并列出了其关键技术。通过综合超过100项研究,本文描绘了一条将人类般的深度思考与推理的可扩展效率相结合的蓝图。该审查将方法分为三类:(1) 测试时动态扩展计算根据任务复杂性通过搜索和采样、动态验证来调整计算;(2) 强化学习通过迭代改进利用策略网络、奖励模型和自进化策略来精化决策制定;(3) 慢思考框架(例如,长 CoT、分层过程),这些框架以可管理的步骤结构化问题解决。本文突出了该领域的挑战和进一步方向。理解和推进 LLMs 的推理能力对于解锁其在实际应用中的全部潜力至关重要,从科学发现到决策支持系统。