摘要
arXiv:2504.09037v1 通知类型: 新闻
摘要: 推理是一种基本的认知过程,使逻辑推断、问题解决和决策成为可能。随着大型语言模型(LLMs)的迅速发展,推理已成为区分高级AI系统和通过增强聊天机器人的传统模型的关键能力。在这篇综述中,我们从两个相互正交的维度对现有方法进行分类:(1) 规模,这定义了推理实现的阶段(要么在推理时间,要么通过专门训练);和 (2) 架构,这决定了推理过程中涉及的组件,区分独立的LLM和引入外部工具的代理复合系统以及多智能体合作。在每个维度中,我们分析了两种关键视角:(1) 输入级别,侧重于构建LLM所依赖的高质量提示的技术;和 (2) 输出级别,侧重于改进推理质量的处理多个采样候选人的方法。这种分类提供了对LLM推理不断变化的景观的系统性理解,突出了从推理缩放转向学习推理(例如,DeepSeek-R1)等新兴趋势,以及从指令流程到代理流程的转变(例如,OpenAI Deep Research、Manus Agent)。此外,我们涵盖了从监督微调到强化学习(如PPO和GRPO)等各种学习算法,还包括推理者和验证者的训练。我们还探讨了代理流程的关键设计,从生成器-评估器和LLM辩论等已确立的模式到最近的创新。