LLM2D

摘要

arXiv:2504.09037v1 通知类型: 新闻摘要: 推理是一种基本的认知过程，使逻辑推断、问题解决和决策成为可能。随着大型语言模型（LLMs）的迅速发展，推理已成为区分高级AI系统和通过增强聊天机器人的传统模型的关键能力。在这篇综述中，我们从两个相互正交的维度对现有方法进行分类：(1) 规模，这定义了推理实现的阶段（要么在推理时间，要么通过专门训练）；和 (2) 架构，这决定了推理过程中涉及的组件，区分独立的LLM和引入外部工具的代理复合系统以及多智能体合作。在每个维度中，我们分析了两种关键视角：(1) 输入级别，侧重于构建LLM所依赖的高质量提示的技术；和 (2) 输出级别，侧重于改进推理质量的处理多个采样候选人的方法。这种分类提供了对LLM推理不断变化的景观的系统性理解，突出了从推理缩放转向学习推理（例如，DeepSeek-R1）等新兴趋势，以及从指令流程到代理流程的转变（例如，OpenAI Deep Research、Manus Agent）。此外，我们涵盖了从监督微调到强化学习（如PPO和GRPO）等各种学习算法，还包括推理者和验证者的训练。我们还探讨了代理流程的关键设计，从生成器-评估器和LLM辩论等已确立的模式到最近的创新。