LLM2D

摘要

arXiv:2504.11536v2 通知类型: 替换-交叉摘要：虽然使用强化学习（RL）训练的推理模型（例如 DeepSeek R1）在文本推理方面表现出色，但在需要结构化问题解决的情景下，如几何推理、简洁计算或复杂方程求解——这些领域中计算工具（如代码解析器CI）展示了明显的优势——推理模型却显得力不从心。为了解决这一问题，我们提出了 ReTool，它通过工具集成学习增强了长形式的推理，包括两个关键功能：（1）自然语言推理过程中实时代码执行的动态交织，（2）一种自动化的 RL 架构，允许多轮实时代码执行的策略展开，并根据结果反馈教诲模型何时以及如何调用工具。ReTool 采用了一种系统性的训练框架，始于从合成冷启动数据生成代码增强的长形式推理痕迹，用于微调基础模型。随后的 RL 训练利用任务结果作为奖励，逐步细化模型的工具使用策略，使其能够自主发现最优的工具调用模式，无需先验的人工知识。在具有挑战性的数学奥林匹克竞赛基准 AIME 上的实验结果显示 ReTool 的优越性：我们的 32B 模型在 400 次训练步骤中取得了 67% 的准确率，优于文本基线（40% 准确率，1080 步训练）在效率和性能上的表现。令人惊讶的是，ReTool-32B 在扩展设置下达到了 72.5% 的准确率，超过了 OpenAI 的 o1-preview 27.9%。进一步的分析显示了诸如代码自我修正等新兴行为，暗示了一种“恍然大悟”的时刻，在这个时刻，模型自主掌握了适应性工具使用。这些发现凸显了结果驱动的工具集成在推进复杂数学推理方面所展现出的潜力，并为混合神经符号系统提供了新的见解。