摘要
arXiv:2504.11536v1 声称类型: cross
摘要:尽管使用强化学习(RL)训练的推理模型(例如 DeepSeek R1)在文本推理方面表现出色,但在需要结构化问题解决的情景下(如几何推理、简洁计算或复杂方程求解),它们却难以应对,这些领域正是像代码解释器(CI)这样的计算工具展现其独特优势的领域。为弥合这一差距,我们提出了 ReTool,这是一种结合了工具集成学习的增强长形式推理方法,包括两个核心功能:(1)在自然语言推理过程中实现即时代码执行的动态交错,以及(2)一种自动化的 RL 架构,允许基于多轮即时代码执行的策略部署,并教会模型根据结果反馈何时及如何调用工具。ReTool 使用系统化的训练框架开始于合成冷启动数据生成,生成代码增强的长形式推理轨迹以精细调校基模型。随后的 RL 训练利用任务结果作为奖励,逐步精炼模型的工具使用策略,使其能够在没有人类先验的情况下自主发现最优工具调用模式。实验结果显示,ReTool 在具有挑战性的数学奥林匹克竞赛基准测试 AIME 上表现出色:我们的 32B 模型在 400 次训练步骤中达到了 67% 的准确率,优于基于文本的 RL 基准(1080 次步骤的 40% 准确率)在效率和性能方面的表现。令人惊讶的是,ReTool-32B 在扩展设置中的准确率达到 72.5%,超越了 OpenAI 的 o1-preview 27.9%。进一步的分析揭示了诸如代码自我纠正等新兴行为,标志着模型自主掌握适应性工具使用的技术突破(aha moment)。这些发现表明了以结果驱动的工具集成在推进复杂数学推理方面的潜力,并提供了关于混合神经符号系统的全新见解。