摘要
arXiv:2505.07773v1 通知类型: 新
摘要: 大型语言模型(LLMs)在需要精确可验证计算的数学推理任务上常常表现不佳。虽然基于结果奖励的强化学习(RL)增强了文本推理能力,但理解代理如何自主学习利用外部工具(如代码执行)仍至关重要。我们研究了基于结果奖励的强化学习在工具集成推理(ZeroTIR)中的应用,训练基础LLM自动生成和执行Python代码解决数学问题,而无需监督使用的工具示例。我们的主要贡献在于我们证明了随着RL训练的进展,关键指标按可预测的方式增长。具体来说,我们观察到在训练步骤增加时,自发代码执行频率、平均响应长度以及最终任务准确性显著提高。这表明计算投入与训练之间存在可量化的关系,这种关系有助于生成有效的、工具增强的推理策略。我们实现了一个稳健的框架,其中包括分离的代码执行环境,并在标准的RL算法和框架中验证了我们的发现。实验表明,ZeroTIR在具有挑战性的数学基准测试中显著优于非工具ZeroRL基线。我们的发现为代理RL中自主工具使用是如何获得及发展的提供了基础理解,并提供了一个可重复的基准,供未来研究使用。代码可以在 \href{https://github.com/Anonymize-Author/AgentRL}{https://github.com/Anonymize-Author/AgentRL} 获取。