LLM2D
代理RL标度定律:代理RL与自发代码执行的数学问题求解
Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving
作者: Xinji Mai, Haotian Xu, Xing W, Weinong Wang, Yingying Zhang, Wenqiang Zhang
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.07773v1

摘要

arXiv:2505.07773v1 通知类型: 新 摘要: 大型语言模型(LLMs)在需要精确可验证计算的数学推理任务上常常表现不佳。虽然基于结果奖励的强化学习(RL)增强了文本推理能力,但理解代理如何自主学习利用外部工具(如代码执行)仍至关重要。我们研究了基于结果奖励的强化学习在工具集成推理(ZeroTIR)中的应用,训练基础LLM自动生成和执行Python代码解决数学问题,而无需监督使用的工具示例。我们的主要贡献在于我们证明了随着RL训练的进展,关键指标按可预测的方式增长。具体来说,我们观察到在训练步骤增加时,自发代码执行频率、平均响应长度以及最终任务准确性显著提高。这表明计算投入与训练之间存在可量化的关系,这种关系有助于生成有效的、工具增强的推理策略。我们实现了一个稳健的框架,其中包括分离的代码执行环境,并在标准的RL算法和框架中验证了我们的发现。实验表明,ZeroTIR在具有挑战性的数学基准测试中显著优于非工具ZeroRL基线。我们的发现为代理RL中自主工具使用是如何获得及发展的提供了基础理解,并提供了一个可重复的基准,供未来研究使用。代码可以在 \href{https://github.com/Anonymize-Author/AgentRL}{https://github.com/Anonymize-Author/AgentRL} 获取。