LLM2D

摘要

arXiv:2505.07773v1 通知类型: 新摘要: 大型语言模型（LLMs）在需要精确可验证计算的数学推理任务上常常表现不佳。虽然基于结果奖励的强化学习（RL）增强了文本推理能力，但理解代理如何自主学习利用外部工具（如代码执行）仍至关重要。我们研究了基于结果奖励的强化学习在工具集成推理（ZeroTIR）中的应用，训练基础LLM自动生成和执行Python代码解决数学问题，而无需监督使用的工具示例。我们的主要贡献在于我们证明了随着RL训练的进展，关键指标按可预测的方式增长。具体来说，我们观察到在训练步骤增加时，自发代码执行频率、平均响应长度以及最终任务准确性显著提高。这表明计算投入与训练之间存在可量化的关系，这种关系有助于生成有效的、工具增强的推理策略。我们实现了一个稳健的框架，其中包括分离的代码执行环境，并在标准的RL算法和框架中验证了我们的发现。实验表明，ZeroTIR在具有挑战性的数学基准测试中显著优于非工具ZeroRL基线。我们的发现为代理RL中自主工具使用是如何获得及发展的提供了基础理解，并提供了一个可重复的基准，供未来研究使用。代码可以在 \href{https://github.com/Anonymize-Author/AgentRL}{https://github.com/Anonymize-Author/AgentRL} 获取。