LLM2D

摘要

arXiv:2505.07773v2 Announce Type: 重发摘要：大型语言模型（LLMs）在进行需要精确且可验证计算的数学推理任务时往往表现不佳。尽管基于结果奖励的强化学习（RL）可以增强文本推理能力，但理解代理如何自主学习利用外部工具（如代码执行）的能力仍然至关重要。我们研究了基于结果奖励的工具集成推理（ZeroTIR），旨在训练基础LLM自发生成和执行Python代码来解决数学问题，而无需监督工具使用示例。我们的主要贡献在于，我们展示了随着RL训练的进行，关键指标可以预期内化地增长。具体来说，我们观察到强烈的正相关关系：随训练步数增加，自发代码执行的频率、平均响应长度以及最终任务准确性都会增加。这表明了在训练中投入的计算努力与有效工具增强推理策略的出现之间存在可量化的关系。我们实现了一个健壮的框架，其中包括松耦合的代码执行环境，并在标准的RL算法和框架中验证了我们的发现。实验表明，ZeroTIR在挑战性的数学基准测试上明显优于无工具的ZeroRL基线。我们的发现为自主工具使用在代理RL中如何获得及其扩展提供了一个基础理解，并为未来的研究提供了一个可再现的标准。代码发布在 \href{https://github.com/yyht/openrlhf_async_pipline}{https://github.com/yyht/openrlhf_async_pipline}。