LLM2D
通过强化学习实现最优工具调用
OTC: Optimal Tool Calls via Reinforcement Learning
作者: Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14870v1

摘要

arXiv:2504.14870v1 宣布类型: 新 摘要: 工具集成推理(TIR)通过赋予大型语言模型(LLMs)调用外部工具(如搜索引擎和代码解释器)的能力,来解决语言推理能力之外的任务。虽然强化学习(RL)在通过优化最终答案的正确性来提高TIR方面显示出潜力,但现有方法往往忽视了工具使用相关的效率和成本问题。这可能导致不理想的性能,包括过度的工具调用增加计算和财务负担,或工具使用不足导致答案质量下降。在本文中,我们提出了一种简单的有效RL框架——最优工具调用控制政策优化(OTC-PO),该框架鼓励模型在最少工具调用的情况下生成准确的答案。我们的方法引入了一个工具集成奖励,该奖励同时考虑了正确性和工具效率,促进高工具生产力。我们在Proximal Policy Optimization(PPO)和Group Relative Preference Optimization(GRPO)中实现了这一框架,分别得到OTC-PPO和OTC-GRPO。使用Qwen-2.5和Qwen-Math在多个问答基准测试中的实验结果显示,我们的方法将工具调用次数减少了最多73.1%,同时将工具生产力提高了最多229.4%,并且保持了类似的答案准确性。据我们所知,这是第一个在TIR中显式优化工具使用效率的RL框架。