摘要
arXiv:2504.14870v1 宣布类型: 新
摘要: 工具集成推理(TIR)通过赋予大型语言模型(LLMs)调用外部工具(如搜索引擎和代码解释器)的能力,来解决语言推理能力之外的任务。虽然强化学习(RL)在通过优化最终答案的正确性来提高TIR方面显示出潜力,但现有方法往往忽视了工具使用相关的效率和成本问题。这可能导致不理想的性能,包括过度的工具调用增加计算和财务负担,或工具使用不足导致答案质量下降。在本文中,我们提出了一种简单的有效RL框架——最优工具调用控制政策优化(OTC-PO),该框架鼓励模型在最少工具调用的情况下生成准确的答案。我们的方法引入了一个工具集成奖励,该奖励同时考虑了正确性和工具效率,促进高工具生产力。我们在Proximal Policy Optimization(PPO)和Group Relative Preference Optimization(GRPO)中实现了这一框架,分别得到OTC-PPO和OTC-GRPO。使用Qwen-2.5和Qwen-Math在多个问答基准测试中的实验结果显示,我们的方法将工具调用次数减少了最多73.1%,同时将工具生产力提高了最多229.4%,并且保持了类似的答案准确性。据我们所知,这是第一个在TIR中显式优化工具使用效率的RL框架。