LLM2D

摘要

arXiv:2504.14870v1 宣布类型: 新摘要: 工具集成推理（TIR）通过赋予大型语言模型（LLMs）调用外部工具（如搜索引擎和代码解释器）的能力，来解决语言推理能力之外的任务。虽然强化学习（RL）在通过优化最终答案的正确性来提高TIR方面显示出潜力，但现有方法往往忽视了工具使用相关的效率和成本问题。这可能导致不理想的性能，包括过度的工具调用增加计算和财务负担，或工具使用不足导致答案质量下降。在本文中，我们提出了一种简单的有效RL框架——最优工具调用控制政策优化（OTC-PO），该框架鼓励模型在最少工具调用的情况下生成准确的答案。我们的方法引入了一个工具集成奖励，该奖励同时考虑了正确性和工具效率，促进高工具生产力。我们在Proximal Policy Optimization（PPO）和Group Relative Preference Optimization（GRPO）中实现了这一框架，分别得到OTC-PPO和OTC-GRPO。使用Qwen-2.5和Qwen-Math在多个问答基准测试中的实验结果显示，我们的方法将工具调用次数减少了最多73.1%，同时将工具生产力提高了最多229.4%，并且保持了类似的答案准确性。据我们所知，这是第一个在TIR中显式优化工具使用效率的RL框架。