摘要
近年来,工具增强型大型语言模型(LLMs)越来越受到关注。给定一个指令,工具增强型LLMs可以与各种外部工具进行多轮交互,并提供最终答案。然而,之前的LLMs是在过于详细的指令上进行训练的,这些指令包括API名称或参数,而实际用户不会明确提及这些API细节。这导致了训练好的LLMs与现实场景之间的差距。此外,大多数工作忽略了交互过程是否遵循指令。为了解决这些问题,我们构建了一个名为MGToolBench的训练数据集,其中包含语句和类别级别的指令,以更好地反映现实场景。此外,我们提出了ToolPlanner,一个两阶段强化学习框架,它利用路径规划和两种反馈机制来增强LLMs的任务完成和指令遵循能力。实验结果表明,与SOTA模型相比,ToolPlanner的匹配率、通过率和胜率分别提高了26.8%、20.2%和5.6%。人工评估验证了多粒度指令可以更好地与用户的使用习惯相一致。我们的数据和代码将在接受后发布。