LLM2D
ToolPlanner:一种基于路径规划和反馈的多粒度指令增强工具的大型语言模型
ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14826v1

摘要

arXiv:2409.14826v1 公告类型: 交叉 摘要: 近期,工具增强型大型语言模型(LLMs)引起了越来越多的关注。给定一个指令,工具增强型LLMs可以与各种外部工具进行多轮交互并提供最终答案。然而,之前的LLMs是在过于详细的指令上训练的,这些指令包括API名称或参数,而真实用户不会明确提及这些API细节。这导致训练的LLMs与现实场景之间存在差距。此外,大多数工作忽略了交互过程是否遵循指令。为了解决这些问题,我们构建了一个名为MGToolBench的训练数据集,其中包含陈述和类别级别的指令,以更好地反映现实场景。此外,我们提出了ToolPlanner,一个两阶段的强化学习框架,利用路径规划和两种反馈机制来增强LLM的任务完成和指令遵循能力。实验结果表明,与SOTA模型相比,ToolPlanner显著提高了匹配率、通过率和胜率,分别提高了26.8%、20.2%和5.6%。人类评估验证了多粒度指令能更好地符合用户的习惯。我们的数据和代码将在接受后发布。