LLM2D

摘要

arXiv:2409.14826v1 公告类型: 交叉摘要: 近期，工具增强型大型语言模型（LLMs）引起了越来越多的关注。给定一个指令，工具增强型LLMs可以与各种外部工具进行多轮交互并提供最终答案。然而，之前的LLMs是在过于详细的指令上训练的，这些指令包括API名称或参数，而真实用户不会明确提及这些API细节。这导致训练的LLMs与现实场景之间存在差距。此外，大多数工作忽略了交互过程是否遵循指令。为了解决这些问题，我们构建了一个名为MGToolBench的训练数据集，其中包含陈述和类别级别的指令，以更好地反映现实场景。此外，我们提出了ToolPlanner，一个两阶段的强化学习框架，利用路径规划和两种反馈机制来增强LLM的任务完成和指令遵循能力。实验结果表明，与SOTA模型相比，ToolPlanner显著提高了匹配率、通过率和胜率，分别提高了26.8%、20.2%和5.6%。人类评估验证了多粒度指令能更好地符合用户的习惯。我们的数据和代码将在接受后发布。