LLM2D

摘要

近年来，工具增强型大型语言模型（LLMs）越来越受到关注。给定一个指令，工具增强型LLMs可以与各种外部工具进行多轮交互，并提供最终答案。然而，之前的LLMs是在过于详细的指令上进行训练的，这些指令包括API名称或参数，而实际用户不会明确提及这些API细节。这导致了训练好的LLMs与现实场景之间的差距。此外，大多数工作忽略了交互过程是否遵循指令。为了解决这些问题，我们构建了一个名为MGToolBench的训练数据集，其中包含语句和类别级别的指令，以更好地反映现实场景。此外，我们提出了ToolPlanner，一个两阶段强化学习框架，它利用路径规划和两种反馈机制来增强LLMs的任务完成和指令遵循能力。实验结果表明，与SOTA模型相比，ToolPlanner的匹配率、通过率和胜率分别提高了26.8%、20.2%和5.6%。人工评估验证了多粒度指令可以更好地与用户的使用习惯相一致。我们的数据和代码将在接受后发布。