摘要
arXiv:2409.00557v3 宣告类型: replace-cross
摘要:配备了调用函数的能力,现代大规模语言模型(LLMs)可以通过利用外部工具来解决一系列仅靠语言技能无法完成的任务。然而,有效地执行这些工具不仅仅依赖于LLMs的高级能力,还依赖于精准的用户指令,而在实际世界中往往无法确保这一点。为了评估在不完美指令下LLMs工具使用的性能,我们详细检查了从用户查询的真实世界指令,分析了错误模式,并构建了一个具有挑战性的工具使用基准,称为Noisy ToolBench(NoisyToolBench)。我们发现,由于下一个标记预测训练目标,LLMs往往会任意生成缺失的参数,这可能会导致幻觉和风险。为了解决这个问题,我们提出了一个名为需要时提问(Needed when Asked, AwN)的新型框架,它在遇到因指令不明确而遇到障碍时提示LLMs向用户提问。此外,为了减少用户-LLM交互中的手动劳动,并从准确性和效率的角度评估LLMs在工具利用方面的性能,我们设计了一个名为ToolEvaluator的自动化评估工具。我们的实验表明,AwN在NoisyToolBench中的工具学习现有框架中表现出显著优越性。我们将发布所有相关代码和数据集以支持未来的研究。