LLM2D

摘要

arXiv:2409.00557v3 宣告类型: replace-cross 摘要：配备了调用函数的能力，现代大规模语言模型(LLMs)可以通过利用外部工具来解决一系列仅靠语言技能无法完成的任务。然而，有效地执行这些工具不仅仅依赖于LLMs的高级能力，还依赖于精准的用户指令，而在实际世界中往往无法确保这一点。为了评估在不完美指令下LLMs工具使用的性能，我们详细检查了从用户查询的真实世界指令，分析了错误模式，并构建了一个具有挑战性的工具使用基准，称为Noisy ToolBench(NoisyToolBench)。我们发现，由于下一个标记预测训练目标，LLMs往往会任意生成缺失的参数，这可能会导致幻觉和风险。为了解决这个问题，我们提出了一个名为需要时提问(Needed when Asked, AwN)的新型框架，它在遇到因指令不明确而遇到障碍时提示LLMs向用户提问。此外，为了减少用户-LLM交互中的手动劳动，并从准确性和效率的角度评估LLMs在工具利用方面的性能，我们设计了一个名为ToolEvaluator的自动化评估工具。我们的实验表明，AwN在NoisyToolBench中的工具学习现有框架中表现出显著优越性。我们将发布所有相关代码和数据集以支持未来的研究。