摘要
工具增强型大型语言模型 (LLM) 正在迅速融入现实世界应用。由于缺乏基准,社区尚未完全了解这些模型中的幻觉问题。为了应对这一挑战,我们引入了一个全面的诊断基准,ToolBH。具体来说,我们从深度和广度两个角度评估了 LLM 的幻觉。在深度方面,我们提出了一个多层次的诊断过程,包括(1)可解性检测,(2)解决方案规划,以及(3)缺失工具分析。在广度方面,我们根据工具集的特性考虑了三种场景:缺少必要的工具、潜在工具和功能有限的工具。此外,我们开发了七项任务,并通过多轮人工标注收集了 700 个评估样本。结果表明,ToolBH 基准带来了重大挑战。目前先进的模型 Gemini-1.5-Pro 和 GPT-4o 在 100 分的量表上分别只取得了 45.3 分和 37.0 分的总分。在这个基准中,更大的模型参数并不保证更好的性能;训练数据和响应策略在工具增强型 LLM 场景中也起着至关重要的作用。我们的诊断分析表明,模型错误的主要原因在于评估任务的可解性。此外,开放权重模型在冗长的回复中性能下降,而专有模型在更长的推理中表现出色。