LLM2D

摘要

工具增强型大型语言模型 (LLM) 正在迅速融入现实世界应用。由于缺乏基准，社区尚未完全了解这些模型中的幻觉问题。为了应对这一挑战，我们引入了一个全面的诊断基准，ToolBH。具体来说，我们从深度和广度两个角度评估了 LLM 的幻觉。在深度方面，我们提出了一个多层次的诊断过程，包括（1）可解性检测，（2）解决方案规划，以及（3）缺失工具分析。在广度方面，我们根据工具集的特性考虑了三种场景：缺少必要的工具、潜在工具和功能有限的工具。此外，我们开发了七项任务，并通过多轮人工标注收集了 700 个评估样本。结果表明，ToolBH 基准带来了重大挑战。目前先进的模型 Gemini-1.5-Pro 和 GPT-4o 在 100 分的量表上分别只取得了 45.3 分和 37.0 分的总分。在这个基准中，更大的模型参数并不保证更好的性能；训练数据和响应策略在工具增强型 LLM 场景中也起着至关重要的作用。我们的诊断分析表明，模型错误的主要原因在于评估任务的可解性。此外，开放权重模型在冗长的回复中性能下降，而专有模型在更长的推理中表现出色。