LLM2D

摘要

近年来，大型视觉语言模型 (LVLMs) 取得了快速进展并表现出色，但仍存在幻觉问题，即 LVLMs 倾向于生成与相应视觉输入不一致的响应。为了评估 LVLMs 中幻觉的程度，以往的工作提出了一系列包含不同类型任务和评估指标的基准。然而，我们发现现有幻觉基准的质量参差不齐，一些基准存在问题，例如重复测试结果不一致以及与人工评估不符。为此，我们提出了一种幻觉基准质量度量框架 (HQM)，该框架利用各种指标分别评估现有幻觉基准的可靠性和有效性。具体而言，对于可靠性，我们探讨了重测信度和平行形式信度，而对于有效性，我们考察了效标关联效度和幻觉类型的覆盖范围。此外，根据我们的质量度量结果，我们构建了一个用于 LVLMs 的高质量幻觉基准 (HQH)，该基准在我们的 HQM 框架下展现出优越的可靠性和有效性。我们对超过 10 个具有代表性的 LVLMs（包括 GPT-4o 和 Gemini-1.5-Pro）进行了广泛的评估，对现有模型中的幻觉问题进行了深入分析。我们的基准已公开发布在 https://github.com/HQHBench/HQHBench。