LLM2D
大型视觉语言模型幻觉基准测试质量评估
Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models
作者: Bei Yan, Jie Zhang, Zheng Yuan, Shiguang Shan, Xilin Chen
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2406.17115v2

摘要

近年来,大型视觉语言模型 (LVLMs) 取得了快速进展并表现出色,但仍存在幻觉问题,即 LVLMs 倾向于生成与相应视觉输入不一致的响应。为了评估 LVLMs 中幻觉的程度,以往的工作提出了一系列包含不同类型任务和评估指标的基准。然而,我们发现现有幻觉基准的质量参差不齐,一些基准存在问题,例如重复测试结果不一致以及与人工评估不符。为此,我们提出了一种幻觉基准质量度量框架 (HQM),该框架利用各种指标分别评估现有幻觉基准的可靠性和有效性。具体而言,对于可靠性,我们探讨了重测信度和平行形式信度,而对于有效性,我们考察了效标关联效度和幻觉类型的覆盖范围。此外,根据我们的质量度量结果,我们构建了一个用于 LVLMs 的高质量幻觉基准 (HQH),该基准在我们的 HQM 框架下展现出优越的可靠性和有效性。我们对超过 10 个具有代表性的 LVLMs(包括 GPT-4o 和 Gemini-1.5-Pro)进行了广泛的评估,对现有模型中的幻觉问题进行了深入分析。我们的基准已公开发布在 https://github.com/HQHBench/HQHBench。