LLM2D
THRONE: 一种面向自由形式生成的大规模视觉语言模型的基于对象的幻觉基准
THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models
作者: Prannay Kaul, Zhizhong Li, Hao Yang, Yonatan Dukler, Ashwin Swaminathan, C. J. Taylor, Stefano Soatto
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2405.05256v2

摘要

arXiv:2405.05256v2 宣告类型: replace-cross 摘要:在大型视觉-语言模型(LVLM)中减轻幻觉的问题仍然是一个开放性问题。最近的基准测试没有解决开放性自由形式回答中的幻觉,我们将其称为“类型 I 幻觉”。相反,它们关注的是对特定问题格式的幻觉反应——通常是关于某个特定物体或属性的多项选择答案——我们将其称为“类型 II 幻觉”。此外,这些基准测试通常需要调用外部 API,这些 API 可能会更改。实践中,我们观察到类型 II 幻觉的减少并没有导致类型 I 幻觉的减少,反而这两类幻觉经常是反相关的。为了解决这个问题,我们提出了 THRONE,这是一种新颖的对象导向的自动框架,用于定量评估 LVLM 自由形式输出中的类型 I 幻觉。我们使用公共语言模型(LMs)来识别 LVLM 响应中的幻觉,并计算具有信息性的指标。通过使用公共数据集对多种最近的 LVLM 进行评估,我们展示了现有指标的改进并不能减少类型 I 幻觉,而且现有衡量类型 I 幻觉的标准基准是不完整的。最后,我们提供了一种简单而有效的数据增强方法来减少类型 I 和类型 II 幻觉,作为强基准。代码现在可在 https://github.com/amazon-science/THRONE 获取。