LLM2D

摘要

arXiv:2405.05256v2 宣告类型: replace-cross 摘要：在大型视觉-语言模型（LVLM）中减轻幻觉的问题仍然是一个开放性问题。最近的基准测试没有解决开放性自由形式回答中的幻觉，我们将其称为“类型 I 幻觉”。相反，它们关注的是对特定问题格式的幻觉反应——通常是关于某个特定物体或属性的多项选择答案——我们将其称为“类型 II 幻觉”。此外，这些基准测试通常需要调用外部 API，这些 API 可能会更改。实践中，我们观察到类型 II 幻觉的减少并没有导致类型 I 幻觉的减少，反而这两类幻觉经常是反相关的。为了解决这个问题，我们提出了 THRONE，这是一种新颖的对象导向的自动框架，用于定量评估 LVLM 自由形式输出中的类型 I 幻觉。我们使用公共语言模型（LMs）来识别 LVLM 响应中的幻觉，并计算具有信息性的指标。通过使用公共数据集对多种最近的 LVLM 进行评估，我们展示了现有指标的改进并不能减少类型 I 幻觉，而且现有衡量类型 I 幻觉的标准基准是不完整的。最后，我们提供了一种简单而有效的数据增强方法来减少类型 I 和类型 II 幻觉，作为强基准。代码现在可在 https://github.com/amazon-science/THRONE 获取。