LLM2D
DASH:检测和评估系统幻觉的大型语言模型的检测与评估
DASH: Detection and Assessment of Systematic Hallucinations of VLMs
作者: Maximilian Augustin, Yannic Neuhaus, Matthias Hein
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23573v1

摘要

arXiv:2503.23573v1 交叉类型: cross 摘要:视觉-语言模型(VLMs)容易出现物体错觉现象,即它们错误地表明图像中存在某些物体。现有的基准是通过相对较小且已标记的数据集来量化错觉的。然而,这种方法在以下两个方面存在不足:i) 无法评估在开放世界环境中产生的错觉,而VLMs广泛应用于此类环境;ii) 无法检测VLMs中的系统性错误。我们提出了DASH(Detection and Assessment of Systematic Hallucinations)自动大规模流水线,旨在识别VLMs在开放世界环境中对真实世界图像中的系统性错觉。关键组成部分是基于图像的检索DASH-OPT,我们通过优化“自然图像流形”来生成误导VLM的图像。DASH的输出包括VLM错觉产生的真实和语义相似图像的簇。我们使用DASH对PaliGemma和两个LLaVA-NeXT模型在380个对象类别上进行了测试,并总共找到了19,000多个簇,涉及950,000张图像。我们研究了识别出的系统性错觉在其他VLM中的转移,并展示了使用DASH获得的模型特定图像对PaliGemma进行微调可以减轻物体错觉。相关代码和数据可在https://YanNeu.github.io/DASH处获取。