LLM2D

摘要

arXiv:2503.23573v1 交叉类型: cross 摘要：视觉-语言模型（VLMs）容易出现物体错觉现象，即它们错误地表明图像中存在某些物体。现有的基准是通过相对较小且已标记的数据集来量化错觉的。然而，这种方法在以下两个方面存在不足：i) 无法评估在开放世界环境中产生的错觉，而VLMs广泛应用于此类环境；ii) 无法检测VLMs中的系统性错误。我们提出了DASH（Detection and Assessment of Systematic Hallucinations）自动大规模流水线，旨在识别VLMs在开放世界环境中对真实世界图像中的系统性错觉。关键组成部分是基于图像的检索DASH-OPT，我们通过优化“自然图像流形”来生成误导VLM的图像。DASH的输出包括VLM错觉产生的真实和语义相似图像的簇。我们使用DASH对PaliGemma和两个LLaVA-NeXT模型在380个对象类别上进行了测试，并总共找到了19,000多个簇，涉及950,000张图像。我们研究了识别出的系统性错觉在其他VLM中的转移，并展示了使用DASH获得的模型特定图像对PaliGemma进行微调可以减轻物体错觉。相关代码和数据可在https://YanNeu.github.io/DASH处获取。