摘要
大型视觉语言模型(LVLMs)取得了令人印象深刻的性能,但研究指出这些模型中存在严重的物体幻觉问题。然而,目前尚无明确结论表明这些幻觉源于模型的哪个部分。本文对 CLIP 模型中的物体幻觉问题进行了深入研究,CLIP 模型是许多最先进的视觉语言系统的基础。我们发现,即使是孤立的 CLIP 模型也容易产生物体幻觉,这表明幻觉问题并非仅仅由于视觉和语言模态之间的交互作用。为了解决这个问题,我们提出了一种反事实数据增强方法,通过创建具有各种幻觉问题的负样本。我们证明了我们的方法可以有效地减轻 CLIP 模型的物体幻觉,并且我们展示了增强后的模型可以作为视觉编码器使用,有效地缓解了 LVLMs 中的物体幻觉问题。