LLM2D

摘要

大型视觉语言模型（LVLMs）取得了令人印象深刻的性能，但研究指出这些模型中存在严重的物体幻觉问题。然而，目前尚无明确结论表明这些幻觉源于模型的哪个部分。本文对 CLIP 模型中的物体幻觉问题进行了深入研究，CLIP 模型是许多最先进的视觉语言系统的基础。我们发现，即使是孤立的 CLIP 模型也容易产生物体幻觉，这表明幻觉问题并非仅仅由于视觉和语言模态之间的交互作用。为了解决这个问题，我们提出了一种反事实数据增强方法，通过创建具有各种幻觉问题的负样本。我们证明了我们的方法可以有效地减轻 CLIP 模型的物体幻觉，并且我们展示了增强后的模型可以作为视觉编码器使用，有效地缓解了 LVLMs 中的物体幻觉问题。