摘要
arXiv:2406.08702v4 宣布类型: 替换
摘要: 大型多模态视觉-语言模型(LVLMs)在各种多模态任务中表现出色。然而,它们面临着一种称为语言先验的问题,即生成响应时仅基于文本模式,而忽略了图像信息。解决语言先验问题至关重要,因为当处理训练分布外的图像时,这可能导致不可取的偏见或幻觉。尽管语言先验对LVLMs的影响非常重要,但当前对于准确测量语言先验的方法研究却很少。虽然现有的基于事实相反或分布外图像的基准可以部分用于测量语言先验,但它们无法区分语言先验与其他混淆因素。为了解决这个问题,我们提出了一个新的基准叫做VLind-Bench,它是第一个专门设计用于测量LVLMs的语言先验或盲点的基准。它不仅包括对事实相反图像的测试以评估语言先验,还涉及一系列测试以评估更基本的能力,如常识知识、视觉感知和常识偏见。对于基准中的每个实例,我们都确保所有这些基本测试通过后才评估语言先验,从而最小化其他因素对评估的影响。在我们的基准上对最近的LVLMs进行评估和分析揭示,几乎所有模型都表现出对语言先验的显著依赖,给该领域带来了很大的挑战。