摘要
arXiv:2504.16727v2 交叉类型公告
摘要:大规模视觉语言模型(LVLMs)在各种视觉语言任务中表现出色。然而,由于视角和环境的变化,自然场景中对象不可避免地展现出的位置、尺度、方向和上下文的视觉变化性对其鲁棒性研究仍然相对不足。为了弥合这一差距,我们引入了V$^2$R-Bench,一个全面的基准框架,用于评估LVLMs的视觉变化鲁棒性,该框架涵盖了自动化的评估数据集生成和科学的度量标准,以进行全面的鲁棒性评估。通过在21个LVLMs上的广泛评估,我们揭示了一种令人惊讶的对视觉变化的脆弱性,即使在复杂视觉语言任务中表现出色的模型,在简单的任务如物体识别上也会显著表现不佳。有趣的是,这些模型表现出一种独特的视觉位置偏见,这与有效的感受野理论相矛盾,并显示出类似人类的视觉锐度阈值。为了识别这些脆弱性的根源,我们提出了一个系统化的组件级分析框架,其中包括一种新颖的对齐视觉特征的可视化方法。结果显示,这些脆弱性源自于流水线架构中的错误累积和不充分的跨模态对齐。通过合成数据的补充实验进一步证明,这些限制本质上是架构缺陷,表明未来LVLM设计中需要创新的架构设计。