摘要
arXiv:2504.16727v1 交叉公告类型:
摘要:大型视觉语言模型(LVLMs)在各种视觉-语言任务中表现出色。然而,它们在视角和环境变化导致的真实场景中对象固有的位置、尺度、方向和上下文变化方面的鲁棒性仍然很大程度上未被探索。为了解决这一差距,我们提出了一种名为 V$^2$R-Bench 的全面基准框架,用于评估 LVLM 的视觉变化鲁棒性,涵盖自动评估数据集生成和严格评估的原理性度量标准。通过对 21 种 LVLM 的广泛评估,我们揭示了一个令人惊讶的视觉变化脆弱性,即即使在复杂视觉-语言任务中表现出色的模型,在简单的如物体识别这类任务上表现显著不佳。有趣的是,这些模型表现出一种与有效的感受野理论相悖的视觉位置偏见,并展示了类似人类的视觉敏锐度阈值。为了识别这些脆弱性的来源,我们提出了一种系统的组件级分析框架,包括一种新颖的对齐视觉特征的可视化方法。结果表明,这些脆弱性源于管道架构中的错误积累和多模态对齐不足。通过合成数据进行的补充实验进一步表明,这些限制本质上是架构缺陷,突显了未来 LVLM 设计中架构创新的必要性。