LLM2D
V$^2$R-Bench: 全面评估LVLM对基本视觉变化的鲁棒性
V$^2$R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations
作者: Zhiyuan Fan, Yumeng Wang, Sandeep Polisetty, Yi R. Fung
发布日期: 4/25/2025
arXiv ID: oai:arXiv.org:2504.16727v2

摘要

arXiv:2504.16727v2 交叉类型公告 摘要:大规模视觉语言模型(LVLMs)在各种视觉语言任务中表现出色。然而,由于视角和环境的变化,自然场景中对象不可避免地展现出的位置、尺度、方向和上下文的视觉变化性对其鲁棒性研究仍然相对不足。为了弥合这一差距,我们引入了V$^2$R-Bench,一个全面的基准框架,用于评估LVLMs的视觉变化鲁棒性,该框架涵盖了自动化的评估数据集生成和科学的度量标准,以进行全面的鲁棒性评估。通过在21个LVLMs上的广泛评估,我们揭示了一种令人惊讶的对视觉变化的脆弱性,即使在复杂视觉语言任务中表现出色的模型,在简单的任务如物体识别上也会显著表现不佳。有趣的是,这些模型表现出一种独特的视觉位置偏见,这与有效的感受野理论相矛盾,并显示出类似人类的视觉锐度阈值。为了识别这些脆弱性的根源,我们提出了一个系统化的组件级分析框架,其中包括一种新颖的对齐视觉特征的可视化方法。结果显示,这些脆弱性源自于流水线架构中的错误累积和不充分的跨模态对齐。通过合成数据的补充实验进一步证明,这些限制本质上是架构缺陷,表明未来LVLM设计中需要创新的架构设计。