LLM2D

摘要

arXiv:2504.16727v1 交叉公告类型：摘要：大型视觉语言模型（LVLMs）在各种视觉-语言任务中表现出色。然而，它们在视角和环境变化导致的真实场景中对象固有的位置、尺度、方向和上下文变化方面的鲁棒性仍然很大程度上未被探索。为了解决这一差距，我们提出了一种名为 V$^2$R-Bench 的全面基准框架，用于评估 LVLM 的视觉变化鲁棒性，涵盖自动评估数据集生成和严格评估的原理性度量标准。通过对 21 种 LVLM 的广泛评估，我们揭示了一个令人惊讶的视觉变化脆弱性，即即使在复杂视觉-语言任务中表现出色的模型，在简单的如物体识别这类任务上表现显著不佳。有趣的是，这些模型表现出一种与有效的感受野理论相悖的视觉位置偏见，并展示了类似人类的视觉敏锐度阈值。为了识别这些脆弱性的来源，我们提出了一种系统的组件级分析框架，包括一种新颖的对齐视觉特征的可视化方法。结果表明，这些脆弱性源于管道架构中的错误积累和多模态对齐不足。通过合成数据进行的补充实验进一步表明，这些限制本质上是架构缺陷，突显了未来 LVLM 设计中架构创新的必要性。