LLM2D

摘要

arXiv:2504.16727v2 交叉类型公告摘要：大规模视觉语言模型（LVLMs）在各种视觉语言任务中表现出色。然而，由于视角和环境的变化，自然场景中对象不可避免地展现出的位置、尺度、方向和上下文的视觉变化性对其鲁棒性研究仍然相对不足。为了弥合这一差距，我们引入了V$^2$R-Bench，一个全面的基准框架，用于评估LVLMs的视觉变化鲁棒性，该框架涵盖了自动化的评估数据集生成和科学的度量标准，以进行全面的鲁棒性评估。通过在21个LVLMs上的广泛评估，我们揭示了一种令人惊讶的对视觉变化的脆弱性，即使在复杂视觉语言任务中表现出色的模型，在简单的任务如物体识别上也会显著表现不佳。有趣的是，这些模型表现出一种独特的视觉位置偏见，这与有效的感受野理论相矛盾，并显示出类似人类的视觉锐度阈值。为了识别这些脆弱性的根源，我们提出了一个系统化的组件级分析框架，其中包括一种新颖的对齐视觉特征的可视化方法。结果显示，这些脆弱性源自于流水线架构中的错误累积和不充分的跨模态对齐。通过合成数据的补充实验进一步证明，这些限制本质上是架构缺陷，表明未来LVLM设计中需要创新的架构设计。