LLM2D
探究大型视觉语言模型中的知觉恒常性
Probing Perceptual Constancy in Large Vision Language Models
作者: Haoran Sun, Suyang Yu, Yijiang Li, Qingying Gao, Haiyun Lyu, Hokin Deng, Dezhi Luo
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10273v1

摘要

arXiv:2502.10273v1 交叉公告类型:cross 摘要:知觉恒常性是指在感官输入发生变化(如距离、角度或照明的变化)时,仍能保持对象稳定感知的能力。这一能力对于在动态世界中识别视觉信息至关重要,因此对视觉-语言模型(VLMs)来说是必不可少的。然而,当前和理论上VLMs是否已经具备掌握这种能力仍然没有得到充分探索。在这项研究中,我们使用了涵盖三个领域的253次实验来评估33种VLMs:颜色、大小和形状恒常性。实验包括经典的认知任务的一图和视频改编,以及在野外条件下的一些新任务,目的是评估模型在不同条件下的物体属性识别能力。我们发现VLMs的表现存在显著差异,形状恒常性的模型表现与颜色和大小恒常性的模型表现明显不同。