摘要
arXiv:2502.10273v1 交叉公告类型:cross
摘要:知觉恒常性是指在感官输入发生变化(如距离、角度或照明的变化)时,仍能保持对象稳定感知的能力。这一能力对于在动态世界中识别视觉信息至关重要,因此对视觉-语言模型(VLMs)来说是必不可少的。然而,当前和理论上VLMs是否已经具备掌握这种能力仍然没有得到充分探索。在这项研究中,我们使用了涵盖三个领域的253次实验来评估33种VLMs:颜色、大小和形状恒常性。实验包括经典的认知任务的一图和视频改编,以及在野外条件下的一些新任务,目的是评估模型在不同条件下的物体属性识别能力。我们发现VLMs的表现存在显著差异,形状恒常性的模型表现与颜色和大小恒常性的模型表现明显不同。