LLM2D

摘要

arXiv:2502.10273v1 交叉公告类型：cross 摘要：知觉恒常性是指在感官输入发生变化（如距离、角度或照明的变化）时，仍能保持对象稳定感知的能力。这一能力对于在动态世界中识别视觉信息至关重要，因此对视觉-语言模型（VLMs）来说是必不可少的。然而，当前和理论上VLMs是否已经具备掌握这种能力仍然没有得到充分探索。在这项研究中，我们使用了涵盖三个领域的253次实验来评估33种VLMs：颜色、大小和形状恒常性。实验包括经典的认知任务的一图和视频改编，以及在野外条件下的一些新任务，目的是评估模型在不同条件下的物体属性识别能力。我们发现VLMs的表现存在显著差异，形状恒常性的模型表现与颜色和大小恒常性的模型表现明显不同。