摘要
arXiv:2504.10786v2 通告类型: 交叉替换
摘要:视觉语言模型(VLMs)在视觉推理任务中表现出色,成功应对了需要高层次图像理解的大学级挑战。然而,VLMs在处理像方向、位置、连续性和遮挡这样的基础视觉概念时的一些近期报告显示,人类和VLM视觉之间可能存在一条潜在的鸿沟。在这里,我们利用神经心理学的工具,系统评估了三个最新的VLMs在视觉领域的能力。通过从六个临床和实验电池中抽样的51项测试,我们根据健康成年人的正常表现,描述了领先VLMs的视觉能力。虽然这些模型在简单的对象识别任务中表现出色,但我们发现其在低级和中级视觉能力上的普遍缺陷,这些缺陷在人类中被认为是临床显著的。这些选择性的缺陷,通过经过验证的测试电池进行特征描述,表明一个人工系统可以在无需发展对人类而言无需显式训练的基础视觉概念的情况下,实现复杂的对象识别。