摘要
arXiv:2504.10786v1 Announce Type: cross
摘要:视觉语言模型(VLMs)在视觉推理任务中表现出色,成功解决了需要较高水平图像理解能力的大学级挑战。然而,近期关于VLMs在处理诸如方向、位置、连续性和遮挡等基本视觉概念方面遇到困难的一些报道暗示了人类与VLM视觉之间的潜在鸿沟。在这里,我们使用神经心理学工具对三种最先进的VLMs的视觉能力进行了系统评估。利用从六个临床和实验battery中抽取的51项测试,我们在健康成年人的正常表现基础上,描述了领先VLMs的视觉能力。虽然这些模型在简单的物体识别任务中表现出色,但我们发现低级和中级视觉能力存在广泛缺陷,这些缺陷在人类中被视为临床显著的。通过验证的test batteries对这些选择性缺陷的特征描述表明,一个人造系统可以在没有发展人类不需要显性训练的基础视觉概念的情况下实现复杂物体识别。