摘要
arXiv:2504.15485v1 交叉公告类型:cross
摘要:识别和推理被遮挡(部分或完全隐藏)的对象对于理解视觉场景至关重要,因为遮挡在现实环境中的经常发生,并且作为空间理解的障碍。为了测试模型在推理多个遮挡对象方面的能力,我们引入了一个新的任务——通过未见过的区域识别模式中的物体数量(CAPTURe),要求模型通过推断遮挡器(阻挡场景部分的物体)背后的模式延续来计算按模式排列的物体数量。CAPTURe 要求识别视觉模式并进行推理,使其成为评估视觉语言模型(VLMs)是否理解和具备空间理解能力的有用测试平台。通过要求模型推理遮挡对象,CAPTURe 也测试了 VLMs 形成世界模型的能力,这将使它们能够填补缺失信息。CAPTURe 由两部分组成:(1)CAPTURe-real,包含手工筛选的真实物体的模式图像;(2)CAPTURe-synthetic,一个包含生成的模式图像的受控诊断测试。我们评估了四种强大的 VLMs(GPT-4o、Intern-VL2、Molmo 和 Qwen2-VL)在 CAPTURe 上的表现,发现模型在遮挡和未遮挡的模式中都很难计数。 crucial 地,我们发现模型在遮挡方面的表现更差,这表明 VLMs 在推断未见的空间关系方面也存在缺陷:即使是最强大的 VLMs,如 GPT-4o 在遮挡情况下也无法计数。相比之下,我们发现人类在 CAPTURe 中几乎不会犯错。我们还发现,提供被遮挡物体位置的辅助信息可以提高性能,这表明模型错误来自无法处理遮挡以及在图像中进行计数的难度。