LLM2D

摘要

arXiv:2504.15485v1 交叉公告类型：cross 摘要：识别和推理被遮挡（部分或完全隐藏）的对象对于理解视觉场景至关重要，因为遮挡在现实环境中的经常发生，并且作为空间理解的障碍。为了测试模型在推理多个遮挡对象方面的能力，我们引入了一个新的任务——通过未见过的区域识别模式中的物体数量（CAPTURe），要求模型通过推断遮挡器（阻挡场景部分的物体）背后的模式延续来计算按模式排列的物体数量。CAPTURe 要求识别视觉模式并进行推理，使其成为评估视觉语言模型（VLMs）是否理解和具备空间理解能力的有用测试平台。通过要求模型推理遮挡对象，CAPTURe 也测试了 VLMs 形成世界模型的能力，这将使它们能够填补缺失信息。CAPTURe 由两部分组成：（1）CAPTURe-real，包含手工筛选的真实物体的模式图像；（2）CAPTURe-synthetic，一个包含生成的模式图像的受控诊断测试。我们评估了四种强大的 VLMs（GPT-4o、Intern-VL2、Molmo 和 Qwen2-VL）在 CAPTURe 上的表现，发现模型在遮挡和未遮挡的模式中都很难计数。 crucial 地，我们发现模型在遮挡方面的表现更差，这表明 VLMs 在推断未见的空间关系方面也存在缺陷：即使是最强大的 VLMs，如 GPT-4o 在遮挡情况下也无法计数。相比之下，我们发现人类在 CAPTURe 中几乎不会犯错。我们还发现，提供被遮挡物体位置的辅助信息可以提高性能，这表明模型错误来自无法处理遮挡以及在图像中进行计数的难度。