LLM2D

摘要

arXiv:2505.03821v1 类别: cross 摘要: 我们通过一套新的视觉任务调查了视觉语言模型（VLMs）进行视觉换位思考的能力，这些任务受传统的成人测试启发而设计。我们的方法利用了精心控制的场景，在这些场景中，一名单人形小人偶与单一物体配对。通过系统地改变空间配置——例如，物体相对于人形小人偶的位置以及人形小人偶的朝向——并使用鸟瞰图和表面视图，我们创建了144个独特的视觉任务。每个视觉任务都配套有7道诊断性问题，用于评估三种层次的视觉认知：场景理解、空间推理和视觉换位思考。我们对几种最先进的模型，包括GPT-4-Turbo、GPT-4o、Llama-3.2-11B-Vision-Instruct以及Claude Sonnet的变体进行了评估，结果显示，尽管它们在场景理解方面表现出色，但在空间推理方面性能显著下降，进一步在换位思考方面则表现更差。我们的分析表明，表面级别的物体识别与完成复杂视觉任务所需的深层次的空间和换位推理之间存在差距，这表明未来在开发VLM时需要整合明确的几何表示和定制化的训练协议。