LLM2D

摘要

本研究揭示了可指示的视觉语言模型（VLMs）与人类认知障碍，特别是构思性失用症之间意想不到的平行关系。我们测试了 25 种最先进的 VLMs，包括 GPT-4 Vision、DALL-E 3 和 Midjourney v5，评估它们生成庞佐错觉图像的能力，这项任务需要基本的空间推理能力，通常用于构思性失用症的临床评估。值得注意的是，25 个模型中有 24 个未能正确渲染两条水平线，使其与透视背景相对应，这反映了顶叶受损患者的表现。这些模型始终错误地解释空间指令，产生了倾斜或错位的线条，这些线条遵循背景的透视关系，而不是保持水平。这种行为与失用症患者在视觉感知和运动技能完好的情况下难以复制或构建简单图形的方式惊人地相似。我们的研究结果表明，当前的 VLMs 尽管在其他领域具有先进的功能，但缺乏类似于构思性失用症患者受损的那些基本的空间推理能力。这种 AI 系统的局限性为研究空间认知缺陷提供了一种新颖的计算模型，并突出了 VLM 架构和训练方法改进的至关重要领域。