LLM2D
视觉语言模型看到你想要看到的,而非你实际看到的
Vision Language Models See What You Want but not What You See
作者: Qingying Gao, Yijiang Li, Haiyun Lyu, Haoran Sun, Dezhi Luo, Hokin Deng
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2410.00324v4

摘要

arXiv:2410.00324v4 通知类型: 更新 摘要:了解他人的意图和站在他人的角度是人类智能的两个核心组成部分,被认为是对理论心智的实现。将这些能力植入机器是构建人类水平的人工智能的重要一步。为了研究Vision Language Models (VLMs)的意图理解和二级视角推理能力,我们构建了IntentBench和PerspectBench,其中包含超过300个基于实际场景和经典认知任务的认知实验。我们发现VLMs在意图理解方面表现出色,但在二级视角推理方面表现不佳。这表明VLMs在模拟和基于理论的心智状态推理之间可能存在潜在的分离,突显了它们无法使用基于模型的推理来推断他人心理状态的担忧。详情请参见$\href{https://growing-ai-like-a-child.github.io/pages/Three%20Mountain%20Task/}{网站}$