LLM2D
视觉语言模型想看什么就看什么,不想看什么就不看什么
Vision Language Models See What You Want but not What You See
作者: Qingying Gao, Yijiang Li, Haiyun Lyu, Haoran Sun, Dezhi Luo, Hokin Deng
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2410.00324v5

摘要

arXiv:2410.00324v5 公告类型: 重写 摘要:了解他人的意图和从他人的角度思考被认为是理论心智的两个核心组成部分,这是人类智能的体现。将这些能力注入机器是构建类似人类的人工智能的重要步骤。为研究视觉语言模型(VLMs)的意图理解和层次2视角处理能力,我们构建了IntentBench和PerspectBench,其中包含超过300个基于现实场景和经典认知任务的认知实验。我们发现VLMs在意图理解方面表现出色,但在层次2视角处理方面表现不佳。这表明VLMs在基于模拟和基于理论的心智理论能力之间可能存在分离,突显其无法利用基于模型的推理来推断他人的心智状态。详见 $\href{https://growing-ai-like-a-child.github.io/}{Website}$