LLM2D
视觉语言模型能理解你想要什么,但不能理解你所见
Vision Language Models See What You Want but not What You See
作者: Qingying Gao, Yijiang Li, Haiyun Lyu, Haoran Sun, Dezhi Luo, Hokin Deng
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00324v1

摘要

了解他人的意图和采取他人的视角是人类智能的两个核心组成部分,通常被认为是心智理论的体现。将这些能力融入机器是构建人类水平人工智能的重要一步。最近,李等人构建了CogDevelop2K,这是一个数据密集型认知实验基准,用于评估机器智能的发展轨迹。在这里,为了研究视觉语言模型中的意图理解和视角采纳,我们利用CogDevelop2K的IntentBench和PerspectBench,分别包含超过300个基于现实世界场景和经典认知任务的认知实验。令人惊讶的是,我们发现VLM在意图理解方面取得了很高的性能,但在视角采纳方面却表现不佳。这挑战了认知科学文献中普遍存在的观点,即在相应模态上进行视角采纳对于意图理解是必要的。