摘要
了解他人的意图和采取他人的视角是人类智能的两个核心组成部分,通常被认为是心智理论的体现。将这些能力融入机器是构建人类水平人工智能的重要一步。最近,李等人构建了CogDevelop2K,这是一个数据密集型认知实验基准,用于评估机器智能的发展轨迹。在这里,为了研究视觉语言模型中的意图理解和视角采纳,我们利用CogDevelop2K的IntentBench和PerspectBench,分别包含超过300个基于现实世界场景和经典认知任务的认知实验。令人惊讶的是,我们发现VLM在意图理解方面取得了很高的性能,但在视角采纳方面却表现不佳。这挑战了认知科学文献中普遍存在的观点,即在相应模态上进行视角采纳对于意图理解是必要的。