LLM2D

摘要

了解他人的意图和采取他人的视角是人类智能的两个核心组成部分，通常被认为是心智理论的体现。将这些能力融入机器是构建人类水平人工智能的重要一步。最近，李等人构建了CogDevelop2K，这是一个数据密集型认知实验基准，用于评估机器智能的发展轨迹。在这里，为了研究视觉语言模型中的意图理解和视角采纳，我们利用CogDevelop2K的IntentBench和PerspectBench，分别包含超过300个基于现实世界场景和经典认知任务的认知实验。令人惊讶的是，我们发现VLM在意图理解方面取得了很高的性能，但在视角采纳方面却表现不佳。这挑战了认知科学文献中普遍存在的观点，即在相应模态上进行视角采纳对于意图理解是必要的。