摘要
在社会生活中,人类拥有推断和推理他人心理状态(如情绪、信念和意图)的能力,这被称为心智理论(ToM)。同时,人类的心理状态会随着社会情境的改变而变化,我们将这种能力称为社会化。这两种能力共同构成了人际交往的基础。在人工智能(AI)时代,特别是随着大型语言模型(LLMs)的发展,我们提出了一个有趣的问题:LLMs 在 ToM 和社会化能力方面表现如何?更广泛地说,这些 AI 模型真的能进入并驾驭真实的社会世界吗?现有的研究通过将 LLMs 作为第三人称视角的被动观察者来评估 LLMs 的 ToM 和社会化能力,而不是作为积极参与者。然而,与第三人称视角相比,从以自我为中心的**第一人称视角**观察和理解世界,对人类和 AI 智能体来说都是一种自然的方式。LLMs 从第一人称视角的 ToM 和社会化能力,是推动具身 AI 智能体发展的一个关键属性,但仍未得到探索。为了回答上述问题并弥合研究差距,我们引入了 EgoSocialArena,这是一个新颖的框架,旨在从第一人称视角评估和研究 LLMs 的 ToM 和社会化能力。它包含两种评估环境:静态环境和交互环境,以及七种场景:日常生活、反事实、新世界、二十一点、猜数字和限注德州扑克,总计 2,195 个数据条目。利用 EgoSocialArena,我们对九种先进的 LLMs 进行了全面评估,并观察到一些关于 LLMs 未来发展以及目前最先进的 LLMs 能力水平的关键见解。