LLM2D

摘要

在社会生活中，人类拥有推断和推理他人心理状态（如情绪、信念和意图）的能力，这被称为心智理论（ToM）。同时，人类的心理状态会随着社会情境的改变而变化，我们将这种能力称为社会化。这两种能力共同构成了人际交往的基础。在人工智能（AI）时代，特别是随着大型语言模型（LLMs）的发展，我们提出了一个有趣的问题：LLMs 在 ToM 和社会化能力方面表现如何？更广泛地说，这些 AI 模型真的能进入并驾驭真实的社会世界吗？现有的研究通过将 LLMs 作为第三人称视角的被动观察者来评估 LLMs 的 ToM 和社会化能力，而不是作为积极参与者。然而，与第三人称视角相比，从以自我为中心的**第一人称视角**观察和理解世界，对人类和 AI 智能体来说都是一种自然的方式。LLMs 从第一人称视角的 ToM 和社会化能力，是推动具身 AI 智能体发展的一个关键属性，但仍未得到探索。为了回答上述问题并弥合研究差距，我们引入了 EgoSocialArena，这是一个新颖的框架，旨在从第一人称视角评估和研究 LLMs 的 ToM 和社会化能力。它包含两种评估环境：静态环境和交互环境，以及七种场景：日常生活、反事实、新世界、二十一点、猜数字和限注德州扑克，总计 2,195 个数据条目。利用 EgoSocialArena，我们对九种先进的 LLMs 进行了全面评估，并观察到一些关于 LLMs 未来发展以及目前最先进的 LLMs 能力水平的关键见解。