摘要
大型语言模型(LLM)已展现出模拟人类社会智能的潜力。然而,大多数研究都集中在简单且静态的自述或基于表现的测试上,这限制了分析的深度和有效性。本文开发了一个新的框架,InterIntent,通过映射 LLM 在游戏环境中理解和管理意图的能力来评估其社会智能。我们关注社会智能的四个维度:情境意识、自我调节、自我意识和心智理论。每个维度都与一项特定的游戏任务相关联:意图选择、意图遵循、意图总结和意图猜测。我们的研究结果表明,虽然 LLM 在选择意图方面表现出很高的熟练程度,准确率达到 88%,但它们推断他人意图的能力明显较弱,落后于人类表现 20%。此外,游戏表现与意图理解相关,突出了这四个组成部分对于在该游戏中取得成功的意义。这些发现强调了意图理解在评估 LLM 的社会智能中的关键作用,并突出了使用社会推理游戏作为复杂测试平台来增强 LLM 评估的潜力。InterIntent 为在多人游戏中弥合社会智能评估差距提供了一种结构化方法。