LLM2D

摘要

大型语言模型（LLM）已展现出模拟人类社会智能的潜力。然而，大多数研究都集中在简单且静态的自述或基于表现的测试上，这限制了分析的深度和有效性。本文开发了一个新的框架，InterIntent，通过映射 LLM 在游戏环境中理解和管理意图的能力来评估其社会智能。我们关注社会智能的四个维度：情境意识、自我调节、自我意识和心智理论。每个维度都与一项特定的游戏任务相关联：意图选择、意图遵循、意图总结和意图猜测。我们的研究结果表明，虽然 LLM 在选择意图方面表现出很高的熟练程度，准确率达到 88%，但它们推断他人意图的能力明显较弱，落后于人类表现 20%。此外，游戏表现与意图理解相关，突出了这四个组成部分对于在该游戏中取得成功的意义。这些发现强调了意图理解在评估 LLM 的社会智能中的关键作用，并突出了使用社会推理游戏作为复杂测试平台来增强 LLM 评估的潜力。InterIntent 为在多人游戏中弥合社会智能评估差距提供了一种结构化方法。