摘要
大型语言模型 (LLMs) 引发了人们对其潜在的思维理论 (ToM) 能力的极大兴趣和争论。目前的思维理论评估主要集中于使用机器生成的数据或容易出现捷径和虚假相关性的游戏设置来测试模型,缺乏对机器 ToM 能力在真实世界的人机交互场景中的评估。这迫切需要开发新的真实世界场景基准。我们介绍了 NegotiationToM,这是一个新的基准,旨在通过对涵盖多维心理状态(即愿望、信念和意图)的真实世界谈判来对机器 ToM 进行压力测试。我们的基准建立在信念-愿望-意图 (BDI) 代理建模理论的基础上,并进行了必要的实证实验来评估大型语言模型。我们的研究结果表明,NegotiationToM 对最先进的 LLMs 来说是一个挑战,因为它们在使用思维链 (CoT) 方法的情况下,其性能始终明显低于人类。