摘要
随着 ChatGPT 和其他同等规模的最先进大型语言模型 (LLM) 的成功,科学文献中出现了这些模型具有新兴的人类社交推理能力,尤其是心智理论 (ToM) 的说法。一方面,这些 ToM 能力已通过类似于心理学中使用的任务进行成功测试(Kosinski,2023 年)。另一方面,后续研究表明,当任务略微改变时,这些能力就会消失(Ullman,2023 年)。在这项工作中,我们引入了一个包含 68 个任务的新数据集,用于探测 LLM 中的 ToM,包括可能具有挑战性的变体,这些变体被分配到 10 个复杂性类别。这样,它为 LLM 在这些任务变体中面临的挑战提供了新的见解。我们评估了四个最先进的开源 LLM 在我们数据集和(Kosinski,2023 年)引入的数据集上的 ToM 性能。所有评估模型的总体低目标准确率表明 ToM 能力有限。LLM 在两个数据集中的简单复杂性类别任务上的表现相似。然而,我们发现所有测试的 LLM 都表现出一种一致的趋势,即在需要认识到代理人了解其环境中自动状态变化的任务上表现不佳,即使这些变化被明确地告诉模型。对于通过替换介词来改变物体之间关系的任务复杂性,我们注意到所有模型的性能下降,对专家混合模型的影响最大。通过我们按复杂性分组的任务数据集,我们为进一步研究如何稳定和提高 LLM 中的 ToM 能力提供了方向。