LLM2D

摘要

arXiv:2501.01705v2 宣告类型: 替换交叉摘要：理论思维（ToM）是一种基本的心理能力，使人类能够理解并解释他人的心理状态。人类通过整合因果线索和广泛的背景信息中的间接提示来推断他人的想法，这些背景信息通常源自过去的互动。换句话说，人类的ToM在很大程度上依赖于对他人背景和生活故事的理解。不幸的是，由于现有评估机器ToM能力的基准主要使用没有整体背景，特别是角色的个人背景的简短叙述，这一方面被严重忽视。在这篇论文中，我们验证了全面理解个人背景在ToM中的重要性，并评估了大语言模型在这种复杂场景下的表现。为了实现这一目标，我们引入了CharToM基准，该基准基于经典小说中的人物构建了1,035个ToM问题。我们的研究结果显示，受过教育的参与者在阅读过这些小说时的表现与未阅读时相比有了显著的提高。同时，我们在最先进的大语言模型（包括最近的o1和DeepSeek-R1模型）上的实验显示，尽管它们在预训练过程中见过这些故事，但这些模型的表现仍然显著低于人类。这突显了当前大语言模型在捕捉ToM推理所需的细微背景信息方面的局限性。