LLM2D

摘要

心智理论 (ToM) 可用于评估大型语言模型 (LLM) 在需要社会推理的复杂场景中的能力。虽然研究界提出了许多 ToM 基准测试，但它们的难度差异很大，其复杂性也没有得到很好的定义。这项工作提出了一种受认知负荷理论启发的框架来衡量 ToM 任务的复杂性。我们将问题的复杂性量化为正确解决问题所需的态数。我们的复杂性度量也考虑了 ToM 问题的虚假状态，这些状态旨在使其看起来更难。我们使用我们的方法来评估五个广泛采用的 ToM 基准测试的复杂性。在此框架之上，我们设计了一种提示技术，该技术使用环境如何随着代理交互而变化的描述来增强模型可用的信息。我们将这种技术命名为离散世界模型 (DWM)，并展示了它如何在 ToM 任务上获得优越的性能。