LLM2D

摘要

arXiv:2504.10839v1 类型: cross 摘要：过去几年见证了研究界涌现的研究，将旨在为人类设计的视角理论（Theory-of-Mind, ToM）任务应用于评估语言模型（LLM）的ToM能力，以此作为评估LLM社会智能的一种指标。然而，这种做法存在诸多局限性。借鉴现有心理学和人工智能领域的文献，我们总结了这些理论、方法和评估局限性，并指出某些问题在最初用于评估人类ToM的ToM任务中是固有的，而当这些任务被借用以评估LLM的ToM能力时，这些问题不仅持续存在，还会进一步加剧。从人机交互（Human-Computer Interaction, HCI）的角度来看，这些局限促使我们重新思考ToM在ToM基准测试中的定义和标准，采取一种更动态、交互的方式，以考虑用户在这些评估中对LLM的偏好、需求和体验。最后，我们概述了朝着这一方向的潜在机会和挑战。