摘要
arXiv:2504.10839v1 类型: cross
摘要:过去几年见证了研究界涌现的研究,将旨在为人类设计的视角理论(Theory-of-Mind, ToM)任务应用于评估语言模型(LLM)的ToM能力,以此作为评估LLM社会智能的一种指标。然而,这种做法存在诸多局限性。借鉴现有心理学和人工智能领域的文献,我们总结了这些理论、方法和评估局限性,并指出某些问题在最初用于评估人类ToM的ToM任务中是固有的,而当这些任务被借用以评估LLM的ToM能力时,这些问题不仅持续存在,还会进一步加剧。从人机交互(Human-Computer Interaction, HCI)的角度来看,这些局限促使我们重新思考ToM在ToM基准测试中的定义和标准,采取一种更动态、交互的方式,以考虑用户在这些评估中对LLM的偏好、需求和体验。最后,我们概述了朝着这一方向的潜在机会和挑战。