LLM2D
有感知能力的代理作为裁判:评估大型语言模型的高阶社会认知能力
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models
作者: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.02847v2

摘要

arXiv:2505.02847v2 宣告类型: replace-cross 摘要:评估大型语言模型(LLM)是否真正理解人类,而不仅仅是文本,仍然是一个开放的挑战。为了解决这一差距,我们引入了“智能代理作为评判者”(SAGE)自动化评估框架,用于衡量LLM的高级社会认知能力。SAGE 实例化了一个模拟人类情感变化和互动中内心想法的智能代理,提供了在多轮对话中更真实的测试模型评估。每一轮,代理都会推理关于(i)其情绪如何变化,(ii)其感觉如何,以及(iii)应该如何回复,从而产生一个数值化的情绪轨迹和可解释的内心想法。在100个支持性对话情景上的实验表明,最终的智能体情绪评分与Barrett-Lennard关系量表(BLRI)评分及相关语句级别同理心指标高度相关,验证了心理忠实度。我们还构建了一个公共智能体排行榜,涵盖了18个商业和开源模型,揭示了前沿系统(GPT-4o-Latest, Gemini2.5-Pro)与早期基准之间较大的差距(多达4倍),而这些差距并未反映在传统的排行榜上(例如Arena)。因此,SAGE 提供了一个原理上合理、可扩展且可解释的工具,用于跟踪朝向真正具有同理心和社会适应能力的语言代理的进步。