LLM2D

摘要

arXiv:2505.02847v2 宣告类型: replace-cross 摘要：评估大型语言模型（LLM）是否真正理解人类，而不仅仅是文本，仍然是一个开放的挑战。为了解决这一差距，我们引入了“智能代理作为评判者”（SAGE）自动化评估框架，用于衡量LLM的高级社会认知能力。SAGE 实例化了一个模拟人类情感变化和互动中内心想法的智能代理，提供了在多轮对话中更真实的测试模型评估。每一轮，代理都会推理关于（i）其情绪如何变化，（ii）其感觉如何，以及（iii）应该如何回复，从而产生一个数值化的情绪轨迹和可解释的内心想法。在100个支持性对话情景上的实验表明，最终的智能体情绪评分与Barrett-Lennard关系量表（BLRI）评分及相关语句级别同理心指标高度相关，验证了心理忠实度。我们还构建了一个公共智能体排行榜，涵盖了18个商业和开源模型，揭示了前沿系统（GPT-4o-Latest, Gemini2.5-Pro）与早期基准之间较大的差距（多达4倍），而这些差距并未反映在传统的排行榜上（例如Arena）。因此，SAGE 提供了一个原理上合理、可扩展且可解释的工具，用于跟踪朝向真正具有同理心和社会适应能力的语言代理的进步。