摘要
arXiv:2503.20182v1 宣告类型: cross
摘要: 近期大型语言模型 (LLMs) 的发展使得它们越来越广泛地融入人类生活。随着从简单的工具转变为类人的助手,理解它们的心理学方面——比如情绪倾向和人格特质——变得至关重要,以确保它们的可信度。然而,目前对LLMs的心理评估通常基于人类心理评估方法,如BFI问卷,面临着显著的限制。这些方法得出的结果在预测LLMs在现实生活中的行为方面常常缺乏可靠性且有效性有限。在此工作中,我们介绍了一种专门为LLMs设计的新评估工具,称为核心情感量表 (CSI)。CSI是一种双语工具,涵盖了英语和汉语,能够隐含地评估模型的情感倾向,提供了一个从乐观、悲观和中立三个维度对LLMs进行深入心理学画像。通过大量实验,我们证明了:1) CSI有效地捕捉到了微妙的情感模式,揭示了不同语言和背景下LLMs之间的显著差异;2) 相比于当前的方法,CSI在可靠性上有了显著提高,得出了更一致的结果;3) CSI分数与LLMs实际输出情感的关联超过了0.85,证明了其在预测LLMs行为方面的强效预测能力。我们通过以下链接将CSI公开展示:https://github.com/dependentsign/CSI。