LLM2D

摘要

arXiv:2503.20182v1 宣告类型: cross 摘要: 近期大型语言模型 (LLMs) 的发展使得它们越来越广泛地融入人类生活。随着从简单的工具转变为类人的助手，理解它们的心理学方面——比如情绪倾向和人格特质——变得至关重要，以确保它们的可信度。然而，目前对LLMs的心理评估通常基于人类心理评估方法，如BFI问卷，面临着显著的限制。这些方法得出的结果在预测LLMs在现实生活中的行为方面常常缺乏可靠性且有效性有限。在此工作中，我们介绍了一种专门为LLMs设计的新评估工具，称为核心情感量表 (CSI)。CSI是一种双语工具，涵盖了英语和汉语，能够隐含地评估模型的情感倾向，提供了一个从乐观、悲观和中立三个维度对LLMs进行深入心理学画像。通过大量实验，我们证明了：1) CSI有效地捕捉到了微妙的情感模式，揭示了不同语言和背景下LLMs之间的显著差异；2) 相比于当前的方法，CSI在可靠性上有了显著提高，得出了更一致的结果；3) CSI分数与LLMs实际输出情感的关联超过了0.85，证明了其在预测LLMs行为方面的强效预测能力。我们通过以下链接将CSI公开展示：https://github.com/dependentsign/CSI。