摘要
随着大型语言模型 (LLM) 被广泛用于模拟和建模人类行为,理解它们的偏差变得至关重要。我们开发了一个使用五大性格调查的实验框架,并发现各种大型语言模型中存在先前未被发现的社会期望偏差。通过系统地改变大型语言模型接触到的问题数量,我们证明了它们能够推断出自己正在接受评估。当推断出人格评估时,大型语言模型会将其分数偏向特征维度理想的一端(即,外向性增加,神经质减少等)。这种偏差存在于所有测试模型中,包括 GPT-4/3.5、Claude 3、Llama 3 和 PaLM-2。偏差水平似乎在较新的模型中有所增加,GPT-4 的调查回复变化了 1.20 个(人类)标准差,Llama 3 的变化了 0.98 个标准差——影响非常大。这种偏差对于问题的顺序随机化和释义是稳健的。对所有问题进行反向编码会降低偏差水平,但不会消除偏差,这表明这种效应不能归因于同意偏差。我们的研究结果揭示了一种新出现的社会期望偏差,并表明了使用心理测量测试对大型语言模型进行画像以及使用大型语言模型作为人类参与者的替代品的局限性。