摘要
大型语言模型(LLM)已在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法……问卷调查是检测大型语言模型(LLM)人格的常用方法。然而,它们的可靠性经常受到两个主要问题的损害:幻觉(LLM产生不准确或不相关的响应)以及响应对呈现选项顺序的敏感性。为了解决这些问题,我们建议将文本挖掘与问卷调查方法相结合。文本挖掘可以从LLM的响应中提取心理特征,而不会受到选项顺序的影响。此外,由于此方法不依赖于特定答案,因此它减少了幻觉的影响。通过对两种方法的得分进行归一化并计算均方根误差,我们的实验结果证实了这种方法的有效性。为了进一步研究LLM人格特征的起源,我们对预训练语言模型(PLM)(如BERT和GPT)以及对话模型(ChatLLM)(如ChatGPT)进行了实验。结果表明,LLM确实包含某些人格特征,例如,ChatGPT和ChatGLM表现出“尽责性”的人格特征。此外,我们发现LLM的人格特征源于它们的预训练数据。用于训练ChatLLM的指令数据可以增强包含人格特征的数据的生成,并揭示它们隐藏的人格特征。我们将结果与人类平均人格得分进行比较,发现PLM中的FLAN-T5和ChatLLM中的ChatGPT的人格特征更接近于人类,分数差异分别为0.34和0.22。