LLM2D

摘要

大型语言模型（LLM）已在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于LLM的方法……问卷调查是检测大型语言模型（LLM）人格的常用方法。然而，它们的可靠性经常受到两个主要问题的损害：幻觉（LLM产生不准确或不相关的响应）以及响应对呈现选项顺序的敏感性。为了解决这些问题，我们建议将文本挖掘与问卷调查方法相结合。文本挖掘可以从LLM的响应中提取心理特征，而不会受到选项顺序的影响。此外，由于此方法不依赖于特定答案，因此它减少了幻觉的影响。通过对两种方法的得分进行归一化并计算均方根误差，我们的实验结果证实了这种方法的有效性。为了进一步研究LLM人格特征的起源，我们对预训练语言模型（PLM）（如BERT和GPT）以及对话模型（ChatLLM）（如ChatGPT）进行了实验。结果表明，LLM确实包含某些人格特征，例如，ChatGPT和ChatGLM表现出“尽责性”的人格特征。此外，我们发现LLM的人格特征源于它们的预训练数据。用于训练ChatLLM的指令数据可以增强包含人格特征的数据的生成，并揭示它们隐藏的人格特征。我们将结果与人类平均人格得分进行比较，发现PLM中的FLAN-T5和ChatLLM中的ChatGPT的人格特征更接近于人类，分数差异分别为0.34和0.22。