LLM2D

摘要

arXiv:2504.08399v1 交叉公告类型：摘要：对大型语言模型（LLMs）的人格特质进行评估的兴趣正在增长。然而，基于自我报告问卷的传统人格评估可能会因固有的偏见和元知识污染而无法准确捕捉到它们的真实行为细微差别。本文介绍了一种新颖的多观察者框架，该框架借鉴了心理学中的信息员报告方法。与仅依赖自我评估不同，我们的方法采用多个观察者代理，并配置了特定的关系背景（例如，家庭、朋友或工作场所），以模拟与目标LLM的互动情景。这些观察者与目标LLM进行对话，并随后对五大人格维度进行评分。我们的实验表明，LLMs在自我报告的人格评级中存在系统性偏差。此外，汇总观察者的评分有效地减少了非系统性偏差，并且使用5-7个观察者可以实现最优可靠性。研究结果突显了关系背景对人格感知的重大影响，并证明多观察者范式能更稳健且情境敏感地评估LLM的人格特质。