摘要
arXiv:2311.09730v2 宣告类型: replace-cross
摘要:人类判断本质上是主观的,并且会受到个人特征如性别和种族的影响。虽然大型语言模型(LLMs)在多种情境下被广泛用于模拟人类反应,但它们在处理主观任务时对人口统计差异的处理能力仍存不确定性。在这项研究中,我们利用POPQUORN数据集,评估了九种流行的LLMs在其处理两个主观判断任务(礼貌和冒犯)的人口统计差异理解能力。我们发现,在零样本设置下,大多数模型在这两个任务中的预测与白人参与者提供的标签更为一致,而不是亚洲或黑人参与者提供的标签,而在礼貌任务中仅显示出轻微的女性偏见。此外,在某些情况下,社会人口统计学提示并没有一致地提高,甚至降低了LLMs从特定子人群感知语言的能力。这些发现突显了在执行主观判断任务时LLMs中可能存在的人口统计偏差,并强调了社会人口统计学提示作为实现多元对齐策略的局限性。代码和数据可在以下链接获取:https://github.com/Jiaxin-Pei/LLM-as-Subjective-Judge。