摘要
arXiv:2504.06324v1 Announce Type: cross
摘要:随着大型语言模型(LLMs)越来越多地融入我们的日常生活,了解其潜在偏见和道德倾向变得越来越重要。为了解决这个问题,我们引入了一个基于道德基础理论的道德基础LLM数据集(MFD-LLM),该理论通过六个核心基础来概念化人类道德。我们提出了一个新颖的评估方法,通过回答一系列真实世界的道德困境来捕捉LLMs揭示出来的完整道德偏好谱系。我们的研究发现,最先进的模型在价值偏好方面表现出惊人的同质性,但在一致性方面却表现出不足。