LLM2D

摘要

arXiv:2504.06324v1 Announce Type: cross 摘要：随着大型语言模型（LLMs）越来越多地融入我们的日常生活，了解其潜在偏见和道德倾向变得越来越重要。为了解决这个问题，我们引入了一个基于道德基础理论的道德基础LLM数据集（MFD-LLM），该理论通过六个核心基础来概念化人类道德。我们提出了一个新颖的评估方法，通过回答一系列真实世界的道德困境来捕捉LLMs揭示出来的完整道德偏好谱系。我们的研究发现，最先进的模型在价值偏好方面表现出惊人的同质性，但在一致性方面却表现出不足。