LLM2D
从稳定性到不一致:关于LLMs中道德偏好的一项研究
From Stability to Inconsistency: A Study of Moral Preferences in LLMs
作者: Monika Jotautaite, Mary Phuong, Chatrik Singh Mangat, Maria Angelica Martinez
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06324v1

摘要

arXiv:2504.06324v1 Announce Type: cross 摘要:随着大型语言模型(LLMs)越来越多地融入我们的日常生活,了解其潜在偏见和道德倾向变得越来越重要。为了解决这个问题,我们引入了一个基于道德基础理论的道德基础LLM数据集(MFD-LLM),该理论通过六个核心基础来概念化人类道德。我们提出了一个新颖的评估方法,通过回答一系列真实世界的道德困境来捕捉LLMs揭示出来的完整道德偏好谱系。我们的研究发现,最先进的模型在价值偏好方面表现出惊人的同质性,但在一致性方面却表现出不足。