LLM2D
道德图灵测试:评估人类-大型语言模型在道德决策中的对齐性
The Moral Turing Test: Evaluating Human-LLM Alignment in Moral Decision-Making
作者: Basile Garcia, Crystal Qian, Stefano Palminteri
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07304v1

摘要

随着大型语言模型 (LLMs) 越来越深入地融入社会,它们与人类道德的契合至关重要。为了更好地理解这种契合,我们构建了一个大型语料库,其中包含人类和 LLM 对各种道德情境的回应。我们发现人类和 LLM 的道德评估之间存在偏差:尽管 LLM 和人类都倾向于拒绝道德上复杂的功利主义困境,但 LLM 对个人框架更敏感。随后,我们进行了一项定量用户研究,参与者为 230 人 (N=230),他们评估了这些回应,判断其是否为 AI 生成,并评估他们对回应的认同程度。人类评估者更倾向于 LLM 在道德情境中的评估,尽管观察到了一种系统性的反 AI 偏见:参与者不太可能同意他们认为是机器生成的判断。统计和 NLP 分析揭示了回应中细微的语言差异,影响着检测和认同。总体而言,我们的发现突出了人类-AI 在道德性决策中的感知复杂性。