摘要
随着大型语言模型 (LLMs) 越来越深入地融入社会,它们与人类道德的契合至关重要。为了更好地理解这种契合,我们构建了一个大型语料库,其中包含人类和 LLM 对各种道德情境的回应。我们发现人类和 LLM 的道德评估之间存在偏差:尽管 LLM 和人类都倾向于拒绝道德上复杂的功利主义困境,但 LLM 对个人框架更敏感。随后,我们进行了一项定量用户研究,参与者为 230 人 (N=230),他们评估了这些回应,判断其是否为 AI 生成,并评估他们对回应的认同程度。人类评估者更倾向于 LLM 在道德情境中的评估,尽管观察到了一种系统性的反 AI 偏见:参与者不太可能同意他们认为是机器生成的判断。统计和 NLP 分析揭示了回应中细微的语言差异,影响着检测和认同。总体而言,我们的发现突出了人类-AI 在道德性决策中的感知复杂性。