LLM2D
大型语言模型的道德之心(或)道德之心的大型语言模型
The Moral Mind(s) of Large Language Models
作者: Avner Seror
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2412.04476v2

摘要

arXiv:2412.04476v2 通知类型: 替换交叉 摘要:随着大语言模型(LLMs)在各个行业的决策中发挥作用,出现了一些关键问题:它们是否表现出一种“道德思维”——即一套引导其道德判断的一致性道德原则——以及这种推理是否一致或多样?为探讨这一问题,我们向主要提供者提供了结构化的道德场景集,创建了此类最大的数据集之一。我们的理性测试结果显示,每个提供者至少有一个模型的行为与大约稳定的一致性道德原则一致,几乎就像在优化一个编码道德推理的效用函数。我们估计了这些效用函数并发现,模型倾向于聚集在中立的道德立场上。为进一步表征道德多样性,我们采用了非参数排列方法,基于偏好模式构建了一个概率相似性网络。这种分析显示,虽然大致理性的模型拥有核心的道德结构,但差异依然存在:大约一半的模型表现出更大的道德适应性,跨越了不同的视角,而余下的则坚守更为僵化的道德结构。