LLM2D

摘要

arXiv:2412.04476v3 宣告类型：替换-交叉摘要：随着大型语言模型（LLMs）越来越多地参与涉及伦理和社会利益的任务，一个关键问题出现了：它们是否表现出一种新兴的“道德心智”——即一种引导其决策的一致的道德偏好结构——以及这种结构在模型之间共享的程度如何？为了调查这个问题，我们应用了揭示偏好理论中的工具，对近40个主要的LLMs进行了测试，向每个模型呈现了跨越五个伦理推理基本维度的许多结构化道德难题。使用概率理性测试，我们发现每个主要提供者至少有一个模型的行为与相对稳定且一致的道德偏好相符，仿佛受到了潜在的效用函数的引导。然后我们估计了这些效用函数，发现大多数模型集中在中立的道德立场上。为了进一步表征异质性，我们采用了非参数置换方法，基于揭示的偏好模式构建了概率相似性网络。结果表明，LLMs的道德推理存在共享的核心部分，但也存在显著的差异：一些模型在不同视角上表现出灵活的推理，而其他模型则坚持更为僵硬的伦理概况。这些发现为评估LLMs的道德一致性提供了新的实证视角，并为跨AI系统进行伦理对齐的基准测试提供了框架。