LLM2D

摘要

arXiv:2504.19255v1 宣告类型: 新摘要：随着大型语言模型（LLMs）在重大决策情境中的部署越来越多，系统评估其道德推理能力变得至关重要。本文介绍了Priorities in Reasoning and Intrinsic Moral Evaluation（PRIME）框架——一个针对基础伦理维度进行全面分析的方法论，包括结果论-义务论推理、道德基础理论以及科尔伯格的发展阶段。我们通过结合直接提问和对已确立伦理困境的回应分析，将这一框架应用于六种领先的大语言模型。我们的分析揭示了显著的收敛模式：所有评估的模型都强调了关爱/伤害和公平/欺诈的基础，同时在权威、忠诚和圣洁维度上的权重较低。通过详细审查置信度指标、回应犹豫模式以及推理一致性，我们确证当代大语言模型（1）产生明确的道德判断，（2）在道德决策方面显示出可喜的跨模型一致性，（3）总体上与实证确立的人类道德偏好相符。这项研究提供了一种可扩展且可扩展的方法论，以实现道德基准测试，同时强调当前AI道德推理架构的既具前景的功能和系统性限制——这些见解对于负责任的发展这些系统并使其在社会中扮演越来越重要的角色至关重要。