LLM2D

摘要

arXiv:2505.08106v1 类型: cross 摘要: 在大型语言模型（LLMs）研究中的一个开放问题在于，它们是否能够模仿人类的道德推理，并作为人类判断的可信代理。为了探讨这一问题，我们引入了一个基准数据集，包含196个真实世界的道德困境和专家意见，每个困境被分割成五个结构化的组成部分：引言、关键因素、历史理论视角、解决方案策略和关键要点。我们还收集了非专家的人类响应进行比较，但由于这些部分的简短性，仅限于关键因素部分。我们使用基于BLEU、Damerau-Levenshtein距离、TF-IDF余弦相似性和通用句子编码相似性的复合度量框架来评估多个最前沿的LLMs（GPT-4o-mini、Claude-3.5-Sonnet、Deepseek-V3、Gemini-1.5-Flash）。度量权重通过基于反向排序校准和成对AHP分析来计算，这使得模型输出与专家响应之间的细粒度比较成为可能。我们的结果显示，LLMs在词汇和结构对齐方面通常优于非专家人类，在所有部分中GPT-4o-mini表现最为稳定。然而，所有模型在历史背景和提出细致的解决方案策略方面都遇到了困难，这需要上下文抽象。尽管非结构化的回应在语义相似度方面偶尔能达到与专家相当的水平，这表明了人类的直观道德推理。这些发现突显了LLMs在道德决策中的优势和当前的局限性。