摘要
大型语言模型 (LLM) 已成为人工智能辩论的中心。然而,如何评估LLM是否符合重要的人类价值观仍然存在差距。本文研究了最先进的LLM,GPT-4和Claude 2.1(Gemini Pro和LLAMA 2未产生有效结果),是否具有道德伪善。我们采用基于道德基础理论的两种研究工具:(i) 道德基础问卷 (MFQ),调查哪些价值观在抽象的道德判断中被认为是道德相关的;(ii) 道德基础情景 (MFV),评估与每个道德基础相关的具体情景中的道德认知。我们将这些不同道德评价抽象之间的价值冲突定义为伪善。我们发现,与人类相比,这两个模型在每种工具内部都表现出合理的 consistency,但在我们将MFQ中存在的抽象价值观与MFV中具体道德违规的评价进行比较时,它们表现出矛盾和伪善的行为。