LLM2D

摘要

大型语言模型 (LLM) 已成为人工智能辩论的中心。然而，如何评估LLM是否符合重要的人类价值观仍然存在差距。本文研究了最先进的LLM，GPT-4和Claude 2.1（Gemini Pro和LLAMA 2未产生有效结果），是否具有道德伪善。我们采用基于道德基础理论的两种研究工具：(i) 道德基础问卷 (MFQ)，调查哪些价值观在抽象的道德判断中被认为是道德相关的；(ii) 道德基础情景 (MFV)，评估与每个道德基础相关的具体情景中的道德认知。我们将这些不同道德评价抽象之间的价值冲突定义为伪善。我们发现，与人类相比，这两个模型在每种工具内部都表现出合理的 consistency，但在我们将MFQ中存在的抽象价值观与MFV中具体道德违规的评价进行比较时，它们表现出矛盾和伪善的行为。