LLM2D

摘要

随着我们越来越依赖大型语言模型（LLM）来指导日常生活中的决策，许多决策并非易事，很大程度上取决于用户的个人价值观和道德标准。我们提出了 DailyDilemmas 数据集，包含 1360 个日常生活中遇到的道德困境。每个困境包含两种可能的行动，以及每种行动所涉及的受影响方和人类价值观。基于这些困境，我们整合了一组跨越日常主题（如人际关系、工作场所和环境问题）的人类价值观。我们评估了 LLM 在这些困境中的表现，以确定它们会采取什么行动以及这些行动所代表的价值观。然后，我们通过五个受社会学、心理学和哲学启发的流行理论分析了这些价值观。这些理论分别是：世界价值观调查、道德基础理论、马斯洛需求层次理论、亚里士多德美德理论和普鲁切克情绪轮。我们发现，根据世界价值观调查，LLM 最符合自我表达而非生存价值观；根据道德基础理论，LLM 最符合关怀而非忠诚价值观。有趣的是，我们发现模型在一些核心价值观（如诚实）方面的偏好存在很大差异，例如，Mixtral-8x7B 模型倾向于忽略诚实（9.7%），而 GPT-4-turbo 模型倾向于选择诚实（9.4%）。我们还研究了 OpenAI（ModelSpec）和 Anthropic（Constitutional AI）最近发布的指南，以了解他们在面对日常生活中细致入微的道德推理时，其发布的原则如何反映其实际的价值优先级。我们发现，最终用户无法使用系统提示有效地引导这种优先级。