LLM2D
日常两难:用日常生活难题揭示大型语言模型的价值偏好
DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life
作者: Yu Ying Chiu, Liwei Jiang, Yejin Choi
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02683v1

摘要

随着我们越来越依赖大型语言模型(LLM)来指导日常生活中的决策,许多决策并非易事,很大程度上取决于用户的个人价值观和道德标准。我们提出了 DailyDilemmas 数据集,包含 1360 个日常生活中遇到的道德困境。每个困境包含两种可能的行动,以及每种行动所涉及的受影响方和人类价值观。基于这些困境,我们整合了一组跨越日常主题(如人际关系、工作场所和环境问题)的人类价值观。我们评估了 LLM 在这些困境中的表现,以确定它们会采取什么行动以及这些行动所代表的价值观。然后,我们通过五个受社会学、心理学和哲学启发的流行理论分析了这些价值观。这些理论分别是:世界价值观调查、道德基础理论、马斯洛需求层次理论、亚里士多德美德理论和普鲁切克情绪轮。我们发现,根据世界价值观调查,LLM 最符合自我表达而非生存价值观;根据道德基础理论,LLM 最符合关怀而非忠诚价值观。有趣的是,我们发现模型在一些核心价值观(如诚实)方面的偏好存在很大差异,例如,Mixtral-8x7B 模型倾向于忽略诚实(9.7%),而 GPT-4-turbo 模型倾向于选择诚实(9.4%)。我们还研究了 OpenAI(ModelSpec)和 Anthropic(Constitutional AI)最近发布的指南,以了解他们在面对日常生活中细致入微的道德推理时,其发布的原则如何反映其实际的价值优先级。我们发现,最终用户无法使用系统提示有效地引导这种优先级。