摘要
arXiv:2504.10823v1 声明类型:交叉
摘要:在涉及冲突价值观的高风险困境中导航对人类来说已经具有挑战性,遑论对于AI而言。然而,关于评估大型语言模型(LLM)在这些情况下的推理能力的研究工作,主要局限于日常生活场景。为了弥补这一差距,这项工作首先介绍了CLASH(基于角色视角的LLM评估在高风险情境中),这是一个精心策划的数据集,包含345个高影响力困境以及3,795个多样价值观的个人视角。特别是,我们设计CLASH的方式旨在支持研究以往工作中缺失的基于价值观的决策过程的关键方面,包括理解决策矛盾和心理不适,以及捕捉角色视角中价值观的阶段性变化。通过基准测试10个开放和封闭的前沿模型,我们揭示了几个关键发现。(1)即使是最强的模型,如GPT-4o和Claude-Sonnet,在识别应当感到矛盾的情况时准确率也不足50%,而在清晰明确的情景中表现则显著更佳。(2)虽然LLM能够合理预测由人类标注的心理不适,但它们在理解涉及价值观转变的视角方面存在不足,这表明需要LLM能够在复杂的价值观上进行推理。(3)我们的实验还揭示了LLM的价值偏好与其针对特定价值观的可引导性之间的显著相关性。(4)最后,当LLM从第三方视角进行价值推理时,它们展示了比第一人称设定更高的可引导性,尽管某些价值观双组合仅从第一人称框架中受益。