摘要
arXiv:2504.10823v2 宣告类型: replace-cross
摘要: 在涉及冲突价值观的高风险困境中导航是一个挑战,即使是人类也难以处理,更不用说AI了。然而,先前对大规模语言模型(LLMs)在这些情境下的推理能力进行评估的工作主要局限于日常生活场景。为填补这一空白,本工作首先引入了CLASH(基于角色视角的大规模语言模型在高风险情境下的评估数据集),该数据集包含345个高影响力困境以及3,795个涉及多种价值观的独特视角。特别地,我们设计CLASH,以支持研究此前工作缺失的关键方面的价值观决策过程,包括理解决策的犹疑和心理不适,以及捕捉角色视角中价值观的动态变化。通过基准测试10个开放和封闭的前沿模型,我们发现了几个关键发现:(1)即使是最强的模型,如GPT-4o和Claude-Sonnet,在识别本应犹豫的决策场景方面仅能达到不到50%的准确性,而在明确的情境中表现更好;(2)虽然LLMs能够合理预测由人类标记的心理不适,但它们对涉及价值观变化的视角理解不足,表明LLMs需要能够处理复杂的价值观推理;(3)我们的实验还揭示了LLMs的价值偏好与其向特定价值观导向的可控性之间存在显著的相关性;(4)最后,当LLMs从第三方视角进行价值推理时,它们比从第一人称视角设置中表现得更具可控性,尽管某些价值观对从第一人称视角设置中受益更多。