LLM2D

摘要

arXiv:2504.10823v2 宣告类型: replace-cross 摘要: 在涉及冲突价值观的高风险困境中导航是一个挑战，即使是人类也难以处理，更不用说AI了。然而，先前对大规模语言模型（LLMs）在这些情境下的推理能力进行评估的工作主要局限于日常生活场景。为填补这一空白，本工作首先引入了CLASH（基于角色视角的大规模语言模型在高风险情境下的评估数据集），该数据集包含345个高影响力困境以及3,795个涉及多种价值观的独特视角。特别地，我们设计CLASH，以支持研究此前工作缺失的关键方面的价值观决策过程，包括理解决策的犹疑和心理不适，以及捕捉角色视角中价值观的动态变化。通过基准测试10个开放和封闭的前沿模型，我们发现了几个关键发现：（1）即使是最强的模型，如GPT-4o和Claude-Sonnet，在识别本应犹豫的决策场景方面仅能达到不到50%的准确性，而在明确的情境中表现更好；（2）虽然LLMs能够合理预测由人类标记的心理不适，但它们对涉及价值观变化的视角理解不足，表明LLMs需要能够处理复杂的价值观推理；（3）我们的实验还揭示了LLMs的价值偏好与其向特定价值观导向的可控性之间存在显著的相关性；（4）最后，当LLMs从第三方视角进行价值推理时，它们比从第一人称视角设置中表现得更具可控性，尽管某些价值观对从第一人称视角设置中受益更多。