摘要
在完全一致的情况下进行决策需要在推理和忠实性之间取得平衡,这对大型语言模型 (LLMs) 来说是一个挑战。本研究探讨了当 LLMs 接受“误导性”指令(例如“只用 A 或 B 回答”)时,即使两个选项都不正确,它们是否会优先遵循指令而不是推理和真实性。我们引入了一个新的指标称为“反思性判断”,它为预训练和后训练对齐方案之间的关系提供了新的视角。在从基本算术到特定领域评估的任务中,GPT-4o、o1-mini 或 Claude 3 Opus 等模型正确地遵循了指令,但未能反思所提供选项的有效性。相反,来自 Llama 3.1 家族(8B、70B、405B)或基础 Qwen2.5(7B、14B、32B)家族的模型表现出随着规模增长的拒绝率提高,表明存在规模效应。我们还观察到,虽然对齐技术旨在增强推理能力,但有时会削弱模型拒绝不正确指令的能力,导致它们无批判性地遵循有缺陷的提示。最后,我们还进行了一项平行的人类研究,揭示了人类行为和注释中类似的模式。我们强调了流行的 RLHF 数据集如何由于注释表现出较差的反思性判断而可能破坏训练或评估。