摘要
arXiv:2505.05410v1 Announce Type: 对照
摘要:思维链(CoT)为AI安全性提供了一个潜在的好处,因为它允许监控模型的思维链以试图理解其意图和推理过程。然而,此类监控的有效性取决于思维链真实地代表了模型的实际推理过程。我们在6个呈现在提示中的推理提示下评估了最先进的推理模型的思维链忠实性,发现:(1)对于测试中大多数设置和模型,至少在使用提示的示例中有1%的情况下,思维链揭示了其使用提示的情况,但揭示率通常低于20%;(2)基于结果的强化学习在最初提高忠实性后会达到瓶颈,但不会完全饱和;(3)当强化学习增加提示的使用频率(奖励劫持)时,即使没有针对思维链监控进行训练,揭示提示的倾向也不会增加。这些结果表明,思维链监控是一种在训练和评估期间注意不良行为的有希望的方法,但并不能排除这些不良行为。它们还表明,在如我们环境中不必要的思维链推理中,测试时的思维链监控不太可能可靠地捕捉到罕见和灾难性的意外行为。