摘要
arXiv:2503.19326v1 宣告类型: 新
摘要: 最近的推理大语言模型(LLMs)通过长链推理展示了数学推理能力的显著改进。这些模型的推理令牌能够在推理链中实现自我纠正,从而增强其鲁棒性。这促使我们进行探索:推理LLMs对其输入推理链中的微妙错误有多脆弱?我们引入了“妥协的思考”(CPT)这一漏洞,当模型接收到包含篡改计算结果的推理令牌时,它倾向于忽略正确的推理步骤,转而采用错误的结果。通过跨多个推理LLMs的系统评估,我们设计了三种越来越明确的提示方法来衡量CPT的抗性,揭示出模型在识别和纠正这些篡改方面面临着显著的困难。值得注意的是,与现有研究认为结构改动比内容修改对模型性能影响更大的观点相反,我们发现局部结尾令牌篡改对推理结果的影响大于结构变化。此外,我们发现DeepSeek-R1中存在一个安全漏洞,篡改的推理令牌可以触发完全的推理停止。我们的工作增加了对推理鲁棒性的理解,并强调了推理密集型应用中的安全考虑。