摘要
arXiv:2503.19326v2 通告类型: 替换
摘要:近期的推理大型语言模型(LLMs)通过长的推理链展示了令人瞩目的数学推理能力提升。这些模型的推理标记使其能够在推理链中进行自我纠正,增强其鲁棒性。这促使我们进行探索:推理LLMs对输入推理链中的细微错误有多脆弱?我们引入了“妥协的思考”(CPT)这一漏洞,即当模型面对包含篡改计算结果的推理标记时,往往会忽视正确的推理步骤,采用错误的结果。通过在多个推理LLMs上的系统性评估,我们设计了三种逐步明确的提示方法来衡量CPT的抵抗力,结果显示模型难以识别和纠正这些篡改。值得注意的是,与现有研究认为结构改动比内容修改对模型性能影响更大的观点相反,我们发现局部结束标记篡改对推理结果的影响大于结构改变。此外,我们发现DeepSeek-R1中存在一个安全漏洞,篡改的推理标记可以引发完全的推理终止。我们的工作增强了对推理鲁棒性的理解,并强调了推理密集型应用中的安全考虑。