摘要
arXiv:2502.12202v1 交叉公告类型: cross
摘要:更深入思考,更好表现:特别是类似o1的大型语言模型通过在推理过程中生成详尽的思考过程已经展现出了卓越的表现。这种权衡揭示了一个潜在的脆弱性:攻击者可以通过迫使模型立即响应而不进行思考过程来破坏模型的表现。为此,在本文中,我们提出了一种新的攻击场景,针对类似o1的模型的长思考过程,并提出了BoT(Break CoT),它可以通过后门攻击选择性地破坏内在的推理机制。BoT通过设计的触发器构造了被污染的数据集,并通过监督细调或直接偏好优化注入后门。当被触发时,模型直接生成答案而无需进行思考过程,同时对于干净的输入保持正常的推理能力。在开源o1-like模型上的广泛实验,包括最近的DeepSeek-R1,表明BoT几乎实现了高攻击成功率,同时保持了干净的准确性,突显了当前模型的安全风险。此外,任务难度与帮助性的关系揭示了一个潜在的应用可能性,使用户能够根据任务复杂度自定义模型行为。代码可在 https://github.com/zihao-ai/BoT 获取。