摘要
arXiv:2504.20493v1 一类:横跨领域
摘要:尽管大规模语言模型(LLMs)在各种任务中表现出色,但也存在明显的安全漏洞。近期的研究发现,DeepSeek-R1 存在一种名为“思考停止”的漏洞,其中模型生成的推理标记可以强制中断推理过程,导致空响应并损害集成 LLM 的应用程序。然而,现有的触发该漏洞的方法需要复杂的数学文字问题,并且提示长度甚至超过5000个标记。为降低标记成本并正式定义该漏洞,我们提出了一种基于自适应标记压缩的新颖的提示注入攻击,称为“推理中断攻击”。我们证明,简单的独立算术任务可以有效触发该漏洞,而基于此类任务的提示具有比数学文字问题更简单的逻辑结构。我们开发了一种系统方法来有效收集攻击提示,并利用LLMs开发了一种自适应标记压缩框架,自动压缩这些提示。实验结果显示,我们的压缩框架显著减少了提示长度,同时保持了有效的攻击能力。我们进一步通过输出前缀评估攻击性能,并分析了该漏洞的根本原因,为提高推理LLMs的安全性提供了宝贵的见解。