LLM2D

摘要

arXiv:2504.20493v1 一类:横跨领域摘要:尽管大规模语言模型（LLMs）在各种任务中表现出色，但也存在明显的安全漏洞。近期的研究发现，DeepSeek-R1 存在一种名为“思考停止”的漏洞，其中模型生成的推理标记可以强制中断推理过程，导致空响应并损害集成 LLM 的应用程序。然而，现有的触发该漏洞的方法需要复杂的数学文字问题，并且提示长度甚至超过5000个标记。为降低标记成本并正式定义该漏洞，我们提出了一种基于自适应标记压缩的新颖的提示注入攻击，称为“推理中断攻击”。我们证明，简单的独立算术任务可以有效触发该漏洞，而基于此类任务的提示具有比数学文字问题更简单的逻辑结构。我们开发了一种系统方法来有效收集攻击提示，并利用LLMs开发了一种自适应标记压缩框架，自动压缩这些提示。实验结果显示，我们的压缩框架显著减少了提示长度，同时保持了有效的攻击能力。我们进一步通过输出前缀评估攻击性能，并分析了该漏洞的根本原因，为提高推理LLMs的安全性提供了宝贵的见解。