LLM2D

摘要

arXiv:2502.12575v1 安全公告类型：跨平台摘要：随着基于大规模语言模型（LLM）的代理逐渐普及，后门可以通过用户查询或环境反馈植入到代理中，这引发了关于安全漏洞的关键担忧。然而，通过分析代理的推理过程，安全性审查通常可以检测到这些后门攻击。为应对这一问题，我们提出了一种名为 **动态加密多后门植入攻击** 的新颖后门植入策略。具体来说，我们引入了动态加密，将后门映射为无害的内容，从而有效规避安全性审查。为了提高隐蔽性，我们进一步将后门分解为多个子后门片段。基于这些进步，后门得以显著绕过安全性审查。此外，我们还呈现了 AgentBackdoorEval 数据集，这是一个用于全面评估代理后门攻击的数据集。跨多个数据集的实验结果表明，我们的方法在实现接近100%的攻击成功率的同时，保持了0%的检测率，这表明其在规避安全性审查方面的有效性。我们的研究结果突显了现有安全机制在检测高级攻击方面的局限性，强调了对后门威胁进行更 robust 防御的迫切需求。代码和数据可在 https://github.com/whfeLingYu/DemonAgent 获得。