摘要
arXiv:2502.12575v1 安全公告类型:跨平台
摘要:随着基于大规模语言模型(LLM)的代理逐渐普及,后门可以通过用户查询或环境反馈植入到代理中,这引发了关于安全漏洞的关键担忧。然而,通过分析代理的推理过程,安全性审查通常可以检测到这些后门攻击。为应对这一问题,我们提出了一种名为 **动态加密多后门植入攻击** 的新颖后门植入策略。具体来说,我们引入了动态加密,将后门映射为无害的内容,从而有效规避安全性审查。为了提高隐蔽性,我们进一步将后门分解为多个子后门片段。基于这些进步,后门得以显著绕过安全性审查。此外,我们还呈现了 AgentBackdoorEval 数据集,这是一个用于全面评估代理后门攻击的数据集。跨多个数据集的实验结果表明,我们的方法在实现接近100%的攻击成功率的同时,保持了0%的检测率,这表明其在规避安全性审查方面的有效性。我们的研究结果突显了现有安全机制在检测高级攻击方面的局限性,强调了对后门威胁进行更 robust 防御的迫切需求。代码和数据可在 https://github.com/whfeLingYu/DemonAgent 获得。