LLM2D
UniGuardian:大规模语言模型中检测提示注入、后门攻击和 adversarial 攻击的统一防御方法
UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models
作者: Huawei Lin, Yingjie Lao, Tong Geng, Tan Yu, Weijie Zhao
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.13141v1

摘要

arXiv:2502.13141v1 异常类型:交叉类型 摘要:大型语言模型(LLMs)容易受到提示注入、后门攻击和对抗攻击等攻击的影响,这些攻击通过操纵提示或模型生成有害输出。在本文中,我们从传统的深度学习攻击范式出发,探索了它们的内在关系,并将它们统称为提示触发攻击(PTA)。这引出了一个关键问题:我们能否确定某个提示是无害的还是被污染的?为了应对这一问题,我们提出了UniGuardian,这是首个统一防御机制,旨在检测LLMs中的提示注入、后门攻击和对抗攻击。此外,我们引入了一次前向策略来优化检测管道,能够在单次前向传递中同时进行攻击检测和文本生成。我们的实验证实,UniGuardian能够准确且高效地识别LLMs中的恶意提示。