LLM2D

摘要

arXiv:2502.13141v1 异常类型：交叉类型摘要：大型语言模型（LLMs）容易受到提示注入、后门攻击和对抗攻击等攻击的影响，这些攻击通过操纵提示或模型生成有害输出。在本文中，我们从传统的深度学习攻击范式出发，探索了它们的内在关系，并将它们统称为提示触发攻击（PTA）。这引出了一个关键问题：我们能否确定某个提示是无害的还是被污染的？为了应对这一问题，我们提出了UniGuardian，这是首个统一防御机制，旨在检测LLMs中的提示注入、后门攻击和对抗攻击。此外，我们引入了一次前向策略来优化检测管道，能够在单次前向传递中同时进行攻击检测和文本生成。我们的实验证实，UniGuardian能够准确且高效地识别LLMs中的恶意提示。