LLM2D

摘要

arXiv:2504.11358v1 通报类型：跨领域摘要：包含大语言模型（LLM）的应用和代理易受到注入式提示攻击的侵害，在这种攻击中，攻击者在其输入中注入提示以诱导攻击者希望的输出。检测方法旨在确定给定输入是否被注入式提示污染。然而，现有的检测方法在对抗最先进的攻击时效果有限，更不用说适应性攻击了。在本工作中，我们提出了一种名为DataSentinel的游戏论检测方法，以检测被战略性地适应以规避检测的注入式提示污染的输入。我们将此问题形式化为一个极小极大优化问题，目标是微调LLM以检测强适应性攻击。此外，我们提出了一种基于梯度的方法来通过交替求解内部极大化问题和外部极小化问题来解决极小极大优化问题。我们在多个基准数据集和LLM上的评估结果表明，DataSentinel能够有效检测现有的以及适应性注入式提示攻击。