LLM2D

摘要

大型语言模型 (LLM) 已广泛应用于自动化内容生成甚至关键决策系统等应用中。然而，提示注入的风险可能导致LLM输出被操纵。虽然已记录了许多攻击方法，但完全控制这些输出仍然具有挑战性，通常需要经验丰富的攻击者多次尝试，并且严重依赖于提示上下文。基于梯度的白盒攻击技术的最新进展在越狱和系统提示泄露等任务中显示出前景。我们的研究将基于梯度的攻击泛化，以找到一个触发器，该触发器 (1) 具有普适性：无论目标输出如何，都能有效；(2) 与上下文无关：在不同的提示上下文中都具有鲁棒性；(3) 输出精确：能够以高精度操纵LLM输入以产生任何指定的输出。我们提出了一种有效发现此类触发器并评估所提出攻击有效性的新方法。此外，我们讨论了此类攻击对基于LLM的应用程序构成的重大威胁，强调了对手可能接管人工智能代理做出的决策和行动的可能性。