LLM2D

摘要

arXiv:2502.11006v1 告知类型: 交叉摘要: 大型语言模型（LLMs）对基于敌对提示的注入攻击极为脆弱。这些注入攻击可能通过显式的提示请求使模型脱管或利用模型中的漏洞，从而导致不希望的响应。在调查提示注入的过程中，挑战在于涉及的大量输入提示，这些提示很可能是无害的。这些输入提示的语义和主观性，以及促成LLM与用户对话的环境背景，使得这一调查挑战变得更加复杂。因此，对于AI安全调查者来说，挑战包含两个方面。首先，识别敌对的提示注入，然后评估输入提示是否在上下文中有害或敌对。对于第一步，可以使用现有的AI安全解决方案，如护栏来检测和保护LLM。护栏是通过各种方法开发的。一个流行的方法是使用基于签名的方法。另一个开发AI模型来分类此类提示的方法包括使用基于自然语言处理（NLP）的模型，例如语言模型。但在进行对提示注入的AI安全调查时，这些护栏缺乏帮助调查者进行优先处理或评估识别出的输入提示的能力。在这项应用于研究的探索中，我们探讨了利用LLM的文本生成能力来检测提示注入，并生成其检测的解释，以帮助AI安全调查者评估和优先处理这类提示注入检测。这种工具的实际好处在于简化了对提示注入进行调查的任务。