摘要
大型语言模型(LLM)容易受到越狱攻击,这种攻击旨在通过细微地修改攻击查询来提取有害信息。随着防御机制的演变,直接获取有害信息对越狱攻击来说越来越具有挑战性。在这项工作中,我们从乔姆斯基的转换生成语法理论和人类利用间接语境来引出有害信息的做法中得到启发,专注于一种新的攻击形式,称为语境交互攻击。我们认为,先前的语境——攻击查询之前的信息——在实现强大的越狱攻击中起着至关重要的作用。具体来说,我们提出了一种首创的多轮方法,利用良性的初步问题与 LLM 交互。由于 LLM 的自回归性质,它们在生成过程中使用之前的对话轮次作为语境,我们引导模型的问答对构建一个语义上与攻击查询一致的语境来执行攻击。我们在七种不同的 LLM 上进行了实验,并证明了这种攻击的有效性,这种攻击是黑盒的,也可以在 LLM 之间转移。我们相信这将有助于进一步发展和理解 LLM 的安全问题。