LLM2D
攻击图:改进的黑盒和可解释的大语言模型脱管攻击
Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs
作者: Mohammad Akbar-Tajari, Mohammad Taher Pilehvar, Mohammad Mahmoody
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.19019v1

摘要

arXiv:2504.19019v1 类型: cross 摘要: 确保大型语言模型(LLMs)与社会标准一致的挑战日益引起关注,因为这些模型仍然容易受到绕过其安全机制的对抗性劫持攻击。识别这些漏洞对于增强LLMs的抗这种攻击的稳健性至关重要。我们提出了GoAT(攻击图),一种使用《思想图》框架[Besta等人,2024]的方法,用于生成对抗性提示以测试LLMs对齐的稳健性。GoAT在生成高效对抗性劫持提示方面表现优异,所需查询次数比最先进的攻击方法少,对抗性劫持对抗稳健模型(如Llama)的成功率最高可高出五倍。值得注意的是,GoAT可以生成高质量、可读性高的提示,无需访问目标模型的参数,使其成为一个黑盒攻击。与受限于树形推理的方法不同,GoAT的推理基于更复杂的数据结构。通过使同时进行的攻击路径意识到彼此的进度,这个动态框架允许更深层次的推理路径集成和优化,显著增强了对LLMs的对抗性漏洞的协作探索。从技术层面来看,GoAT以图形结构开始,并通过组合和改进思想反复优化它,使不同思想路径之间能实现协同效应。我们的实现代码可以在以下链接中找到:https://github.com/GoAT-pydev/Graph_of_Attacks。