LLM2D

摘要

arXiv:2504.19019v1 类型: cross 摘要: 确保大型语言模型（LLMs）与社会标准一致的挑战日益引起关注，因为这些模型仍然容易受到绕过其安全机制的对抗性劫持攻击。识别这些漏洞对于增强LLMs的抗这种攻击的稳健性至关重要。我们提出了GoAT（攻击图），一种使用《思想图》框架[Besta等人，2024]的方法，用于生成对抗性提示以测试LLMs对齐的稳健性。GoAT在生成高效对抗性劫持提示方面表现优异，所需查询次数比最先进的攻击方法少，对抗性劫持对抗稳健模型（如Llama）的成功率最高可高出五倍。值得注意的是，GoAT可以生成高质量、可读性高的提示，无需访问目标模型的参数，使其成为一个黑盒攻击。与受限于树形推理的方法不同，GoAT的推理基于更复杂的数据结构。通过使同时进行的攻击路径意识到彼此的进度，这个动态框架允许更深层次的推理路径集成和优化，显著增强了对LLMs的对抗性漏洞的协作探索。从技术层面来看，GoAT以图形结构开始，并通过组合和改进思想反复优化它，使不同思想路径之间能实现协同效应。我们的实现代码可以在以下链接中找到：https://github.com/GoAT-pydev/Graph_of_Attacks。