LLM2D
远离危害:一种应对视觉语言模型囚笼攻击的自适应防御方法
Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks
作者: Han Wang, Gang Wang, Huan Zhang
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2411.16721v3

摘要

arXiv:2411.16721v3 宣告类型: replace-cross 摘要:视觉语言模型(VLMs)在遭受恶意攻击时可能会生成意外和有害的内容,特别是因为它们的视觉能力带来了新的安全隐患。现有的防护措施,如输入预处理、对抗训练和基于响应评估的方法,经常由于成本高而不适用于实际部署。为了应对这一挑战,我们提出了ASTRA,这是一种通过适应性控制模型远离恶意特征方向来抵御VLM攻击的高效且有效的防护措施。我们的关键步骤包括找到可以转移的控制向量,代表有害响应的方向,并在推理时将这些方向进行适应性激活控制以去除它们。为了创建有效的控制向量,我们随机删除攻击图像中的视觉标记,并确定那些与突破(jailbreaks)关联最紧密的标记。然后使用这些标记构建控制向量。在推理过程中,我们执行适应性控制方法,即控制向量和校准激活之间的投影,这在对良性输入影响甚微的情况下,能强有力地避免在恶意输入下产生有害输出。在多个模型和基准上的广泛实验展示了我们在缓解突破风险方面具有最先进的性能和高效率。此外,ASTRA表现出良好的转移性能,能够抵御未见过的攻击(例如,基于结构的攻击、基于扰动的攻击(包括投影梯度下降变体)和纯文本攻击)。我们的代码可在 \url{https://github.com/ASTRAL-Group/ASTRA} 获取。