摘要
视觉语言模型 (VLMs) 在遭受对抗性攻击时可能会产生意外的有害内容,特别是由于其视觉能力带来了新的漏洞。现有的防御方法,例如输入预处理、对抗性训练和基于响应评估的方法,由于其高成本,往往难以在现实世界中部署。为了应对这一挑战,我们提出了 ASTRA,这是一种高效且有效的防御方法,它通过自适应地将模型引导远离对抗性特征方向来抵抗 VLM 攻击。我们的关键步骤包括:寻找代表有害响应方向的可迁移转向向量,并在推理时应用自适应激活转向来消除这些方向。为了创建有效的转向向量,我们随机去除对抗性图像中的视觉标记,并识别与越狱最密切相关的标记。然后使用这些标记来构建转向向量。在推理过程中,我们执行自适应转向方法,该方法涉及转向向量和校准激活之间的投影,从而在良性输入上几乎不会降低性能,同时在对抗性输入下有效避免有害输出。在多个模型和基线上的大量实验表明,我们在减轻越狱风险方面具有最先进的性能和高效率。此外,ASTRA 表现出良好的可迁移性,能够防御设计时未见过的攻击(即基于结构的攻击)和来自不同分布的对抗性图像。