LLM2D

摘要

视觉语言模型 (VLMs) 在遭受对抗性攻击时可能会产生意外的有害内容，特别是由于其视觉能力带来了新的漏洞。现有的防御方法，例如输入预处理、对抗性训练和基于响应评估的方法，由于其高成本，往往难以在现实世界中部署。为了应对这一挑战，我们提出了 ASTRA，这是一种高效且有效的防御方法，它通过自适应地将模型引导远离对抗性特征方向来抵抗 VLM 攻击。我们的关键步骤包括：寻找代表有害响应方向的可迁移转向向量，并在推理时应用自适应激活转向来消除这些方向。为了创建有效的转向向量，我们随机去除对抗性图像中的视觉标记，并识别与越狱最密切相关的标记。然后使用这些标记来构建转向向量。在推理过程中，我们执行自适应转向方法，该方法涉及转向向量和校准激活之间的投影，从而在良性输入上几乎不会降低性能，同时在对抗性输入下有效避免有害输出。在多个模型和基线上的大量实验表明，我们在减轻越狱风险方面具有最先进的性能和高效率。此外，ASTRA 表现出良好的可迁移性，能够防御设计时未见过的攻击（即基于结构的攻击）和来自不同分布的对抗性图像。