LLM2D

摘要

通过图像输入增强语言模型可能通过连续优化实现更有效的越狱攻击，而文本输入则需要离散优化。然而，新的多模态融合模型使用不可微分函数对所有输入模态进行标记，这阻碍了直接攻击。在这项工作中，我们引入了标记器捷径的概念，该捷径使用连续函数近似标记化，并允许连续优化。我们使用标记器捷径创建了针对多模态融合模型的首个端到端梯度图像攻击。我们在 Chameleon 模型上评估了我们的攻击，并获得了能为 72.5% 的提示诱发有害信息的越狱图像。越狱图像优于使用相同目标优化的文本越狱，并且需要低 3 倍的计算预算来优化 50 倍的输入标记。最后，我们发现，仅针对文本攻击训练的表示工程防御，如断路器，可以有效地转移到对抗性图像输入。