LLM2D
如何实现脱逃防御并进行集成?一种机理研究
How Jailbreak Defenses Work and Ensemble? A Mechanistic Investigation
作者: Zhuohang Long, Siyuan Wang, Shujun Liu, Yuhang Lai, Xuanjing Huang, Zhongyu Wei
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14486v1

摘要

arXiv:2502.14486v1 安全类型:跨越 摘要: Jailbreak 攻击,其中有害的提示绕过了生成模型内置的安全性,引发了模型脆弱性的严重关切。尽管已经提出了许多防御方法,但安全性与帮助性之间的权衡,以及这些方法在大型视觉-语言模型(LVLMs)中的应用还不甚明确。本文系统地研究了 jailbreak 防御方法,通过将标准生成任务重新定义为二元分类问题来评估模型对有害和良性查询的拒绝倾向。我们识别出两种关键的防御机制:安全转移,它在整个查询中增加了拒绝率;以及有害性鉴别,它提高了模型区分有害和良性输入的能力。利用这些机制,我们开发了两种集成防御策略——机制内集成和机制间集成,以平衡安全性和帮助性。LLaVA-1.5 模型在 MM-SafetyBench 和 MOSSBench 数据集上的实验证明,这些策略有效提升了模型的安全性或优化了安全性和帮助性之间的权衡。