摘要
arXiv:2504.03770v2 宣布类型:替换-交叉
摘要:多模态大型语言模型(MLLMs)在视觉-语言任务中表现出色,但也面临着生成有害内容的重大风险,尤其是通过逃逸攻击。逃逸攻击是指有意操纵以绕过模型的安全机制,导致生成不适当或不安全的内容。检测这类攻击对于负责任地部署MLLMs至关重要。现有的逃逸检测方法面临三个主要挑战:(1)许多方法依赖于模型隐藏状态或梯度,这限制了它们对白盒模型(即模型内部运作是可访问的模型)的应用;(2)它们涉及基于不确定性分析的高度计算开销,这限制了实时检测的能力;(3)它们要求使用完全标注的有害数据集,而在实际应用中这类数据集往往稀缺。为了解决这些问题,我们引入了一个测试时自适应框架,称为JAILDAM。我们的方法利用基于记忆的方法,并由策略驱动的安全知识表示引导,从而消除了需明确暴露于有害数据的需求。通过在测试时动态更新不安全的知识,我们的框架提高了对未见过的逃逸策略的泛化能力,同时保持了计算效率。在多个VLM逃逸攻击基准测试上的实验表明,JAILDAM在有害内容检测方面达到了最先进的性能,提高了准确性和速度。