摘要
arXiv:2504.03770v1 安全类型: 横跨多个领域
摘要: 多模态大规模语言模型(MLLMs)在视觉-语言任务中表现出色,但也面临着生成有害内容的重大风险,特别是通过越狱攻击。越狱攻击是指故意操纵模型的安全机制,导致生成不适当或不安全的内容。检测这类攻击对于确保MLLMs的负责任部署至关重要。现有的越狱检测方法面临三大主要挑战:(1)许多方法依赖于模型的隐藏状态或梯度,这限制了它们在白盒模型中的应用,即模型的内部工作机制是可访问的;(2)涉及基于不确定性分析的高计算开销,这限制了实时检测;(3)需要完全标注的有害数据集,而在实际环境中这些数据集往往稀缺。为了解决这些问题,我们提出了一种基于测试时自适应框架的JAILDAM方法。我们的方法利用一种基于策略引导的不安全知识表示的内存导向方法,消除了对有害数据直接暴露的需要。通过在测试时动态更新不安全知识,我们的框架提高了对未见越狱策略的泛化能力,同时保持了效率。在多个VLM越狱基准测试上的实验表明,JAILDAM在有害内容检测方面达到了最先进的性能,提高了准确性和速度。