LLM2D

摘要

arXiv:2504.03770v2 宣布类型：替换-交叉摘要：多模态大型语言模型（MLLMs）在视觉-语言任务中表现出色，但也面临着生成有害内容的重大风险，尤其是通过逃逸攻击。逃逸攻击是指有意操纵以绕过模型的安全机制，导致生成不适当或不安全的内容。检测这类攻击对于负责任地部署MLLMs至关重要。现有的逃逸检测方法面临三个主要挑战：（1）许多方法依赖于模型隐藏状态或梯度，这限制了它们对白盒模型（即模型内部运作是可访问的模型）的应用；（2）它们涉及基于不确定性分析的高度计算开销，这限制了实时检测的能力；（3）它们要求使用完全标注的有害数据集，而在实际应用中这类数据集往往稀缺。为了解决这些问题，我们引入了一个测试时自适应框架，称为JAILDAM。我们的方法利用基于记忆的方法，并由策略驱动的安全知识表示引导，从而消除了需明确暴露于有害数据的需求。通过在测试时动态更新不安全的知识，我们的框架提高了对未见过的逃逸策略的泛化能力，同时保持了计算效率。在多个VLM逃逸攻击基准测试上的实验表明，JAILDAM在有害内容检测方面达到了最先进的性能，提高了准确性和速度。