摘要
arXiv:2410.06172v2 宣告类型: 更新
摘要:多模态大型语言模型(MLLMs)正迅速发展,展现出作为既能与人类又能与环境交互的多模态助手的令人印象深刻的能力。然而,这种增加的复杂性引入了重大的安全问题。在本文中,我们提出了首个对一种新颖的安全挑战——多模态情境安全进行评估和分析的方法,该挑战探讨了安全考虑在用户或代理所参与的具体情境中如何变化。我们认为,为了使MLLM以语言或行动安全地响应,它通常需要在相应的视觉上下文中评估语言查询的安全影响。为了评估这种能力,我们开发了多模态情境安全基准(MSSBench)来评估当前MLLMs的情境安全性表现。数据集包含1,820个语言查询-图像对,其中一半图像上下文是安全的,另一半是不安全的。我们还开发了一种评估框架,分析了关键的安全方面,包括明确的安全推理、视觉理解,以及至关重要的情境安全推理。我们的研究发现揭示了当前MLLMs在指令遵循设置中难以应对这种细微的安全问题,难以一次性解决这些情境安全挑战,突显了未来研究的关键领域。此外,我们开发了多代理管道以协调解决安全挑战,这在原始MLLM响应上显示出一致的改进。代码和数据:mssbench.github.io。