LLM2D

摘要

多模态大型语言模型（MLLMs）正在快速发展，展现出作为多模态助手的令人印象深刻的能力，可以与人类及其环境互动。然而，这种日益增长的复杂性带来了重大的安全问题。在本文中，我们首次对一种名为“多模态情境安全”的新型安全挑战进行评估和分析，该挑战探讨了安全考虑因素如何根据用户或代理参与的具体情境而变化。我们认为，为了让 MLLM 安全地做出反应，无论是通过语言还是行动，它通常都需要在其对应的视觉环境中评估语言查询的安全影响。为了评估这种能力，我们开发了多模态情境安全基准（MSSBench），以评估当前 MLLMs 的情境安全性能。该数据集包含 1,820 个语言查询-图像对，其中一半图像内容安全，另一半不安全。我们还开发了一个评估框架，用于分析关键的安全方面，包括显式安全推理、视觉理解，以及至关重要的情境安全推理。我们的研究结果表明，当前的 MLLMs 在指令遵循设置中难以应对这种细微的安全问题，并且难以同时解决这些情境安全挑战，突出了未来研究的关键领域。此外，我们开发了多代理管道来协同解决安全挑战，这表明在原始 MLLM 响应的基础上，安全性能有了持续的提升。代码和数据：mssbench.github.io。