LLM2D
不能以偏概全:多模态安全意识评估 for 多模态 LLMS
Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs
作者: Wenxuan Wang, Xiaoyuan Liu, Kuiyi Gao, Jen-tse Huang, Youliang Yuan, Pinjia He, Shuai Wang, Zhaopeng Tu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11184v1

摘要

arXiv:2502.11184v1 安全类型: cross 摘要: 多模态大型语言模型(MLLMs)通过启用通过文本和图像进行交互,扩展了传统语言模型的能力。然而,确保这些模型的安全性仍然是一个重大挑战,特别是在准确识别多模态内容是否安全或不安全方面——我们称之为安全性意识。在本文中,我们介绍了MMSafeAware,这是第一个全面的多模态安全性意识基准测试,旨在评估MLLMs在29种安全场景中使用1500个仔细筛选的图像-提示对的效果。MMSafeAware包括不安全和过度安全子集,以评估模型正确识别不安全内容并避免过度敏感(这可能阻碍其有用性)的能力。使用MMSafeAware对九种广泛使用的MLLMs进行评估发现,当前的模型还不够安全,往往过于敏感;例如,GPT-4V将36.1%的不安全输入错误分类为安全输入,将59.9%的良性输入错误分类为不安全输入。我们进一步探讨了三种提高安全性意识的方法——基于提示的方法、视觉对比解码和以视觉为中心的推理微调,但发现没有一种能达到令人满意的效果。我们的发现突显了在开发具有稳健安全性意识的MLLMs方面面临的巨大挑战,强调了在这一领域进一步研究的必要性。所有代码和数据都将公开,以促进未来的研究。