LLM2D

摘要

arXiv:2502.11184v1 安全类型: cross 摘要: 多模态大型语言模型（MLLMs）通过启用通过文本和图像进行交互，扩展了传统语言模型的能力。然而，确保这些模型的安全性仍然是一个重大挑战，特别是在准确识别多模态内容是否安全或不安全方面——我们称之为安全性意识。在本文中，我们介绍了MMSafeAware，这是第一个全面的多模态安全性意识基准测试，旨在评估MLLMs在29种安全场景中使用1500个仔细筛选的图像-提示对的效果。MMSafeAware包括不安全和过度安全子集，以评估模型正确识别不安全内容并避免过度敏感（这可能阻碍其有用性）的能力。使用MMSafeAware对九种广泛使用的MLLMs进行评估发现，当前的模型还不够安全，往往过于敏感；例如，GPT-4V将36.1%的不安全输入错误分类为安全输入，将59.9%的良性输入错误分类为不安全输入。我们进一步探讨了三种提高安全性意识的方法——基于提示的方法、视觉对比解码和以视觉为中心的推理微调，但发现没有一种能达到令人满意的效果。我们的发现突显了在开发具有稳健安全性意识的MLLMs方面面临的巨大挑战，强调了在这一领域进一步研究的必要性。所有代码和数据都将公开，以促进未来的研究。