LLM2D
VLM-Guard:通过填补安全对齐缺口来保护视觉-语言模型
VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap
作者: Qin Liu, Fei Wang, Chaowei Xiao, Muhao Chen
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10486v1

摘要

arXiv:2502.10486v1 安全类型: 交叉 摘要:视觉语言模型(VLMs)的出现带来了安全方面的新担忧,因为多种模态的结合增加了对攻击的脆弱性。尽管VLMs可以在具有文本安全对齐的LLMs的基础上构建,但当视觉模态被整合时,这种安全对齐容易被削弱。我们将这一安全挑战归因于模态差距,也就是图像和文本之间的共享表示空间的分离,这使得VLM中危险和无害查询之间的区别变得模糊,而这种区别在LLMs中是明显的,但在VLMs中被削弱。为了防止安全衰减并弥补安全对齐差距,我们提出了VLM-Guard,这是一种在推断时的应用策略,它利用VLM中的LLM组件作为监督,以实现VLM的安全对齐。VLM-Guard将VLM的表示映射到一个子空间,该子空间与从安全对齐的LLM中提取的安全控制方向正交。在三个恶意指令设置上的实验结果表明,VLM-Guard在保护VLM以及在VLM和其LLM组件之间实现安全对齐差距方面是有效的。