LLM2D

摘要

arXiv:2502.10486v1 安全类型: 交叉摘要：视觉语言模型（VLMs）的出现带来了安全方面的新担忧，因为多种模态的结合增加了对攻击的脆弱性。尽管VLMs可以在具有文本安全对齐的LLMs的基础上构建，但当视觉模态被整合时，这种安全对齐容易被削弱。我们将这一安全挑战归因于模态差距，也就是图像和文本之间的共享表示空间的分离，这使得VLM中危险和无害查询之间的区别变得模糊，而这种区别在LLMs中是明显的，但在VLMs中被削弱。为了防止安全衰减并弥补安全对齐差距，我们提出了VLM-Guard，这是一种在推断时的应用策略，它利用VLM中的LLM组件作为监督，以实现VLM的安全对齐。VLM-Guard将VLM的表示映射到一个子空间，该子空间与从安全对齐的LLM中提取的安全控制方向正交。在三个恶意指令设置上的实验结果表明，VLM-Guard在保护VLM以及在VLM和其LLM组件之间实现安全对齐差距方面是有效的。