摘要
arXiv:2406.12030v3 安全类型: 交叉替换
摘要: 视觉语言模型(VLMs)的出现带来了理解多模态信息前所未有的进步。VLMs 中的文本和视觉语义高度复杂且多样化,使得这些模型的安全对齐极具挑战性。此外,由于对 VLMs 安全对齐的研究有限,缺乏大规模、高质量的数据集。为了应对这些限制,我们提出了一种名为 SPA-VL 的视觉语言模型安全偏好对齐数据集。在宽度方面,SPA-VL 涵盖了 6 个有害性领域、13 个类别和 53 个子类别,并包含 100,788 个四元组(问题、图像、选定的回答、拒绝的回答)的样本。在深度方面,响应数据来自 12 个开源(例如 QwenVL)和封闭源(例如 Gemini)的 VLMs,以确保多样性。偏好数据的构建完全自动化,实验结果表明,使用 SPA-VL 数据集进行对齐技术训练的模型在无害性和有益性方面展现出显著的进步,同时保持核心能力。作为大规模、高质量和多样化的数据集,SPA-VL 代表了确保 VLMs 实现无害性和有益性的重要里程碑。