摘要
arXiv:2406.05113v2 安全类型: 交叉替换
摘要:本文介绍了LlavaGuard,这是一个基于VLM的视觉安全套件,旨在应对大规模数据和模型时代可靠护栏的迫切需求。为此,我们建立了一个新的开放框架,描述了可定制的安全分类、数据预处理、增强和训练设置。为了在安全方面教授VLM安全套件,我们进一步创建了一个高质量的人类专家注解的多模态安全数据集,其中每张图像都标记了安全评分、类别和解释。我们还采用了先进的增强方法以支持上下文特定的评估。LlavaGuard模型从0.5B到7B不等,为评估视觉内容对灵活政策的安全合规性提供了多功能工具。在全面的实验中,LlavaGuard在准确性和灵活处理不同政策方面均优于最先进的安全套件和VLM。此外,我们展示了LlavaGuard在两个实际应用场景中的性能:大规模数据集注释和文本到图像模型的审查。我们使整个框架对公众开放,包括数据集和模型权重。