LLM2D

摘要

arXiv:2406.05113v2 安全类型: 交叉替换摘要：本文介绍了LlavaGuard，这是一个基于VLM的视觉安全套件，旨在应对大规模数据和模型时代可靠护栏的迫切需求。为此，我们建立了一个新的开放框架，描述了可定制的安全分类、数据预处理、增强和训练设置。为了在安全方面教授VLM安全套件，我们进一步创建了一个高质量的人类专家注解的多模态安全数据集，其中每张图像都标记了安全评分、类别和解释。我们还采用了先进的增强方法以支持上下文特定的评估。LlavaGuard模型从0.5B到7B不等，为评估视觉内容对灵活政策的安全合规性提供了多功能工具。在全面的实验中，LlavaGuard在准确性和灵活处理不同政策方面均优于最先进的安全套件和VLM。此外，我们展示了LlavaGuard在两个实际应用场景中的性能：大规模数据集注释和文本到图像模型的审查。我们使整个框架对公众开放，包括数据集和模型权重。