LLM2D

摘要

arXiv:2505.04673v1 安全类型: 交叉摘要：视觉大型语言模型（VLLMs）通过将图像处理能力与文本理解相结合，显著推动了人工智能的发展，从而增强了用户体验并扩展了应用领域。然而，它们的复杂性增加引入了新的安全和伦理挑战，尤其是在多模态和多轮对话中。传统的安全评估框架，旨在处理基于文本的单轮交互，对于解决这些复杂性是不够的。为了弥合这一差距，我们提出了REVEAL（Responsible Evaluation of Vision-Enabled AI LLMs，负责任的视觉增强AI大语言模型评估）框架，这是一个可扩展且自动化的评估管道，用于评估VLLMs中的图像输入危害。REVEAL 包括自动图像挖掘、合成对抗数据生成、使用 Crescendo 攻击策略的多轮对话扩展以及通过如GPT-4o的评估者进行全面的危害评估。我们全面评估了五种最先进的VLLMs，包括GPT-4o、Llama-3.2、Qwen2-VL、Phi3.5V和Pixtral，涉及三个重要的危害类别：性危害、暴力和虚假信息。我们的研究发现，多轮交互导致的缺陷率明显高于单轮评估，突显了VLLMs中的更深漏洞。值得注意的是，GPT-4o 在我们安全-可用性指数（SUI）中表现出最平衡的性能，紧随其后的是Pixtral。此外，虚假信息被识别为需要加强上下文防御的关键领域。Llama-3.2 展现出最高的多轮缺陷率（16.55%），而Qwen2-VL 则显示了最高的多轮拒绝率（19.1%）。