LLM2D
REVEAL: 多轮评估图像输入危害对于视觉LLM
REVEAL: Multi-turn Evaluation of Image-Input Harms for Vision LLM
作者: Madhur Jindal, Saurabh Deshpande
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.04673v1

摘要

arXiv:2505.04673v1 安全类型: 交叉 摘要:视觉大型语言模型(VLLMs)通过将图像处理能力与文本理解相结合,显著推动了人工智能的发展,从而增强了用户体验并扩展了应用领域。然而,它们的复杂性增加引入了新的安全和伦理挑战,尤其是在多模态和多轮对话中。传统的安全评估框架,旨在处理基于文本的单轮交互,对于解决这些复杂性是不够的。为了弥合这一差距,我们提出了REVEAL(Responsible Evaluation of Vision-Enabled AI LLMs,负责任的视觉增强AI大语言模型评估)框架,这是一个可扩展且自动化的评估管道,用于评估VLLMs中的图像输入危害。REVEAL 包括自动图像挖掘、合成对抗数据生成、使用 Crescendo 攻击策略的多轮对话扩展以及通过如GPT-4o的评估者进行全面的危害评估。 我们全面评估了五种最先进的VLLMs,包括GPT-4o、Llama-3.2、Qwen2-VL、Phi3.5V和Pixtral,涉及三个重要的危害类别:性危害、暴力和虚假信息。我们的研究发现,多轮交互导致的缺陷率明显高于单轮评估,突显了VLLMs中的更深漏洞。值得注意的是,GPT-4o 在我们安全-可用性指数(SUI)中表现出最平衡的性能,紧随其后的是Pixtral。此外,虚假信息被识别为需要加强上下文防御的关键领域。Llama-3.2 展现出最高的多轮缺陷率(16.55%),而Qwen2-VL 则显示了最高的多轮拒绝率(19.1%)。