LLM2D
安全的输入但不安全的输出:大型视觉语言模型跨模态安全对齐基准测试
Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model
作者: Siyin Wang, Xingsong Ye, Qinyuan Cheng, Junwen Duan, Shimin Li, Jinlan Fu, Xipeng Qiu, Xuanjing Huang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2406.15279v2

摘要

arXiv:2406.15279v2 安全类型:替换 摘要:随着通用人工智能(AGI)越来越多地融入人类生活的各个方面,确保这些系统的安全性和道德一致性至关重要。以往的研究主要集中在单一模态威胁上,但在跨模态交互的集成和复杂性增加的情况下,这种做法可能不够充分。我们提出了一种新的安全对齐挑战,称为安全输入但不安全输出(SIUO),以评估跨模态安全对齐。具体来说,它考虑了单个模态独立安全的情况下,但在结合使用时可能会导致不安全或不道德的输出的情况。为了实证研究这个问题,我们开发了SIUO,这是一个跨模态基准,包含了9个关键的安全领域,如自残、非法活动和隐私侵犯。我们的研究结果揭示了闭源和开源LVLMs(如GPT-4V和LLaVA)中的重大安全漏洞,强调了当前模型在可靠地处理和响应复杂的真实世界场景方面的不足。