LLM2D
SafeMLRM:破解多模态大型推理模型中的安全性谜题
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models
作者: Junfeng Fang, Yukai Wang, Ruipeng Wang, Zijun Yao, Kun Wang, An Zhang, Xiang Wang, Tat-Seng Chua
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08813v1

摘要

arXiv:2504.08813v1 Announce Type: cross 摘要:多模态大型推理模型(MLRMs)——增强版的多模态语言模型(MLLMs),具备推理能力——的快速发展已经彻底改变了各种应用。然而,它们的安全性影响尚未得到充分探索。虽然先前的工作揭示了一维推理模型中的关键漏洞,但MLRMs引入了从跨模态推理路径中独特的风险。本文通过大规模实证研究,首次系统性地分析了MLRMs的安全性,将MLRMs与其基础MLLMs进行比较。我们的实验揭示了三个关键发现:(1)推理税:获得推理能力导致继承的安全对齐 catastrophic 崩溃。MLRMs在对抗攻击下表现出37.44%更高的逃狱成功率。(2)安全盲点:虽然安全性下降是普遍存在的,但某些场景(如非法活动)遭受25倍更高的攻击率——远超过平均3.4倍的增长,揭示了特定场景的漏洞,并且这种一致性令人担忧地跨模态和数据集。(3)新兴自我校正:尽管推理-答案安全性紧密结合,MLRMs显示出初具雏形的自我校正——16.9%的逃狱推理步骤被安全答案覆盖,暗示了内在的保护机制。这些发现强调了场景感知安全审计和机制的紧迫性,以增强MLRMs的自我校正潜力。为了推动研究,我们开源了OpenSafeMLRM,这是首个用于MLRM安全评估的工具包,提供了对主流模型、数据集和逃狱方法的统一接口。我们的工作呼吁立即采取努力以加固增强推理的人工智能,并确保其变革潜力与伦理保护相一致。