LLM2D

摘要

arXiv:2504.08813v1 Announce Type: cross 摘要：多模态大型推理模型（MLRMs）——增强版的多模态语言模型（MLLMs），具备推理能力——的快速发展已经彻底改变了各种应用。然而，它们的安全性影响尚未得到充分探索。虽然先前的工作揭示了一维推理模型中的关键漏洞，但MLRMs引入了从跨模态推理路径中独特的风险。本文通过大规模实证研究，首次系统性地分析了MLRMs的安全性，将MLRMs与其基础MLLMs进行比较。我们的实验揭示了三个关键发现：（1）推理税：获得推理能力导致继承的安全对齐 catastrophic 崩溃。MLRMs在对抗攻击下表现出37.44%更高的逃狱成功率。（2）安全盲点：虽然安全性下降是普遍存在的，但某些场景（如非法活动）遭受25倍更高的攻击率——远超过平均3.4倍的增长，揭示了特定场景的漏洞，并且这种一致性令人担忧地跨模态和数据集。（3）新兴自我校正：尽管推理-答案安全性紧密结合，MLRMs显示出初具雏形的自我校正——16.9%的逃狱推理步骤被安全答案覆盖，暗示了内在的保护机制。这些发现强调了场景感知安全审计和机制的紧迫性，以增强MLRMs的自我校正潜力。为了推动研究，我们开源了OpenSafeMLRM，这是首个用于MLRM安全评估的工具包，提供了对主流模型、数据集和逃狱方法的统一接口。我们的工作呼吁立即采取努力以加固增强推理的人工智能，并确保其变革潜力与伦理保护相一致。