LLM2D
大型推理模型的隐含风险:R1 的安全性评估
The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1
作者: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12659v1

摘要

arXiv:2502.12659v1 安全类型: 交叉 摘要:大型推理模型的快速进展,如OpenAI-o3和DeepSeek-R1,已显著提升了复杂推理能力,使其超越了非推理大型语言模型(LLMs)。然而,这些增强的能力,尤其是结合了如DeepSeek-R1的开源访问,引发了严重的安全担忧,特别是在滥用方面。在本文中,我们对这些推理模型进行了全面的安全评估,利用已建立的安全基准来评估其是否符合安全规定。此外,我们研究了它们对敌对手段的易感性,如脱管和提示注入,以评估其在实际应用中的稳健性。通过多方面的分析,我们发现了四个关键发现:(1)开源R1模型与o3-mini模型在安全基准和攻击方面存在显著的安全差距,表明需要在R1上投入更多安全努力。(2)精简推理模型在安全性性能方面逊于与其安全对齐的基础模型。(3)模型的推理能力越强,回答不安全问题时可能造成的潜在危害越大。(4)R1模型的思维过程比其最终答案更容易引发安全问题。我们的研究揭示了推理模型安全性含义,并突显了进一步提高R1模型安全性的必要性以缩小差距。