LLM2D

摘要

arXiv:2502.12659v1 安全类型: 交叉摘要：大型推理模型的快速进展，如OpenAI-o3和DeepSeek-R1，已显著提升了复杂推理能力，使其超越了非推理大型语言模型（LLMs）。然而，这些增强的能力，尤其是结合了如DeepSeek-R1的开源访问，引发了严重的安全担忧，特别是在滥用方面。在本文中，我们对这些推理模型进行了全面的安全评估，利用已建立的安全基准来评估其是否符合安全规定。此外，我们研究了它们对敌对手段的易感性，如脱管和提示注入，以评估其在实际应用中的稳健性。通过多方面的分析，我们发现了四个关键发现：（1）开源R1模型与o3-mini模型在安全基准和攻击方面存在显著的安全差距，表明需要在R1上投入更多安全努力。（2）精简推理模型在安全性性能方面逊于与其安全对齐的基础模型。（3）模型的推理能力越强，回答不安全问题时可能造成的潜在危害越大。（4）R1模型的思维过程比其最终答案更容易引发安全问题。我们的研究揭示了推理模型安全性含义，并突显了进一步提高R1模型安全性的必要性以缩小差距。