摘要
arXiv:2502.12025v1 安全类型: 新
摘要:新兴的大型推理模型(LRMs),如DeepSeek-R1模型,通过利用长链推理(CoT)来生成结构化的中间步骤,从而增强其推理能力。然而,长CoT本身并不必然保证输出的安全性,可能会导致诸如代码中引入安全漏洞或传播错误信息等有害后果。当前对大型语言模型(LLMs)安全性的研究通常集中在短答案响应上,忽视了LRMs的长CoT风格的输出。为了填补这一空白,我们对LRM安全性进行了系统性的研究。首先,我们研究了与人类注释校准的安全评估器。利用我们新开发的度量标准,我们彻底评估了12个最先进的LRMs在StrongReject和WildJailbreak数据集上的安全性。我们的结果显示,LRMs的安全性与其推理进步成反比。此外,我们对推理轨迹和最终答案进行了深入分析。我们发现,三种解码策略——ZeroThink、LessThink和MoreThink——可以在不进行额外训练的情况下提高模型的安全性。然而,这些策略要么使用受限的推理轨迹,要么需要高昂的推理成本。为了更好地增强LRM安全性,我们引入了SafeChain,这是第一种以CoT风格编写的安全性训练数据集。我们对两个LRMs进行了微调,结果显示,它不仅增强了模型的安全性,还在6个推理基准上保持了性能。