LLM2D
SafeChain:具有长链式推理能力的语言模型的安全性
SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities
作者: Fengqing Jiang, Zhangchen Xu, Yuetai Li, Luyao Niu, Zhen Xiang, Bo Li, Bill Yuchen Lin, Radha Poovendran
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.12025v1

摘要

arXiv:2502.12025v1 安全类型: 新 摘要:新兴的大型推理模型(LRMs),如DeepSeek-R1模型,通过利用长链推理(CoT)来生成结构化的中间步骤,从而增强其推理能力。然而,长CoT本身并不必然保证输出的安全性,可能会导致诸如代码中引入安全漏洞或传播错误信息等有害后果。当前对大型语言模型(LLMs)安全性的研究通常集中在短答案响应上,忽视了LRMs的长CoT风格的输出。为了填补这一空白,我们对LRM安全性进行了系统性的研究。首先,我们研究了与人类注释校准的安全评估器。利用我们新开发的度量标准,我们彻底评估了12个最先进的LRMs在StrongReject和WildJailbreak数据集上的安全性。我们的结果显示,LRMs的安全性与其推理进步成反比。此外,我们对推理轨迹和最终答案进行了深入分析。我们发现,三种解码策略——ZeroThink、LessThink和MoreThink——可以在不进行额外训练的情况下提高模型的安全性。然而,这些策略要么使用受限的推理轨迹,要么需要高昂的推理成本。为了更好地增强LRM安全性,我们引入了SafeChain,这是第一种以CoT风格编写的安全性训练数据集。我们对两个LRMs进行了微调,结果显示,它不仅增强了模型的安全性,还在6个推理基准上保持了性能。