LLM2D

摘要

arXiv:2502.12025v1 安全类型: 新摘要：新兴的大型推理模型（LRMs），如DeepSeek-R1模型，通过利用长链推理（CoT）来生成结构化的中间步骤，从而增强其推理能力。然而，长CoT本身并不必然保证输出的安全性，可能会导致诸如代码中引入安全漏洞或传播错误信息等有害后果。当前对大型语言模型（LLMs）安全性的研究通常集中在短答案响应上，忽视了LRMs的长CoT风格的输出。为了填补这一空白，我们对LRM安全性进行了系统性的研究。首先，我们研究了与人类注释校准的安全评估器。利用我们新开发的度量标准，我们彻底评估了12个最先进的LRMs在StrongReject和WildJailbreak数据集上的安全性。我们的结果显示，LRMs的安全性与其推理进步成反比。此外，我们对推理轨迹和最终答案进行了深入分析。我们发现，三种解码策略——ZeroThink、LessThink和MoreThink——可以在不进行额外训练的情况下提高模型的安全性。然而，这些策略要么使用受限的推理轨迹，要么需要高昂的推理成本。为了更好地增强LRM安全性，我们引入了SafeChain，这是第一种以CoT风格编写的安全性训练数据集。我们对两个LRMs进行了微调，结果显示，它不仅增强了模型的安全性，还在6个推理基准上保持了性能。