LLM2D
RealSafe-R1:安全对齐的DeepSeek-R1,不牺牲推理能力
RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
作者: Yichi Zhang, Zihao Zeng, Dongbai Li, Yao Huang, Zhijie Deng, Yinpeng Dong
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.10081v1

摘要

arXiv:2504.10081v1 安全类型: 新闻 摘要: 大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,已在数学和编程等复杂推理任务上取得了迅速进步并实现了突破性 performance。然而,开源的 R1 模型在广泛应用中引发了安全关切,比如倾向于遵从恶意查询,这极大地影响了这些强大模型在实际应用中的实用性。在本文中,我们介绍 RealSafe-R1 作为与安全性对齐的 DeepSeek-R1 提纯模型。为训练这些模型,我们构建了一个由 15,000 个安全意识推理轨迹组成的数据集,这些轨迹是 DeepSeek-R1 在明确预期拒绝行为指令下生成的。定量实验和定性案例研究证明了这些模型的改进,这体现在它们对有害查询和冲破限制攻击的安全保护栏上。重要的是,与以往往往牺牲推理性能的安全对齐努力不同,我们的方法通过保持训练数据在原始生成分布内,保留了模型的推理能力。RealSafe-R1 的模型权重可在 https://huggingface.co/RealSafe 获取。