摘要
arXiv:2504.10081v1 安全类型: 新闻
摘要: 大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,已在数学和编程等复杂推理任务上取得了迅速进步并实现了突破性 performance。然而,开源的 R1 模型在广泛应用中引发了安全关切,比如倾向于遵从恶意查询,这极大地影响了这些强大模型在实际应用中的实用性。在本文中,我们介绍 RealSafe-R1 作为与安全性对齐的 DeepSeek-R1 提纯模型。为训练这些模型,我们构建了一个由 15,000 个安全意识推理轨迹组成的数据集,这些轨迹是 DeepSeek-R1 在明确预期拒绝行为指令下生成的。定量实验和定性案例研究证明了这些模型的改进,这体现在它们对有害查询和冲破限制攻击的安全保护栏上。重要的是,与以往往往牺牲推理性能的安全对齐努力不同,我们的方法通过保持训练数据在原始生成分布内,保留了模型的推理能力。RealSafe-R1 的模型权重可在 https://huggingface.co/RealSafe 获取。