LLM2D

摘要

arXiv:2504.10081v1 安全类型: 新闻摘要: 大型推理模型（LRMs），如 OpenAI o1 和 DeepSeek-R1，已在数学和编程等复杂推理任务上取得了迅速进步并实现了突破性 performance。然而，开源的 R1 模型在广泛应用中引发了安全关切，比如倾向于遵从恶意查询，这极大地影响了这些强大模型在实际应用中的实用性。在本文中，我们介绍 RealSafe-R1 作为与安全性对齐的 DeepSeek-R1 提纯模型。为训练这些模型，我们构建了一个由 15,000 个安全意识推理轨迹组成的数据集，这些轨迹是 DeepSeek-R1 在明确预期拒绝行为指令下生成的。定量实验和定性案例研究证明了这些模型的改进，这体现在它们对有害查询和冲破限制攻击的安全保护栏上。重要的是，与以往往往牺牲推理性能的安全对齐努力不同，我们的方法通过保持训练数据在原始生成分布内，保留了模型的推理能力。RealSafe-R1 的模型权重可在 https://huggingface.co/RealSafe 获取。