摘要
arXiv:2504.01903v1 类别: cross
摘要: 本文介绍了STAR-1,这是一个高质量、规模仅为1K的安全数据集,特别设计用于大型推理模型(LRMs)如DeepSeek-R1。STAR-1基于三个核心原则——多样性、审慎推理和严格的筛选,旨在解决LRMs中的关键安全性对齐需求。具体来说,我们首先整合了来自多种来源的现有开源安全数据集。然后,我们策展安全政策以生成基于政策的审慎推理样本。最后,我们应用基于GPT-4o的安全评分系统来选择与最佳实践对齐的训练示例。实验结果显示,使用STAR-1微调LRMs在四个基准测试中的安全性性能平均提高了40%,而在五个推理任务中的推理能力仅略有下降(例如,平均1.1%)。广泛的消融研究进一步验证了我们在构建STAR-1中的设计原则的重要性,并分析了其在大型推理模型和传统LLMs中的有效性。我们的项目页面为https://ucsc-vlaa.github.io/STAR-1。