LLM2D

摘要

arXiv:2504.01903v1 类别: cross 摘要: 本文介绍了STAR-1，这是一个高质量、规模仅为1K的安全数据集，特别设计用于大型推理模型（LRMs）如DeepSeek-R1。STAR-1基于三个核心原则——多样性、审慎推理和严格的筛选，旨在解决LRMs中的关键安全性对齐需求。具体来说，我们首先整合了来自多种来源的现有开源安全数据集。然后，我们策展安全政策以生成基于政策的审慎推理样本。最后，我们应用基于GPT-4o的安全评分系统来选择与最佳实践对齐的训练示例。实验结果显示，使用STAR-1微调LRMs在四个基准测试中的安全性性能平均提高了40%，而在五个推理任务中的推理能力仅略有下降（例如，平均1.1%）。广泛的消融研究进一步验证了我们在构建STAR-1中的设计原则的重要性，并分析了其在大型推理模型和传统LLMs中的有效性。我们的项目页面为https://ucsc-vlaa.github.io/STAR-1。