LLM2D
STAR-1:使用1K数据实现更安全的LLM对齐
STAR-1: Safer Alignment of Reasoning LLMs with 1K Data
作者: Zijun Wang, Haoqin Tu, Yuhan Wang, Juncheng Wu, Jieru Mei, Brian R. Bartoldson, Bhavya Kailkhura, Cihang Xie
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01903v1

摘要

arXiv:2504.01903v1 类别: cross 摘要: 本文介绍了STAR-1,这是一个高质量、规模仅为1K的安全数据集,特别设计用于大型推理模型(LRMs)如DeepSeek-R1。STAR-1基于三个核心原则——多样性、审慎推理和严格的筛选,旨在解决LRMs中的关键安全性对齐需求。具体来说,我们首先整合了来自多种来源的现有开源安全数据集。然后,我们策展安全政策以生成基于政策的审慎推理样本。最后,我们应用基于GPT-4o的安全评分系统来选择与最佳实践对齐的训练示例。实验结果显示,使用STAR-1微调LRMs在四个基准测试中的安全性性能平均提高了40%,而在五个推理任务中的推理能力仅略有下降(例如,平均1.1%)。广泛的消融研究进一步验证了我们在构建STAR-1中的设计原则的重要性,并分析了其在大型推理模型和传统LLMs中的有效性。我们的项目页面为https://ucsc-vlaa.github.io/STAR-1。