摘要
arXiv:2502.13603v1 类别:交叉学科
摘要:直接偏好优化(DPO)是一种高效对齐技术,通过使用偏好数据进行训练来引导LLM产生更可取的输出,从而绕过了明确奖励模型的需要。其简洁性使其能够轻松适应各种领域和安全要求。本文探讨了DPO在对抗jailbreaking攻击方面提升模型安全性的有效性,同时最大限度地减少了数据需求和培训成本。我们引入了Egida数据集,该数据集涵盖了27个不同的安全主题和18种不同的攻击风格,并配备了合成和人工标签。这些数据被用于提升最先进的LLM(包括Llama-3.1-8B/70B-Instruct和Qwen-2.5-7B/72B-Instruct)的安全性,覆盖了各种主题和攻击风格。除了安全性评估,我们还评估了它们在通用任务中的性能下降程度,以及它们过度拒绝的倾向。按照提出的方案,经过训练的模型将攻击成功率降低了10%-30%,使用了较小的训练努力(2,000个样本)和较低的计算成本(8B模型3美元,72B模型20美元)。安全对齐后的模型能够应用于未见过的主题和攻击风格,最成功的攻击风格的成功率约为5%。发现模型的大小和家族对安全性适应性有强烈影响,突显了预训练选择的重要性。为验证我们的发现,作者进行了一个大型独立评估,考察了人类偏好与Llama-Guard-3-8B的一致性,并发布了相关的Egida-HSafe数据集。总体而言,这项研究展示了使用DPO增强LLM安全性的经济性和可访问性,同时也指出了其当前的限制。所有数据集和模型均已发布,以确保可重现性和进一步研究。