摘要
arXiv:2502.04040v1 声明类型: cross
摘要: 训练安全的大语言模型是最重要的研究挑战之一。然而,常用的 Refusal Training (RT) 方法难以在这种变种的 OOD 监狱破解攻击中泛化。许多安全训练方法已被提出以解决这一问题。虽然它们提供了宝贵的看法,但我们希望通过研究 OOD 攻击是否真的超出了 RT 模型的能力来补充这一研究方向。使用 BoN 进行评估时,我们观察到当 N 增加时泛化能力有显著提高。这表明模型拥有足够的与安全性相关的潜在知识,但 RT 模型无法一致地引发和利用这些知识来应对 OOD 攻击。基于领域适应的进一步分析表明,直接拒绝训练导致模型依赖于表面的捷径,从而学习到不稳健的表示映射。基于我们的发现,我们提议训练模型对每一个查询进行安全推理。推理监督鼓励模型进行更多的计算,明确地引发和利用通过推理获取的潜在知识。为了实现这一目标,我们基于预先的指导方针合成了推理监督,训练模型按照它们进行推理,从而有效地从多个角度来看引发和利用潜在知识。广泛的实验表明,我们的方法在应对 OOD 攻击时显著提高了泛化性能。