摘要
arXiv:2502.02153v1 安全对齐类型: 新颖
摘要:安全对齐是现实世界AI应用中的一个关键研究主题。尽管AI中的安全性和可靠性具有多维性,但当前的安全对齐方法往往关注全面的安全概念。通过对现有安全对齐方法的模型进行仔细评估,我们发现,虽然它们通常提高了整体的安全性能,但在特定类别中未能确保安全。我们的研究首先确定了在不牺牲模型的帮助性的情况下消除这些漏洞的难度。我们观察到,尽管较小的KL惩罚参数、增加的训练迭代次数和数据集清洗可以增强安全性,但它们并不一定能够改善安全性和帮助性的权衡。我们发现,安全对齐甚至可能会引起意想不到的效果,导致模型倾向于生成负面标记,从而产生拒绝性回应,无论输入的上下文如何。为了解决这一问题,我们引入了一种无需学习的方法——标记级安全去偏见推理(TSDI),该方法在生成过程中使用随机构造的提示来估算和纠正这种偏差。我们的实验表明,我们的方法可以增强模型的帮助性同时保持安全性,从而改进Pareto前沿。