摘要
arXiv:2502.02153v1 安全对齐类型: 新颖
摘要: 安全对齐是实际人工智能应用中一个至关重要的研究课题。尽管人工智能中的安全性和可信度具有多方面性,当前的安全对齐方法通常集中在全面的安全概念上。通过仔细评估现有的安全对齐方法中的模型,我们发现,尽管它们通常提高了整体的安全性能,但在特定类别中未能确保安全。我们的研究首先揭示了在不牺牲模型的帮助性的情况下消除这些漏洞的难度。我们观察到,虽然较小的KL惩罚参数、增加的训练迭代次数和数据集清理可以提高安全性,但它们并不一定能改善安全性和帮助性之间的权衡。我们发现,安全对齐甚至可能引起不良影响,导致模型更倾向于生成负面标记,从而产生拒绝性的响应,而不考虑输入的上下文。为了解决这个问题,我们引入了一种无需学习的方法——标记级安全去偏推断(TSDI),在生成过程中使用随机构造的提示来估计和纠正这种偏差。我们的实验表明,我们的方法可以在保持安全性的前提下增强模型的帮助性,从而改善权衡前沿。