摘要
arXiv:2502.09990v1 类别: cross
摘要: 尽管语言模型(LLMs)的安全对齐技术取得了快速发展,但防范多轮脱缰攻击仍然是一项具有挑战性的任务。在这篇论文中,我们进行了全面的比较,揭示了一些现有的防御方法可以提高LLMs在面对多轮脱缰攻击时的鲁棒性,但以牺牲可用性为代价,即降低一般能力或导致过度拒绝问题。从语言模型机制解释性的角度来看,我们发现这些方法未能建立一个精确区分安全和有害特征表示的边界。因此,接近有害表示的边界安全表示不可避免地会被破坏,导致可用性下降。为了解决这一问题,我们提出了X-Boundary来将有害表示推离边界安全表示,获得一个准确的区分边界。这样,可以精确地删除有害表示而不影响安全表示。实验结果表明,X-Boundary在对抗多轮脱缰攻击方面实现了最先进的防御性能,同时将过度拒绝率降低了约20%,并保持了几乎完全的一般能力。此外,我们从理论上证明并实证验证了X-Boundary可以在训练过程中加速收敛过程。请查阅我们的代码:https://github.com/AI45Lab/X-Boundary。