LLM2D
回溯机制提升生成安全性
Backtracking Improves Generation Safety
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14586v1

摘要

arXiv:2409.14586v1 公告类型: 交叉 摘要: 文本生成几乎从定义上就存在一个根本性的局限:一旦生成的标记明显有问题,也无法撤销。在语言模型安全性的背景下,当产生部分不安全的生成内容时,语言模型本质上倾向于继续生成类似的不安全额外文本。这实际上是在野外规避前沿模型安全对齐的方式,尽管在提高其安全性方面做出了巨大努力。我们偏离了将安全对齐视为预防(降低有害响应的概率)的范式,提出了一种回溯技术,允许语言模型通过引入特殊[RESET]标记来“撤销”并从其自身的不安全生成中恢复。我们的方法可以融入SFT或DPO训练中,以优化有用性和无害性。我们展示了经过回溯训练的模型在安全性上始终优于基线模型:在我们的评估中,回溯Llama-3-8B的安全性是基线模型的四倍(6.1% → 1.5%),且在有用性上没有退化。此外,我们的方法在没有专门训练的情况下,还能抵御四种对抗攻击,包括一种自适应攻击。