LLM2D

摘要

arXiv:2409.14586v1 公告类型: 交叉摘要: 文本生成几乎从定义上就存在一个根本性的局限：一旦生成的标记明显有问题，也无法撤销。在语言模型安全性的背景下，当产生部分不安全的生成内容时，语言模型本质上倾向于继续生成类似的不安全额外文本。这实际上是在野外规避前沿模型安全对齐的方式，尽管在提高其安全性方面做出了巨大努力。我们偏离了将安全对齐视为预防（降低有害响应的概率）的范式，提出了一种回溯技术，允许语言模型通过引入特殊[RESET]标记来“撤销”并从其自身的不安全生成中恢复。我们的方法可以融入SFT或DPO训练中，以优化有用性和无害性。我们展示了经过回溯训练的模型在安全性上始终优于基线模型：在我们的评估中，回溯Llama-3-8B的安全性是基线模型的四倍（6.1% → 1.5%），且在有用性上没有退化。此外，我们的方法在没有专门训练的情况下，还能抵御四种对抗攻击，包括一种自适应攻击。