LLM2D
机器遗忘中的对抗视角:人工智能安全新思路
An Adversarial Perspective on Machine Unlearning for AI Safety
作者: Jakub {\L}ucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tram\`er, Javier Rando
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2409.18025v2

摘要

大型语言模型被微调以拒绝有关危险知识的问题,但这些保护措施通常可以被绕过。反学习方法旨在完全消除模型中的危险能力,使其对对手不可用。这项工作从对抗的角度挑战了反学习与传统安全后训练之间的根本差异。我们证明了现有的越狱方法,此前被报道对反学习无效,在谨慎应用时可以成功。此外,我们开发了各种自适应方法来恢复大多数被认为未被学习的能力。例如,我们表明,对 10 个无关示例进行微调或删除激活空间中的特定方向可以恢复使用 RMU(一种最先进的反学习方法)编辑的模型的大多数危险能力。我们的发现挑战了当前反学习方法的鲁棒性,并质疑它们相对于安全训练的优势。