摘要
arXiv:2409.18025v5 通知书类型: replace-cross
摘要:大型语言模型被微调以拒绝关于危险知识的问题,但这些保护措施往往可以被绕过。遗忘方法旨在完全去除模型中的危险能力,并使其对对手而言不可访问。本工作从对手的角度挑战了遗忘与传统训练后安全措施之间基础性的差异。我们证明,以前报道为对遗忘无效的方法,如果谨慎应用,可以取得成功。此外,我们开发了一种适应性方法的多种变体,以恢复大部分被认为已遗忘的能力。例如,我们展示了使用RMU(一种最先进的遗忘方法)编辑的模型,通过对10个无关示例进行微调或移除激活空间中的特定方向,可以恢复大部分危险能力。我们的发现挑战了当前遗忘方法的稳健性,并对其相对于安全训练的优势提出了质疑。