LLM2D

摘要

大型语言模型经过微调，可以拒绝有关危险知识的问题，但这些保护措施往往可以被绕过。遗忘学习方法旨在完全消除模型中的危险能力，使其无法被攻击者利用。这项工作从对抗的角度挑战了遗忘学习与传统安全训练后的根本区别。我们证明了现有的越狱方法，以前被报道对遗忘学习无效，在谨慎应用时可以成功。此外，我们开发了各种自适应方法，可以恢复大多数被认为遗忘的能力。例如，我们展示了在 10 个无关示例上进行微调或删除激活空间中的特定方向可以恢复使用 RMU（一种最先进的遗忘学习方法）编辑的模型的大多数危险能力。我们的发现挑战了当前遗忘学习方法的稳健性，并质疑它们相对于安全训练的优势。