LLM2D

摘要

大型语言模型被微调以拒绝有关危险知识的问题，但这些保护措施通常可以被绕过。反学习方法旨在完全消除模型中的危险能力，使其对对手不可用。这项工作从对抗的角度挑战了反学习与传统安全后训练之间的根本差异。我们证明了现有的越狱方法，此前被报道对反学习无效，在谨慎应用时可以成功。此外，我们开发了各种自适应方法来恢复大多数被认为未被学习的能力。例如，我们表明，对 10 个无关示例进行微调或删除激活空间中的特定方向可以恢复使用 RMU（一种最先进的反学习方法）编辑的模型的大多数危险能力。我们的发现挑战了当前反学习方法的鲁棒性，并质疑它们相对于安全训练的优势。