摘要
arXiv:2502.05945v2 宣告类型: replace-cross
摘要:随着大型语言模型的广泛应用,稳健的对齐护栏变得越来越重要。与之前的研究所不同,我们证明了推理时的激活干预可以绕过安全性对齐,有效地引导Llama 2模型生成有害的人工智能协调。我们的方法针对特定的模型子组件,特别是注意力头,应用了简单的二元选择探针策略,进行了细微的干预。这些干预措施在开放生成场景中有效泛化,从而绕过了安全护栏。我们展示了单独探针注意力头的效果优于干预整个层,仅干预四个注意力头在效果上与监督微调相当。我们进一步展示了只需少数例句完成即可计算有效的引导方向,这与经典的微调相比是一个优势。我们的发现突显了当前对齐技术的不足。此外,我们的结果表明,在注意力头级别上,激活包含了细微的线性可分行为。从实际角度来看,该方法提供了一种直接的方法来引导大型语言模型的行为,这种方法可以扩展到安全之外,需要对模型输出进行精细控制的多样化领域。该研究的代码和数据集可以在 https://github.com/PaulDrm/targeted_intervention 找到。