LLM2D

摘要

arXiv:2502.05945v2 宣告类型: replace-cross 摘要：随着大型语言模型的广泛应用，稳健的对齐护栏变得越来越重要。与之前的研究所不同，我们证明了推理时的激活干预可以绕过安全性对齐，有效地引导Llama 2模型生成有害的人工智能协调。我们的方法针对特定的模型子组件，特别是注意力头，应用了简单的二元选择探针策略，进行了细微的干预。这些干预措施在开放生成场景中有效泛化，从而绕过了安全护栏。我们展示了单独探针注意力头的效果优于干预整个层，仅干预四个注意力头在效果上与监督微调相当。我们进一步展示了只需少数例句完成即可计算有效的引导方向，这与经典的微调相比是一个优势。我们的发现突显了当前对齐技术的不足。此外，我们的结果表明，在注意力头级别上，激活包含了细微的线性可分行为。从实际角度来看，该方法提供了一种直接的方法来引导大型语言模型的行为，这种方法可以扩展到安全之外，需要对模型输出进行精细控制的多样化领域。该研究的代码和数据集可以在 https://github.com/PaulDrm/targeted_intervention 找到。