LLM2D
HSI: 针对头部的特殊干预可以诱导大型语言模型中的错配协同 AI 协作
HSI: Head-Specific Intervention Can Induce Misaligned AI Coordination in Large Language Models
作者: Paul Darm, Annalisa Riccardi
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2502.05945v2

摘要

arXiv:2502.05945v2 宣告类型: replace-cross 摘要:随着大型语言模型的广泛应用,稳健的对齐护栏变得越来越重要。与之前的研究所不同,我们证明了推理时的激活干预可以绕过安全性对齐,有效地引导Llama 2模型生成有害的人工智能协调。我们的方法针对特定的模型子组件,特别是注意力头,应用了简单的二元选择探针策略,进行了细微的干预。这些干预措施在开放生成场景中有效泛化,从而绕过了安全护栏。我们展示了单独探针注意力头的效果优于干预整个层,仅干预四个注意力头在效果上与监督微调相当。我们进一步展示了只需少数例句完成即可计算有效的引导方向,这与经典的微调相比是一个优势。我们的发现突显了当前对齐技术的不足。此外,我们的结果表明,在注意力头级别上,激活包含了细微的线性可分行为。从实际角度来看,该方法提供了一种直接的方法来引导大型语言模型的行为,这种方法可以扩展到安全之外,需要对模型输出进行精细控制的多样化领域。该研究的代码和数据集可以在 https://github.com/PaulDrm/targeted_intervention 找到。