摘要
arXiv:2502.05945v1 类型:交叉
摘要:在本工作中,我们介绍了一种简单而有效的方法,用于引导大型语言模型的行为,能够绕过学习到的对齐目标。我们采用了一种有效的干扰时间激活位移方法,无需额外训练即可实现这一目标。借鉴先前的研究,我们从对比模型输出的激活差异中推导出干预方向,这些差异表示所需的和不希望的模型行为。通过提示模型在其响应中包含多项选择答案,我们可以自动评估个体注意头对模型输出的敏感性。我们证明这些头上的干预措施在挑战性的“AI协调”数据集中的开放生成任务中表现良好。在该数据集中,模型必须在协助另一个AI或遵循伦理、安全和无害行为之间做出选择。我们精细的干预使得Llama 2更倾向于与其他AI协调,而不是遵循既定对齐目标。此外,这种方法能够实现比整个模型层更强的干预,同时保持整体输出的连贯性。我们方法的简单性揭示了当前对齐策略的局限性,并指出了未来研究方向的可能性,概念如“AI协调”可以由选定的注意头所影响。