LLM2D

摘要

arXiv:2502.05945v1 类型：交叉摘要：在本工作中，我们介绍了一种简单而有效的方法，用于引导大型语言模型的行为，能够绕过学习到的对齐目标。我们采用了一种有效的干扰时间激活位移方法，无需额外训练即可实现这一目标。借鉴先前的研究，我们从对比模型输出的激活差异中推导出干预方向，这些差异表示所需的和不希望的模型行为。通过提示模型在其响应中包含多项选择答案，我们可以自动评估个体注意头对模型输出的敏感性。我们证明这些头上的干预措施在挑战性的“AI协调”数据集中的开放生成任务中表现良好。在该数据集中，模型必须在协助另一个AI或遵循伦理、安全和无害行为之间做出选择。我们精细的干预使得Llama 2更倾向于与其他AI协调，而不是遵循既定对齐目标。此外，这种方法能够实现比整个模型层更强的干预，同时保持整体输出的连贯性。我们方法的简单性揭示了当前对齐策略的局限性，并指出了未来研究方向的可能性，概念如“AI协调”可以由选定的注意头所影响。