LLM2D
条件激活引导中的编程拒绝
Programming Refusal with Conditional Activation Steering
作者: Bruce W. Lee, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Erik Miehling, Pierre Dognin, Manish Nagireddy, Amit Dhurandhar
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2409.05907v3

摘要

arXiv:2409.05907v3 宣告类型: replace-cross 摘要:大型语言模型显示出了令人 remarkable 的能力,但精确控制其响应行为仍然具有挑战性。现有的激活 steering 方法会不加选择地改变 LLM 的行为,限制了其在需要选择性响应的场景中的实用应用,例如内容审核或特定领域助手。在本文中,我们提出了条件激活 steering(CAST),该方法在推理过程中分析 LLM 的激活模式,并根据输入上下文有选择地应用或不应用激活 steering。我们的方法基于这样一个观察:不同类别的提示会在模型的隐藏状态中激活不同的模式。使用 CAST,可以根据类似“如果输入内容涉及仇恨言论或成人内容,拒绝;如果输入内容不涉及法律建议,拒绝”的规则系统地控制 LLM 的行为。这使得可以对特定内容进行选择性修改,同时对其他内容保持正常的响应,而无需进行权重优化。我们已在 github.com/IBM/activation-steering 上发布了我们框架的开源实现。