LLM2D
基于条件激活指引的编程拒绝
Programming Refusal with Conditional Activation Steering
作者: Bruce W. Lee, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Erik Miehling, Pierre Dognin, Manish Nagireddy, Amit Dhurandhar
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2409.05907v2

摘要

arXiv:2409.05907v2 通知类型: replace-cross 摘要:大规模语言模型展示了卓越的能力,但精确控制其响应行为仍具有挑战性。现有的激活调节方法会不分情况地更改大模型的行为,限制了它们在需要选择性响应的场景中的实用性,如内容审核或特定领域的助手。在本文中,我们提出了条件激活调节(CAST),该方法在推断过程中分析大模型的激活模式,根据输入上下文选择性地应用或不应用激活调节。我们的方法基于这样一个观察:不同的提示类别会在模型的隐状态中激活不同的模式。使用CAST,可以根据规则如“如果输入涉及到仇恨言论或成人内容,则拒绝”或“如果输入与法律建议无关,则拒绝”系统地控制大模型的行为。这使得可以对特定内容进行选择性的响应修改,而对其他内容保持正常响应,而不需要进行权重优化。我们将在IBMactivation-steering上发布我们框架的开源实现。