LLM2D
通过激活导向改进语言模型的指令遵循能力
Improving Instruction-Following in Language Models through Activation Steering
作者: Alessandro Stolfo, Vidhisha Balachandran, Safoora Yousefi, Eric Horvitz, Besmira Nushi
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2410.12877v2

摘要

arXiv:2410.12877v2 宣告类型: 替换-交叉 摘要:语言模型在众多现实应用中的关键能力在于能够遵循指令。为了获得更深入的见解和更强的能力,我们从语言模型中衍生出指令特定的向量表示,并利用这些向量来引导模型。这些向量是通过指令存在和不存在时输入的激活差异计算得出的,这使我们能够采用模块化的方法来引导激活。我们展示了这种方法如何增强模型对输出格式、长度和词项的遵守能力,从而在推理时对遵循指令进行控制。我们在四个模型上的实验展示了我们如何使用激活向量来指导模型即使没有明确的指令也能遵循约束条件,并在有指令的情况下提升性能。此外,我们还探索了激活引导的组合性,成功地同时应用了多个指令。最后,我们展示了在指令调校模型上计算的引导向量如何转移到基模型以改善其性能。我们的研究结果表明,激活引导提供了一种实用且可扩展的方法来实现语言生成的精细控制。我们的代码和数据可在 https://github.com/microsoft/llm-steer-instruct 上获取。