LLM2D
SAIF:一种用于解释和引导语言模型遵循指令的稀疏自编码框架
SAIF: A Sparse Autoencoder Framework for Interpreting and Steering Instruction Following of Language Models
作者: Zirui He, Haiyan Zhao, Yiran Qiao, Fan Yang, Ali Payani, Jing Ma, Mengnan Du
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11356v1

摘要

arXiv:2502.11356v1 宣告类型: cross 摘要:大型语言模型(LLMs)遵循指令的能力对于其实用应用至关重要,但其背后的机制仍未得到充分理解。本文提出了一种新的框架,利用稀疏自编码器(SAE)来解释这些模型中指令遵循的工作原理。我们展示了我们识别出的特征如何有效地引导模型输出与给定指令相一致。通过对SAE隐藏激活的分析,我们确定了负责指令遵循行为的具体隐藏层。我们的研究结果表明,指令遵循能力是由一组特定的指令相关SAE隐变量编码的。这些隐变量既与相关指令在语义上有接近性,又能对模型行为产生因果效应。我们的研究突出了几种对于实现有效的引导性能至关重要的因素:精确特征识别、最终层的作用以及指令的最佳位置。此外,我们证明了该方法在不同大小的SAE和LLM中都具有有效的扩展性。