摘要
arXiv:2504.13756v1 类别:交叉学科
摘要:稀疏自动编码器(SAEs)是解释大型语言模型激活的一个流行工具,但它们在解决解释性开放问题方面的适用性仍然不清楚。在本文中,我们通过使用SAEs加深了我们对上下文学习机制(ICL)的理解,展示了它们的有效性。我们识别出一些抽象的SAE特征,这些特征(i)编码了模型执行任务的知识,(ii)并因果地诱发了零样本任务。这与之前的工作一致,这些工作表明ICL是由任务向量介导的。我们进一步证明,这些任务向量可以很好地由SAE潜在向量的稀疏和近似表示,包括这些执行任务的特征。为了探索ICL机制,我们将Marks等人(2024)的稀疏特征电路方法进行改编,使其适用于参数量大30倍的Gemma-1 2B模型,并适用于更复杂的ICL任务。通过电路发现,我们发现了与相应SAE潜在向量早期激活的任务检测特征,这些特征可以检测任务是否已执行。这些特征通过注意和MLP子层与执行任务的特征之间存在因果联系。