LLM2D

摘要

arXiv:2504.13756v1 类别:交叉学科摘要：稀疏自动编码器（SAEs）是解释大型语言模型激活的一个流行工具，但它们在解决解释性开放问题方面的适用性仍然不清楚。在本文中，我们通过使用SAEs加深了我们对上下文学习机制（ICL）的理解，展示了它们的有效性。我们识别出一些抽象的SAE特征，这些特征(i)编码了模型执行任务的知识，(ii)并因果地诱发了零样本任务。这与之前的工作一致，这些工作表明ICL是由任务向量介导的。我们进一步证明，这些任务向量可以很好地由SAE潜在向量的稀疏和近似表示，包括这些执行任务的特征。为了探索ICL机制，我们将Marks等人（2024）的稀疏特征电路方法进行改编，使其适用于参数量大30倍的Gemma-1 2B模型，并适用于更复杂的ICL任务。通过电路发现，我们发现了与相应SAE潜在向量早期激活的任务检测特征，这些特征可以检测任务是否已执行。这些特征通过注意和MLP子层与执行任务的特征之间存在因果联系。