摘要
arXiv:2504.02821v1 Announce Type: cross
摘要:稀疏自编码器(SAEs) recently 被证明能够增强大语言模型(LLMs)的可解释性和可控性。在这项工作中,我们将稀疏自编码器的应用扩展到视觉语言模型(VLMs),如 CLIP,并引入了一个全面的框架来评估视觉表示的一元性。我们的实验结果表明,利用 VLMs 训练的 SAEs 显著增强了单个神经元的一元性,同时展示了与专家定义的结构(例如,iNaturalist 分类学)相吻合的分层表示。最值得注意的是,我们展示了将 SAEs 应用于干预 CLIP 视觉编码器可以直接引导多模态大语言模型(例如,LLaVA)的输出,而无需对底层模型进行任何修改。这些发现强调了 SAEs 作为增强 VLMs 可解释性和控制性的无监督方法的实用性和有效性。