LLM2D

摘要

arXiv:2504.02821v1 Announce Type: cross 摘要：稀疏自编码器（SAEs） recently 被证明能够增强大语言模型（LLMs）的可解释性和可控性。在这项工作中，我们将稀疏自编码器的应用扩展到视觉语言模型（VLMs），如 CLIP，并引入了一个全面的框架来评估视觉表示的一元性。我们的实验结果表明，利用 VLMs 训练的 SAEs 显著增强了单个神经元的一元性，同时展示了与专家定义的结构（例如，iNaturalist 分类学）相吻合的分层表示。最值得注意的是，我们展示了将 SAEs 应用于干预 CLIP 视觉编码器可以直接引导多模态大语言模型（例如，LLaVA）的输出，而无需对底层模型进行任何修改。这些发现强调了 SAEs 作为增强 VLMs 可解释性和控制性的无监督方法的实用性和有效性。