LLM2D
稀疏自动编码器在视觉-语言模型中学习单义特征
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models
作者: Mateusz Pach, Shyamgopal Karthik, Quentin Bouniot, Serge Belongie, Zeynep Akata
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02821v1

摘要

arXiv:2504.02821v1 Announce Type: cross 摘要:稀疏自编码器(SAEs) recently 被证明能够增强大语言模型(LLMs)的可解释性和可控性。在这项工作中,我们将稀疏自编码器的应用扩展到视觉语言模型(VLMs),如 CLIP,并引入了一个全面的框架来评估视觉表示的一元性。我们的实验结果表明,利用 VLMs 训练的 SAEs 显著增强了单个神经元的一元性,同时展示了与专家定义的结构(例如,iNaturalist 分类学)相吻合的分层表示。最值得注意的是,我们展示了将 SAEs 应用于干预 CLIP 视觉编码器可以直接引导多模态大语言模型(例如,LLaVA)的输出,而无需对底层模型进行任何修改。这些发现强调了 SAEs 作为增强 VLMs 可解释性和控制性的无监督方法的实用性和有效性。