摘要
arXiv:2504.08729v1 交叉类型: cross
摘要:尽管视觉模型的能力很强,但它们的内部机制仍然不甚了解——这是一个挑战,稀疏自编码器(SAEs)在语言领域帮助解决了这个问题,但在视觉领域中仍然处于未被充分探索的状态。我们通过在CLIP的视觉变压器上训练SAEs来填补这一空白,揭示了视觉处理与语言处理之间的重要差异,包括跨层和token类型训练的SAEs的不同稀疏模式。然后,我们通过引入度量方法进行了第一次系统分析,以量化SAE特征如何精确地被引导以影响模型的输出。我们发现10-15%的神经元和特征是可引导的,与基础模型相比,SAEs提供了数千个更多的可引导特征。通过有针对性地抑制SAE特征,我们展示了在三个视觉解缠任务(CelebA、Waterbirds和typographic攻击)上的性能改进,在中间模型层实现了最优解缠,并在对抗typographic攻击的防御上达到了最新的性能。