LLM2D

摘要

arXiv:2504.08729v1 交叉类型: cross 摘要：尽管视觉模型的能力很强，但它们的内部机制仍然不甚了解——这是一个挑战，稀疏自编码器（SAEs）在语言领域帮助解决了这个问题，但在视觉领域中仍然处于未被充分探索的状态。我们通过在CLIP的视觉变压器上训练SAEs来填补这一空白，揭示了视觉处理与语言处理之间的重要差异，包括跨层和token类型训练的SAEs的不同稀疏模式。然后，我们通过引入度量方法进行了第一次系统分析，以量化SAE特征如何精确地被引导以影响模型的输出。我们发现10-15%的神经元和特征是可引导的，与基础模型相比，SAEs提供了数千个更多的可引导特征。通过有针对性地抑制SAE特征，我们展示了在三个视觉解缠任务（CelebA、Waterbirds和typographic攻击）上的性能改进，在中间模型层实现了最优解缠，并在对抗typographic攻击的防御上达到了最新的性能。