摘要
arXiv:2504.19475v1 类型: cross
摘要: 坚固的工具和公开可用的预训练模型有助于推动语言模型机制可解释性的近期进展。然而,由于缺乏可访问的框架和预训练权重,视觉机制可解释性的类似进展受到了阻碍。我们介绍了Prisma(访问代码库:https://github.com/Prisma-Multimodal/ViT-Prisma),这是一个开源框架,旨在加速视觉机制可解释性研究,提供了一个统一的工具包,以访问75+视觉和视频变压器;支持稀疏自编码器(SAE)、转码器和交叉编码器训练;80+预训练SAE权重的套件;激活缓存、电路分析工具和可视化工具;以及教育资源。我们的分析揭示了一些令人惊讶的发现,包括有效的视觉SAEs可能表现出明显低于语言SAEs的稀疏模式,以及在某些情况下,SAE重构可以降低模型损失。Prisma为理解视觉模型内部结构开辟了新的研究方向,同时降低了进入这一新兴领域门槛。