摘要
arXiv:2504.13763v2 Announce Type: replace-cross
摘要:Logit Lens 是一种广泛采用的方法,用于解释基于变压器的语言模型的机理可解释性,通过将内部表示投影到输出词汇空间,从而分析这些表示在各个层中的演变过程。虽然将 Logit Lens 应用于视觉变压器(ViTs)在技术上较为直接,但其直接使用在捕捉视觉表示的丰富性方面存在局限。基于 Toker 等人(2024)~\cite{Toker2024-ve} 的工作,他们引入了 Diffusion Lens 用于可视化文本到图像扩散模型的文字编码器中的中间表示,我们展示了 Diffusion Lens 能够有效可视化图像编码器中的残差流表示,但无法捕捉各个子模块的直接贡献。为克服这一局限,我们提出了 \textbf{Diffusion Steering Lens} (DSL),这是一种无需训练的新颖方法,它引导子模块输出,并紧接着捕捉间接贡献。通过干预性研究,我们验证了该方法,展示了 DSL 提供了 ViTs 内部处理的直观且可靠的解释。