LLM2D

摘要

arXiv:2504.13763v2 Announce Type: replace-cross 摘要：Logit Lens 是一种广泛采用的方法，用于解释基于变压器的语言模型的机理可解释性，通过将内部表示投影到输出词汇空间，从而分析这些表示在各个层中的演变过程。虽然将 Logit Lens 应用于视觉变压器（ViTs）在技术上较为直接，但其直接使用在捕捉视觉表示的丰富性方面存在局限。基于 Toker 等人（2024）~\cite{Toker2024-ve} 的工作，他们引入了 Diffusion Lens 用于可视化文本到图像扩散模型的文字编码器中的中间表示，我们展示了 Diffusion Lens 能够有效可视化图像编码器中的残差流表示，但无法捕捉各个子模块的直接贡献。为克服这一局限，我们提出了 \textbf{Diffusion Steering Lens} (DSL)，这是一种无需训练的新颖方法，它引导子模块输出，并紧接着捕捉间接贡献。通过干预性研究，我们验证了该方法，展示了 DSL 提供了 ViTs 内部处理的直观且可靠的解释。