LLM2D

摘要

arXiv:2504.13763v1 宣告类型: cross 摘要: Logit Lens 是一种广泛应用的方法，用于 transformer 基础语言模型的机理可解释性，它通过将内部表示投影到输出词汇空间，使得分析这些表示在各层中如何演化成为可能。虽然将 Logit Lens 应用于视觉变换器 (ViTs) 在技术上是直接的，但其直接使用在捕获视觉表示的丰富性方面存在局限。基于 Toker 等人 (2024)~\cite{Toker2024-ve} 的工作，他们介绍了用于可视化文本到图像扩散模型中的文本编码器中间表示的扩散透镜 (Diffusion Lens)，我们展示了虽然 Diffusion Lens 可以有效地可视化图像编码器中的残差流表示，但它无法捕捉各个子模块的直接贡献。为克服这一局限，我们提出了 \textbf{扩散引导透镜} (Diffusion Steering Lens, DSL)，这是一种无需训练的新颖方法，它引导子模块输出并跟踪后续的间接贡献。我们通过干预性研究验证了该方法，表明 DSL 为 ViTs 中的内部处理提供了直观且可靠的解释。