LLM2D

摘要

arXiv:2412.06534v3 宣布类型: replace-cross 摘要：理解计算机视觉中的深度神经网络机制仍然是一项基本挑战。虽然许多先前的方法集中在可视化深度神经网络中的中间表示，尤其是卷积神经网络，但这些技术在基于变压器的视觉模型中尚未得到充分探索。在本研究中，我们采用模块化的方法训练逆模型，从检测变压器和视觉变压器的中间层重构输入图像，显示了该方法的有效性和可行性。通过重建图像的定性和定量评估，我们获得了这些架构内在机制的见解，突出了它们在上下文形状、图像细节的保留、层间相关性以及对颜色扰动的鲁棒性方面的异同。我们的分析说明了这些特性如何在模型中出现，有助于更深入地理解基于变压器的视觉模型。用于重现我们实验的代码可在 github.com/wiskott-lab/inverse-tvm 获取。