LLM2D
基于Transformer的视觉模型的逆向推理
Inverting Transformer-based Vision Models
作者: Jan Rathjens, Shirin Reyhanian, David Kappel, Laurenz Wiskott
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2412.06534v3

摘要

arXiv:2412.06534v3 宣布类型: replace-cross 摘要:理解计算机视觉中的深度神经网络机制仍然是一项基本挑战。虽然许多先前的方法集中在可视化深度神经网络中的中间表示,尤其是卷积神经网络,但这些技术在基于变压器的视觉模型中尚未得到充分探索。在本研究中,我们采用模块化的方法训练逆模型,从检测变压器和视觉变压器的中间层重构输入图像,显示了该方法的有效性和可行性。通过重建图像的定性和定量评估,我们获得了这些架构内在机制的见解,突出了它们在上下文形状、图像细节的保留、层间相关性以及对颜色扰动的鲁棒性方面的异同。我们的分析说明了这些特性如何在模型中出现,有助于更深入地理解基于变压器的视觉模型。用于重现我们实验的代码可在 github.com/wiskott-lab/inverse-tvm 获取。