LLM2D

摘要

arXiv:2504.06738v1 类型: cross 摘要: 在本文中，我们提出了 EDIT (Encoder-Decoder Image Transformer) 这种新型架构，旨在缓解在 Vision Transformer 模型中观察到的注意力陷阱现象。注意力陷阱是指将过多的注意力分配给 [CLS] 标记，从而扭曲了模型有效处理图像块的能力。为了解决这个问题，我们引入了一种层对齐的编码器-解码器架构，其中编码器使用自注意力来处理图像块，而解码器使用交叉注意力聚焦于 [CLS] 标记。与传统的编码器-解码器框架不同，在该框架中解码器仅依赖高层编码器表示，EDIT 允许解码器从低层特征开始提取信息，并逐层逐步精细化表示。通过顺序注意力图展示了 EDIT 的自然可解释性，这些图示解释了逐层细化对关键图像特征的关注。在 ImageNet-1k 和 ImageNet-21k 上的实验以及迁移学习任务中，EDIT 在 DeiT3 模型上展现了持续的性能改进。这些结果突显了 EDIT 设计在解决注意力陷阱和改进视觉特征提取方面的有效性。