LLM2D
通过编码器-解码器架构缓解注意力陷阱以增强视觉变换器
EDIT: Enhancing Vision Transformers by Mitigating Attention Sink through an Encoder-Decoder Architecture
作者: Wenfeng Feng, Guoying Sun
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06738v1

摘要

arXiv:2504.06738v1 类型: cross 摘要: 在本文中,我们提出了 EDIT (Encoder-Decoder Image Transformer) 这种新型架构,旨在缓解在 Vision Transformer 模型中观察到的注意力陷阱现象。注意力陷阱是指将过多的注意力分配给 [CLS] 标记,从而扭曲了模型有效处理图像块的能力。为了解决这个问题,我们引入了一种层对齐的编码器-解码器架构,其中编码器使用自注意力来处理图像块,而解码器使用交叉注意力聚焦于 [CLS] 标记。与传统的编码器-解码器框架不同,在该框架中解码器仅依赖高层编码器表示,EDIT 允许解码器从低层特征开始提取信息,并逐层逐步精细化表示。通过顺序注意力图展示了 EDIT 的自然可解释性,这些图示解释了逐层细化对关键图像特征的关注。在 ImageNet-1k 和 ImageNet-21k 上的实验以及迁移学习任务中,EDIT 在 DeiT3 模型上展现了持续的性能改进。这些结果突显了 EDIT 设计在解决注意力陷阱和改进视觉特征提取方面的有效性。