LLM2D

摘要

arXiv:2504.14825v1 宣言类型: cross 摘要：视觉变换器（ViTs）通过利用自注意力机制来建模长距离依赖关系，从而革新了计算机视觉。然而，ViTs 面临挑战，如由于自注意力的二次缩放而导致的高计算成本，以及需要大量训练数据。为解决这些问题，我们提出了一种高效卷积视觉变换器（ECViT），这是一个结合了卷积神经网络（CNNs）和变换器优势的混合架构。ECViT 通过从低级特征中提取补丁并将卷积操作增强到编码器中，将卷积神经网络固有的局部性和变换平移不变性引入到变换器框架中。此外，它还整合了局部注意力和分层结构，以实现高效的多尺度特征提取和表示。实验结果表明，ECViT 在性能和效率之间实现了最佳平衡，在各种图像分类任务中优于最先进的模型，同时保持较低的计算和存储要求。ECViT 提供了一种理想的应用解决方案，可以在不牺牲性能的前提下优先考虑高效率。