LLM2D
LOOPE: 可学习的最优patches顺序嵌入在视觉变换器中
LOOPE: Learnable Optimal Patch Order in Positional Embeddings for Vision Transformers
作者: Md Abtahi Majeed Chowdhury, Md Rifat Ur Rahman, Akil Ahmad Taki
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14386v1

摘要

arXiv:2504.14386v1 交叉公告类型 摘要:位置嵌入(Positional Embeddings, PE)在视觉变换器(Vision Transformers, ViTs)中起到了关键作用,通过提供由于自注意力的置换不变性性质而丢失的空间信息。虽然绝对位置嵌入(Absolute Positional Embeddings, APE)已经在理论上显示了相对于相对位置嵌入(Relative Positional Embeddings, RPE)的优势,尤其是在正弦函数能够保持诸如单调性和平移不变性等空间归纳偏置方面,但当将2D网格映射到1D序列时,一个根本性的挑战出现了。现有的方法大多忽略了或从未探索过位置嵌入中块顺序的影响。为了解决这个问题,我们提出了LOOPE,这是一种可学习的块顺序方法,其通过优化给定频率下的空间表示,提供了一种有原则的方法来优化块顺序。实验证明,我们的位置嵌入显著提高了各种ViT架构的分类准确率。为了严格评估位置嵌入的有效性,我们引入了“Three Cell Experiment”这一新颖的基准测试框架,用于评估位置嵌入在不同ViT架构中保留相对和绝对位置信息的能力。不同于标准评估通常报告的4%到6%的性能差距,我们的方法揭示了高达30%到35%的显著差异,提供了一种更为敏感的诊断工具来衡量位置嵌入的效果。我们的实验分析证实,提出的LOOPE在保留相对和绝对位置信息方面表现出增强的有效性。