LLM2D

摘要

arXiv:2505.09466v1 交叉公告类型摘要：视觉transformer由于其通过自注意力机制捕捉长程依赖和上下文关系的能力，在计算机视觉任务中展现了显著的优势。然而，现有的位置编码技术，这些技术大多是从自然语言处理领域借用而来，未能有效地捕捉图像块之间的语义感知位置关系。传统的绝对位置编码和相对位置编码方法主要关注一维线性位置关系，经常忽略了远距离但上下文相关的图像块之间的语义相似性。这些限制阻碍了模型的泛化能力、平移不变性和处理图像中重复或结构化模式的能力。在本文中，我们提出了一种具有语义感知的二维位置编码方法（$\text{SaPE}^2$），它通过利用局部内容动态适应位置表示，而不是依赖固定的一维线性位置关系或空间坐标。我们的方法增强了模型在不同图像分辨率和尺度下的泛化能力，提高了平移不变性，并更有效地聚合了视觉上相似但空间上距离较远的图像块的特征。通过将$\text{SaPE}^2$集成到视觉transformer中，我们填补了位置编码和感知相似性之间的差距，从而在计算机视觉任务中提高了性能。