摘要
arXiv:2501.10967v2 通告类型: replace-cross
摘要:视觉-语言模型(VLMs)在推进通用人工智能方面展现出了非凡的能力,然而,视觉位置的不理性编码在抑制模型在不同粒度层次上的全面感知性能方面仍然存在。在本文中,我们提出了金字塔下降视觉位置编码(PyPE),一种旨在提高VLMs中视觉标记感知的新方法。通过从边缘向中心分配视觉位置索引,并逐步扩大中央感受野,PyPE解决了传统光栅扫描方法的局限性,并减轻了由旋转位置嵌入(RoPE)引起的长期衰减效应。我们的方法减少了相互关联的视觉元素和指令标记之间的相对距离,促进了更合理的注意权重分配,并允许对视觉元素进行多粒度感知,同时减少了对锚标记的过度依赖。广泛的实验证明,PyPE一致地提高了各种规模的VLMs的通用能力。代码可在https://github.com/SakuraTroyChen/PyPE获取。