LLM2D
利用层次下降视觉位置编码提升视觉语言模型的通用多模态能力
Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding
作者: Zhanpeng Chen, Mingxiao Li, Ziyang Chen, Nan Du, Xiaolong Li, Yuexian Zou
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2501.10967v2

摘要

arXiv:2501.10967v2 通告类型: replace-cross 摘要:视觉-语言模型(VLMs)在推进通用人工智能方面展现出了非凡的能力,然而,视觉位置的不理性编码在抑制模型在不同粒度层次上的全面感知性能方面仍然存在。在本文中,我们提出了金字塔下降视觉位置编码(PyPE),一种旨在提高VLMs中视觉标记感知的新方法。通过从边缘向中心分配视觉位置索引,并逐步扩大中央感受野,PyPE解决了传统光栅扫描方法的局限性,并减轻了由旋转位置嵌入(RoPE)引起的长期衰减效应。我们的方法减少了相互关联的视觉元素和指令标记之间的相对距离,促进了更合理的注意权重分配,并允许对视觉元素进行多粒度感知,同时减少了对锚标记的过度依赖。广泛的实验证明,PyPE一致地提高了各种规模的VLMs的通用能力。代码可在https://github.com/SakuraTroyChen/PyPE获取。