摘要
视觉定位是常见的视觉任务,涉及将描述性句子定位到图像的对应区域。大多数现有方法使用独立的图像-文本编码,并应用复杂的、手工制作的模块或编码器-解码器架构来进行模态交互和查询推理。然而,当处理复杂的文本表达时,它们的性能会显著下降。这是因为前一种范式仅利用有限的下游数据来拟合多模态特征融合。因此,它仅在文本表达相对简单时才有效。相反,鉴于文本表达的多样性和下游训练数据的独特性,现有的融合模块,从视觉-语言语境中提取多模态内容,尚未得到充分研究。在本文中,我们提出了一种简单而健壮的基于Transformer的视觉定位框架SimVG。具体来说,我们通过利用现有的多模态预训练模型并加入额外的目标令牌来促进下游任务和预训练任务的深度集成,将视觉-语言特征融合与下游任务解耦。此外,我们在多分支同步学习过程中设计了一种动态权重平衡蒸馏方法,以增强更简单分支的表示能力。该分支仅包含一个轻量级的MLP,简化了结构并提高了推理速度。在六个广泛使用的VG数据集(即RefCOCO/+/g、ReferIt、Flickr30K和GRefCOCO)上的实验表明了SimVG的优越性。最后,所提出的方法不仅在效率和收敛速度方面取得了改进,而且在这些基准测试中也取得了新的最先进的性能。代码和模型将在\url{https://github.com/Dmmm1997/SimVG}上提供。