摘要
arXiv:2504.16145v1 类别: cross
摘要: 多任务视觉定位(MTVG)包括两个子任务,即引用表达理解(REC)和引用表达分割(RES)。现有的代表性方法通常遵循主要由三个核心步骤组成的研究管道,包括分别对视觉和语言模态进行独立特征提取,跨模态交互模块,以及为不同子任务的独立预测头部。尽管这些方法取得了显著的性能,但这一研究线程存在两个局限性:1) 语言内容尚未完全注入整个视觉骨干中,以增强更有效的视觉特征提取,需要额外的跨模态交互模块;2) REC 和 RES 任务之间的关系尚未被充分利用,以帮助协作预测以获得更准确的输出。为了解决这些问题,本文提出了一个用于多任务视觉定位的逐步语言导向视觉学习框架,称为PLVL,该框架不仅精细挖掘视觉模态自身的固有特征表达,还逐步注入语言信息以帮助学习与语言相关的视觉特征。通过这种方式,我们的PLVL无需额外的跨模态融合模块,同时全面引入了语言指导。此外,我们分析表明,REC 的定位中心在一定程度上有助于识别 RES 所需分割的对象区域。受到这一研究的启发,我们设计了一个多任务头来完成这两个子任务的协作预测。在几个基准数据集上进行的广泛实验全面证明了我们的PLVL在REC和RES任务中明显优于代表性方法。https://github.com/jcwang0602/PLVL