LLM2D

摘要

arXiv:2504.16145v1 类别: cross 摘要: 多任务视觉定位(MTVG)包括两个子任务，即引用表达理解(REC)和引用表达分割(RES)。现有的代表性方法通常遵循主要由三个核心步骤组成的研究管道，包括分别对视觉和语言模态进行独立特征提取，跨模态交互模块，以及为不同子任务的独立预测头部。尽管这些方法取得了显著的性能，但这一研究线程存在两个局限性：1) 语言内容尚未完全注入整个视觉骨干中，以增强更有效的视觉特征提取，需要额外的跨模态交互模块；2) REC 和 RES 任务之间的关系尚未被充分利用，以帮助协作预测以获得更准确的输出。为了解决这些问题，本文提出了一个用于多任务视觉定位的逐步语言导向视觉学习框架，称为PLVL，该框架不仅精细挖掘视觉模态自身的固有特征表达，还逐步注入语言信息以帮助学习与语言相关的视觉特征。通过这种方式，我们的PLVL无需额外的跨模态融合模块，同时全面引入了语言指导。此外，我们分析表明，REC 的定位中心在一定程度上有助于识别 RES 所需分割的对象区域。受到这一研究的启发，我们设计了一个多任务头来完成这两个子任务的协作预测。在几个基准数据集上进行的广泛实验全面证明了我们的PLVL在REC和RES任务中明显优于代表性方法。https://github.com/jcwang0602/PLVL