LLM2D

摘要

arXiv:2504.01321v1 宣告类型：交叉摘要：最近，Transformer 在提高视觉-语言（VL）跟踪算法方面展现出了巨大潜力。然而，大多数现有的VL跟踪器依赖于精心设计的机制来执行多阶段多模态融合。此外，直接进行多模态融合而不进行对齐可能会忽略特征空间中模态之间的分布差异，导致不理想的表示。在这项工作中，我们提出了一种名为COST的对比度单一阶段Transformer融合框架，旨在学习语义一致且统一的VL表示。具体而言，我们引入了一种对比度对齐策略，该策略最大化了视频与其对应语言描述之间的互信息（MI）。这使得有效的跨模态对齐得以实现，在表示空间中生成语义一致的特征。通过利用视觉-语言Transformer，我们建立了一种高效的多模态融合和推理机制，实验表明简单的Transformer编码器堆栈能够有效地生成统一的VL表示。此外，我们贡献了一个新收集的小物体跟踪VL跟踪基准数据集，命名为VL-SOT500，其中包括边界框和语言描述。该数据集包含两个具有挑战性的子集，VL-SOT230和VL-SOT270，分别用于评估通用的小物体跟踪和高速小物体跟踪。由于小物体跟踪具有弱外观和有限特征的特性，因此一直是个棘手的问题，而我们的数据集据我们所知，是首个探索利用语言线索以增强视觉表示的小物体跟踪数据集。广泛的实验表明，COST在五个现有的VL跟踪数据集及我们提出的VL-SOT500数据集上均实现了最先进的性能。源代码和数据集将公开提供。