LLM2D
文本如何辅助?细粒度评估揭示语言在视觉语言跟踪中的作用
How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking
作者: Xuchen Li, Shiyu Hu, Xiaokun Feng, Dailing Zhang, Meiqi Wu, Jing Zhang, Kaiqi Huang
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15600v1

摘要

视觉语言跟踪(VLT)通过结合文本信息扩展了传统的单目标跟踪,在快速运动和变形等具有挑战性的条件下提供语义指导以增强跟踪性能。然而,目前的 VLT 跟踪器在多个基准测试中的性能往往不如单模态方法,语义信息有时会成为一种“干扰”。为了解决这个问题,我们提出了 VLTVerse,这是一个针对 VLT 跟踪器的第一个细粒度评估框架,它全面考虑了多种挑战因素和多样化的语义信息,希望能揭示语言在 VLT 中的作用。我们的贡献包括:(1)VLTVerse 引入了 10 个序列级挑战标签和 6 种多粒度语义信息,为 VLT 创建了一个灵活且多维的评估空间;(2)利用由挑战因素和语义类型组合而成的 60 个子空间,我们对三个主流的 SOTA VLT 跟踪器进行了系统的细粒度评估,揭示了它们在复杂场景中的性能瓶颈,并为 VLT 评估提供了新的视角;(3)通过对实验结果的解耦分析,我们研究了各种语义类型对不同算法中特定挑战因素的影响,为从数据、评估和算法维度增强 VLT 提供了必要的指导。VLTVerse、工具包和结果将可在 \url{http://metaverse.aitestunion.com} 获取。