LLM2D
EffOWT:高效有效地将视觉语言模型转移应用于开放世界跟踪
EffOWT: Transfer Visual Language Models to Open-World Tracking Efficiently and Effectively
作者: Bingyang Wang, Kaer Huang, Bin Li, Yiqiang Yan, Lihe Zhang, Huchuan Lu, You He
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.05141v1

摘要

arXiv:2504.05141v1 宣告类型:交叉 摘要:开放世界跟踪(OWT)旨在跟踪所有类别的每个物体,这要求模型具备强大的泛化能力。通过利用视觉语言模型(VLMs),跟踪器可以提高其泛化能力。然而,当将VLMs转移到OWT时,微调策略带来了挑战:全微调会导致过多的参数和内存开销,而零样本策略则会导致性能欠佳。为了解决这个问题,提出了EffOWT用于高效地将VLMs转移到OWT。具体而言,我们在VLM主干网络外部构建了一个小型的、独立的学习侧网络。通过冻结主干网络并在侧网络上仅执行反向传播,可以满足模型的效率要求。此外,EffOWT通过提出Transformer和CNN的混合结构来增强侧网络,在OWT领域提高模型的性能。最后,我们对MLP实现了稀疏交互,从而显著减少了参数更新和内存开销。得益于所提出的方法,EffOWT在对于未知类别而言的跟踪指标OWTA上实现了5.5%的绝对增益,而且相较于全微调仅更新了1.3%的参数,内存开销减少了36.4%。其他指标也显示出显著的改进。