摘要
arXiv:2504.05141v2 宣告类型: 替换交叉
摘要:开放世界跟踪(OWT)旨在追踪任何类别中的所有对象,这要求模型具备强大的泛化能力。通过利用视觉语言模型(VLMs),跟踪器可以提高其泛化能力。然而,当将VLMs转移到OWT时,细调策略会遇到挑战:全量细调会导致过度的参数和内存成本,而零样本策略则导致性能不佳。为了解决这些问题,我们提出了EffOWT,以高效地将VLMs转移到OWT中。具体来说,我们在外围构建了一个小型且独立的学习侧网络,固定主干网络,并仅在侧网络上执行反向传播,从而满足了模型的效率要求。此外,EffOWT通过提出Transformer和CNN的混合结构来增强侧网络,在OWT领域中提高模型的性能。最后,我们在MLP中实现稀疏交互,从而显著减少了参数更新和内存成本。由于提出的方法,EffOWT在未知类别上的跟踪指标OWTA上取得了5.5%的绝对收益,与全量细调相比,仅更新了1.3%的参数,节省了36.4%的内存。其他指标也显示出明显改进。