LLM2D

摘要

arXiv:2504.05141v1 宣告类型：交叉摘要：开放世界跟踪（OWT）旨在跟踪所有类别的每个物体，这要求模型具备强大的泛化能力。通过利用视觉语言模型（VLMs），跟踪器可以提高其泛化能力。然而，当将VLMs转移到OWT时，微调策略带来了挑战：全微调会导致过多的参数和内存开销，而零样本策略则会导致性能欠佳。为了解决这个问题，提出了EffOWT用于高效地将VLMs转移到OWT。具体而言，我们在VLM主干网络外部构建了一个小型的、独立的学习侧网络。通过冻结主干网络并在侧网络上仅执行反向传播，可以满足模型的效率要求。此外，EffOWT通过提出Transformer和CNN的混合结构来增强侧网络，在OWT领域提高模型的性能。最后，我们对MLP实现了稀疏交互，从而显著减少了参数更新和内存开销。得益于所提出的方法，EffOWT在对于未知类别而言的跟踪指标OWTA上实现了5.5%的绝对增益，而且相较于全微调仅更新了1.3%的参数，内存开销减少了36.4%。其他指标也显示出显著的改进。