摘要
arXiv:2504.09195v1 Announce Type: cross
摘要:基于文本查询跟踪多个对象是一项具有挑战性的任务,需要在帧之间链接语言理解和对象关联。以往的工作通常以端到端的方式训练整个过程,或者将额外的指引用文本模块集成到多对象跟踪器中,但这两者都需要监督训练,并且在处理开放集查询时可能难以泛化。在本文中,我们提出了一种新颖的零样本指引用多对象跟踪框架——ReferGPT。我们提供了一个具有空间知识的多模态大语言模型(MLLM),使其能够生成具有3D意识的描述。这增强了其描述能力,并且在无需训练的情况下支持更灵活的指引用词汇。我们还提出了一种稳健的查询匹配策略,利用基于CLIP的语义编码和模糊匹配,将MLLM生成的描述与用户查询关联起来。在Refer-KITTI、Refer-KITTIv2和Refer-KITTI+上的广泛实验表明,ReferGPT在性能上与训练后的模型相当,展示了其在自主驾驶中的稳健性和零样本能力。代码已发布在https://github.com/Tzoulio/ReferGPT