LLM2D

摘要

arXiv:2504.09195v1 Announce Type: cross 摘要：基于文本查询跟踪多个对象是一项具有挑战性的任务，需要在帧之间链接语言理解和对象关联。以往的工作通常以端到端的方式训练整个过程，或者将额外的指引用文本模块集成到多对象跟踪器中，但这两者都需要监督训练，并且在处理开放集查询时可能难以泛化。在本文中，我们提出了一种新颖的零样本指引用多对象跟踪框架——ReferGPT。我们提供了一个具有空间知识的多模态大语言模型（MLLM），使其能够生成具有3D意识的描述。这增强了其描述能力，并且在无需训练的情况下支持更灵活的指引用词汇。我们还提出了一种稳健的查询匹配策略，利用基于CLIP的语义编码和模糊匹配，将MLLM生成的描述与用户查询关联起来。在Refer-KITTI、Refer-KITTIv2和Refer-KITTI+上的广泛实验表明，ReferGPT在性能上与训练后的模型相当，展示了其在自主驾驶中的稳健性和零样本能力。代码已发布在https://github.com/Tzoulio/ReferGPT