LLM2D

摘要

arXiv:2502.13875v1 Announce Type: 横跨领域摘要: 引用多对象跟踪（RMOT）是一个相对较新的概念，它作为一种在计算机视觉和自然语言处理交叉领域有潜力的研究方向而迅速引起了关注。与传统的多对象跟踪不同，RMOT 识别并跟踪对象，并结合了对象类别的文本描述，使得这种方法更具直观性。为了应对这一挑战性的问题，已提出了多种技术；然而，大多数方法由于其端到端的性质，需要对整个网络进行训练。在这些方法中，iKUN 已经展现出特别有前景的解决方案。因此，我们进一步探索其管道并增强其性能。在本文中，我们介绍了一种被称为高效跨模态——MEX 的实用模块。这种高效的技术可以直接应用于现成的跟踪器如 iKUN，从而带来显著的架构改进。我们的方法在单个带有 4 GB 内存的 GPU 上进行推断时证明了其有效性。在各种基准测试中，特别有用的是提供多样化的自主驾驶场景并带有相关语言表达的 Refer-KITTI 数据集，它特别适用于研究这一问题。实证研究表明，我们的方法在 HOTA 跟踪评分方面表现出有效性与效率，显著提高了内存分配和处理速度。