LLM2D

摘要

arXiv:2504.18068v1 宣告类型: cross 摘要: 准确可靠的三维空间多对象跟踪(MOT)对于推进机器人和计算机视觉应用至关重要。然而，在单目设置中，由于难以从二维视频流中提取三维时空关联，这仍然是一个重大挑战。在本文中，我们提出了三种创新技术来增强单目3D MOT中异构线索的融合和利用：(1) 我们引入了匈牙利状态空间模型(HSSM)，这是一种新颖的数据关联机制，它通过压缩多个路径上的上下文轨迹线索来实现高效且全面的分配决策，其复杂性为线性。HSSM 具有全局感受野和动态权重，与传统的线性分配算法依赖手工构造的关联成本形成对比。(2) 我们提出了全卷积一阶段嵌入(FCOE)，该方法通过直接使用密集特征图来进行对比学习，从而在具有变化视角和光照条件等挑战性条件下提高对象再识别的准确性。(3) 我们通过使用建模速度时变关系的编码器-解码器架构 VeloSSM 来增强6自由度姿态估计，从而捕捉运动动态，克服基于帧的3D推理的限制。在KITTI公开测试基准上的实验展示了我们方法的有效性，在31 FPS下达到新的最佳性能，HOTA得分为76.86。我们的方法在HOTA和AssA方面分别比之前最佳方法高出2.63和3.62，展示了其在单目3D MOT任务中的稳健性和效率。代码和模型可在 https://github.com/bytepioneerX/s3mot 获取。