LLM2D
MonoDETR:基于深度指导的Transformer单目3D物体检测
MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection
作者: Renrui Zhang, Han Qiu, Tai Wang, Ziyu Guo, Yiwen Tang, Xuanzhuo Xu, Ziteng Cui, Yu Qiao, Peng Gao, Hongsheng Li
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2203.13310v5

摘要

arXiv:2203.13310v5 声明类型: replace-cross 摘要:单目3D物体检测长期以来一直是自主驾驶领域的挑战性任务。大多数现有方法遵循传统的2D检测器,首先定位物体中心,然后通过相邻特征预测3D属性。然而,仅使用局部视觉特征不足以理解场景级别的3D空间结构,并且忽略了物体之间长距离的深度关系。在本文中,我们首次引入了名为MonoDETR的深度导向Transformer单目检测框架。我们修改了 vanilla Transformer 使其具有深度感知能力,并通过上下文深度线索引导整个检测过程。具体而言,在捕获物体外观的同时,我们引入了一个预测前景深度图的方法,并专门设计了一个深度编码器来提取非局部深度嵌入。然后,我们将3D物体候选对象表示为可学习的查询,并提出一个深度导向解码器以执行物体-场景深度交互。这样,每个物体查询可以适应地从图像上的深度导向区域估计其3D属性,而不再受限于局部视觉特征。在使用单目图像作为输入的KITTI基准测试上,MonoDETR达到了最先进的性能,并且不需要额外的密集深度标注。此外,我们的深度导向模块还可以在nuScenes数据集上轻松插入以增强多视图3D物体检测器,证明了我们更强的泛化能力。代码可在 https://github.com/ZrrSkywalker/MonoDETR 获取。