LLM2D

摘要

arXiv:2203.13310v5 声明类型: replace-cross 摘要：单目3D物体检测长期以来一直是自主驾驶领域的挑战性任务。大多数现有方法遵循传统的2D检测器，首先定位物体中心，然后通过相邻特征预测3D属性。然而，仅使用局部视觉特征不足以理解场景级别的3D空间结构，并且忽略了物体之间长距离的深度关系。在本文中，我们首次引入了名为MonoDETR的深度导向Transformer单目检测框架。我们修改了 vanilla Transformer 使其具有深度感知能力，并通过上下文深度线索引导整个检测过程。具体而言，在捕获物体外观的同时，我们引入了一个预测前景深度图的方法，并专门设计了一个深度编码器来提取非局部深度嵌入。然后，我们将3D物体候选对象表示为可学习的查询，并提出一个深度导向解码器以执行物体-场景深度交互。这样，每个物体查询可以适应地从图像上的深度导向区域估计其3D属性，而不再受限于局部视觉特征。在使用单目图像作为输入的KITTI基准测试上，MonoDETR达到了最先进的性能，并且不需要额外的密集深度标注。此外，我们的深度导向模块还可以在nuScenes数据集上轻松插入以增强多视图3D物体检测器，证明了我们更强的泛化能力。代码可在 https://github.com/ZrrSkywalker/MonoDETR 获取。