LLM2D

摘要

三维目标检测在自动驾驶、机器人和增强现实等多种应用中起着至关重要的作用。然而，训练三维检测器需要代价高昂的精确标注，这阻碍了大规模数据集的标注。为了解决这一挑战，我们提出了一种弱监督的三维标注器，它仅依赖于图像的二维边界框标注以及尺寸先验信息。一个主要问题是，仅使用二维框来监督三维检测模型并不可靠，因为不同的三维姿态及其相同的二维投影之间存在歧义。我们引入了一种简单而有效且通用的解决方案：我们构建具有构造性标注的三维代理对象并将它们添加到训练数据集中。我们的方法只需要尺寸先验信息就能适应新的类别。为了更好地将二维监督与三维检测对齐，我们的方法使用二维损失的新颖表达来确保深度不变性。最后，为了检测更具挑战性的实例，我们的标注器采用了一种离线伪标签方案，逐步改进其三维伪标签。在KITTI数据集上的大量实验表明，我们的方法不仅在汽车类别上的性能与现有方法相当或优于现有方法，而且在更具挑战性的类别上也取得了接近全监督方法的性能。我们进一步通过首次在更具挑战性的nuScenes数据集上进行实验，证明了我们方法的有效性和鲁棒性。我们还提出了一种设置，其中弱标签是从在MS-COCO上预训练的二维检测器而不是人工标注中获得的。代码可在https://github.com/CEA-LIST/ALPI获取。