LLM2D

摘要

arXiv:2504.11014v4 通告类型: replace-cross 摘要：计算机视觉领域的一个新兴趋势是开发能够同时应对多种多样任务的通用模型。这种通用性通常需要在多领域数据集上进行联合训练，以确保有效的泛化。然而，由于缺乏准确三维ground-truth标签的标注数据，尤其是超出典型路面自动驾驶环境的情况，单目3D物体检测在多领域训练中面临着独特的挑战。为了解决这一挑战，我们引入了一种新颖的弱监督框架，利用伪标签。当前的预训练模型在非路面环境中往往难以准确检测行人，这反映了数据集固有的偏差。与泛化图像基础的二维物体检测模型不同，单目3D检测的一致性泛化在很大程度上尚未被探索。在本文中，我们提出了GATE3D，这是一种专为弱监督下的通用单目3D物体检测设计的新框架。GATE3D通过在2D和3D预测之间使用一致性损失有效地弥合了领域差距。令人惊讶的是，我们的模型在KITTI基准测试以及我们收集的用于评估框架泛化能力的室内办公室数据集上均取得了具有竞争力的性能。我们的结果表明，GATE3D能够通过有效的预训练策略从有限的标注数据中显著加速学习过程，这突显了其在机器人技术、增强现实和虚拟现实应用中的广泛影响潜力。项目页面：https://ies0411.github.io/GATE3D/