LLM2D

摘要

arXiv:2504.11014v1 类别：交叉领域摘要：计算机视觉领域的一个新兴趋势是在开发能够同时处理多种多样化任务的通用模型。这种通用性通常需要在多领域数据集上进行联合训练以确保有效的泛化。然而，单目3D物体检测在多领域训练中面临着独特的挑战，主要是由于缺乏带有准确3D地面真值标签的数据集，特别是在典型的道路自动驾驶环境下之外。为了解决这一挑战，我们引入了一种新颖的弱监督框架，利用伪标签。当前的预训练模型往往难以在非道路环境中准确检测行人，这是由于数据集固有的偏差。与通用的基于图像的2D物体检测模型不同，实现类似程度的泛化在单目3D检测方面仍是一个未被充分探索的领域。在本文中，我们提出了GATE3D，一种专门用于通用单目3D物体检测的新颖框架，通过弱监督实现。GATE3D通过在2D和3D预测之间使用一致性损失有效地填补了领域差距。令人remarkably的是，我们的模型在Kitti基准测试和我们收集的一个用于评估我们框架泛化能力的室内办公室数据集上都取得了竞争力的表现。我们的结果表明，通过有效的预训练策略，GATE3D能够显著加速有限标注数据的学习，突显了其在机器人、增强现实和虚拟现实应用中的广泛影响。项目页面：https://ies0411.github.io/GATE3D/