LLM2D

摘要

arXiv:2504.11014v3 Announce Type: replace-cross 摘要：计算机视觉领域的一个新兴趋势是开发能够同时处理多种多样任务的通用模型。这种通用性通常需要在多域数据集上联合训练以确保有效的泛化。然而，单目3D物体检测在多域训练中面临着独特的挑战，这主要是由于缺乏带有准确3D地面真实标签的数据集，尤其是在传统的基于道路的自动驾驶场景之外的环境中。为了应对这一挑战，我们提出了一种新颖的弱监督框架，利用伪标签。当前的预训练模型在非道路环境中的行人检测上往往难以准确地进行检测，这主要是由于数据集自身的偏差所致。与通用的基于图像的2D物体检测模型不同，实现类似水平的泛化在单目3D检测领域仍然很少被探索。本文中，我们提出了一种名为GATE3D的新框架，该框架专门用于通过弱监督实现通用的单目3D物体检测。GATE3D通过在2D和3D预测之间的使用一致性损失有效地弥合了领域间的差距。令人值得注意的是，我们的模型在KITTIData基准以及我们收集的一个室内办公室数据集上达到了竞争力的表现，该数据集用于评估我们框架的泛化能力。我们的结果表明，GATE3D通过有效的预训练策略显著加速了从有限标注数据的学习过程，突显了其在机器人技术、增强现实和虚拟现实应用中更广泛影响的潜力。项目页面：https://ies0411.github.io/GATE3D/