LLM2D

摘要

arXiv:2504.11014v2 宣告类型: replace-cross 摘要：计算机视觉领域新兴的趋势强调开发能够同时处理多种多样任务的通用模型。这种通用性通常需要在多领域数据集上进行联合训练，以确保有效的泛化。然而，由于缺乏标注有准确3D地面真值标签的数据集，特别是超越典型道路自动驾驶场景的环境，单目3D物体检测在多领域训练中面临着独特挑战。为了解决这一挑战，我们引入了一种新的弱监督框架，利用伪标签。当前的预训练模型往往在非道路环境中难以准确检测行人，原因是训练数据集存在固有的偏差。与通用的基于图像的二维物体检测模型不同，在单目3D检测中实现类似的泛化至今仍未得到充分探索。本文中，我们提出了GATE3D，这是一种专为弱监督下的通用单目3D物体检测设计的新型框架。GATE3D通过在2D和3D预测之间采用一致性损失，有效地填补了领域差距。令人惊讶的是，我们的模型在KITTI基准测试以及我们在室内办公室环境中收集的数据集上，都展现了具有竞争力的性能，用于评估我们框架的泛化能力。我们的结果表明，GATE3D通过有效的预训练策略显著加速了从有限的标注数据中学习的过程，突显了其在机器人、增强现实和虚拟现实应用领域的广泛影响潜力。项目页面: https://ies0411.github.io/GATE3D/