三维视觉定位(3DVG)和三维密集描述(3DDC)是各种三维应用中的两项关键任务,它们在定位和视觉语言关系方面既需要共享信息,也需要互补信息。因此,现有方法采用两阶段的“检测-然后描述/区分”流程,这严重依赖于检测器的性能,导致性能不佳。受DETR启发,我们提出了一种统一框架3DGCTR,以端到端的方式联合解决这两个不同但密切相关的任务。其核心思想是重新考虑3DVG模型的基于提示的定位能力。通过这种方式,输入为精心设计的提示的3DVG模型可以通过从提示中提取定位信息来辅助3DDC任务。在实现方面,我们将一个轻量级描述头集成到现有的3DVG网络中,并使用描述文本提示作为连接,有效利用现有3DVG模型的固有定位能力,从而提升3DDC能力。这种集成促进了两个任务的同步多任务训练,相互增强其性能。广泛的实验结果证明了该方法的有效性。具体而言,在ScanRefer数据集上,3DGCTR在MLE训练中的
[email protected]指标上超越了最先进的3DDC方法4.3%,并在
[email protected]指标上提升了最先进的3DVG方法3.16%。代码位于https://github.com/Leon1207/3DGCTR。