摘要
arXiv:2504.05786v1 Announce Type: cross
摘要:3D空间理解在机器人技术、自主车辆、虚拟现实和医疗成像等实际应用中至关重要。近年来,大型语言模型(LLMs)已经在各个领域展现出了显著的成功,被用来增强3D理解任务,显示出超越传统计算机视觉方法的潜力。在此综述中,我们对现有方法进行了一次全面的回顾,这些方法将LLMs与3D空间理解相结合。我们提出了一种分类法,将现有方法分为三大类:基于图像的方法,从2D视觉数据中推断3D理解;基于点云的方法,直接处理3D表示;以及结合多种数据流的混合模态方法。我们系统地回顾了这些类别的代表性方法,涵盖了数据表示、架构修改以及连接文本和3D模态的训练策略。最后,我们讨论了当前的限制,包括数据集稀缺和计算挑战,同时指出了在空间感知、多模态融合和实际应用方面的有前景的研究方向。