LLM2D

摘要

arXiv:2504.05786v1 Announce Type: cross 摘要：3D空间理解在机器人技术、自主车辆、虚拟现实和医疗成像等实际应用中至关重要。近年来，大型语言模型（LLMs）已经在各个领域展现出了显著的成功，被用来增强3D理解任务，显示出超越传统计算机视觉方法的潜力。在此综述中，我们对现有方法进行了一次全面的回顾，这些方法将LLMs与3D空间理解相结合。我们提出了一种分类法，将现有方法分为三大类：基于图像的方法，从2D视觉数据中推断3D理解；基于点云的方法，直接处理3D表示；以及结合多种数据流的混合模态方法。我们系统地回顾了这些类别的代表性方法，涵盖了数据表示、架构修改以及连接文本和3D模态的训练策略。最后，我们讨论了当前的限制，包括数据集稀缺和计算挑战，同时指出了在空间感知、多模态融合和实际应用方面的有前景的研究方向。