LLM2D
点、视觉与文本:点云能否提升大规模语言模型的空间推理能力?
The Point, the Vision and the Text: Does Point Cloud Boost Spatial Reasoning of Large Language Models?
作者: Weichen Zhang, Ruiying Peng, Chen Gao, Jianjie Fang, Xin Zeng, Kaiyuan Li, Ziyou Wang, Jinqiang Cui, Xin Wang, Xinlei Chen, Yong Li
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04540v1

摘要

arXiv:2504.04540v1 类型: cross 摘要: 利用点云中的空间信息进行三维(3D)空间推理的三维大型语言模型(3D LLMs)引起了极大的关注。尽管取得了一些令人鼓舞的结果,但点云在三维空间推理中的作用尚未得到充分探索。在本文中,我们全面评估和分析这些模型,以回答研究问题:点云真的增强了3D LLMs的空间推理能力吗?我们首先通过将点云替换为视觉和文本等效物来评估具有不同输入模态的LLMs的空间推理能力。然后,我们提出了一种新的3D QA(问答)基准——ScanReQA,该基准全面评估了模型对二元空间关系的理解能力。我们的发现揭示了几条关键见解:1) 即使在零样本情况下,没有点输入的LLMs也能取得竞争力的表现;2) 当前的3D LLMs在理解二元空间关系方面存在困难;3) 3D LLMs在利用点云中的结构坐标进行精细空间推理方面存在局限性。我们相信这些结论将有助于3D LLMs的下一步发展,并且也为其他模态的基础模型提供了见解。我们在匿名项目页面上发布了数据集和可重复的代码:https://3d-llm.xyz。