LLM2D

摘要

arXiv:2408.07422v2 宣告类型: replace-cross 摘要：近年来，在自动驾驶、增强现实、机器人技术和沉浸式智能方面的最新进展迫切需要3D感知算法。然而，当前的3D感知方法，尤其是专化的小型模型，在开放场景中的泛化能力较差。另一方面，多模态大型语言模型（MLLM）在一般能力方面表现优异，但在3D任务中表现不佳，这是由于其较弱的3D局部空间对象感知、基于文本的几何数值输出较差以及无法处理相机焦距变化。为了解决这些挑战，我们提出了以下解决方案：空间增强局部特征挖掘，以改进空间特征提取；3D查询词素-衍生信息解码，以实现精确的几何回归；以及基于几何投影的3D推理，以处理相机焦距变化。我们对预训练的MLLM使用了参数高效的微调，并开发了LLMI3D，这是一种强大的3D感知MLLM。此外，我们构建了IG3D数据集，该数据集提供了细粒度的描述和问答标注。广泛的实验表明，我们的LLMI3D达到了最先进的性能，远超其他方法。