LLM2D
LLMI3D:基于多模态语言模型的单张2D图像的3D感知
LLMI3D: MLLM-based 3D Perception from a Single 2D Image
作者: Fan Yang, Sicheng Zhao, Yanhao Zhang, Hui Chen, Haonan Lu, Jungong Han, Guiguang Ding
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2408.07422v2

摘要

arXiv:2408.07422v2 宣告类型: replace-cross 摘要:近年来,在自动驾驶、增强现实、机器人技术和沉浸式智能方面的最新进展迫切需要3D感知算法。然而,当前的3D感知方法,尤其是专化的小型模型,在开放场景中的泛化能力较差。另一方面,多模态大型语言模型(MLLM)在一般能力方面表现优异,但在3D任务中表现不佳,这是由于其较弱的3D局部空间对象感知、基于文本的几何数值输出较差以及无法处理相机焦距变化。为了解决这些挑战,我们提出了以下解决方案:空间增强局部特征挖掘,以改进空间特征提取;3D查询词素-衍生信息解码,以实现精确的几何回归;以及基于几何投影的3D推理,以处理相机焦距变化。我们对预训练的MLLM使用了参数高效的微调,并开发了LLMI3D,这是一种强大的3D感知MLLM。此外,我们构建了IG3D数据集,该数据集提供了细粒度的描述和问答标注。广泛的实验表明,我们的LLMI3D达到了最先进的性能,远超其他方法。