LLM2D
BIP3D:连接二维图像和三维感知以实现具身智能
BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence
作者: Xuewu Lin, Tianwei Lin, Lichao Huang, Hongyu Xie, Zhizhong Su
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.14869v1

摘要

在具身智能系统中,三维感知算法是关键组成部分,使智能体能够理解其周围环境。以往的算法主要依赖于点云,尽管点云提供了精确的几何信息,但由于其固有的稀疏性、噪声和数据稀缺性,仍然限制了感知性能。在这项工作中,我们引入了一种新颖的以图像为中心的3D感知模型BIP3D,该模型利用具有显式3D位置编码的表达性图像特征来克服以点为中心的 方法的局限性。具体来说,我们利用预训练的二维视觉基础模型来增强语义理解,并引入空间增强模块来改进空间理解。这些模块共同使BIP3D能够实现多视图、多模态特征融合和端到端的三维感知。在我们的实验中,BIP3D在EmbodiedScan基准测试中超越了当前最先进的结果,在3D检测任务中提高了5.69%,在3D视觉定位任务中提高了15.25%。