LLM2D

摘要

在具身智能系统中，三维感知算法是关键组成部分，使智能体能够理解其周围环境。以往的算法主要依赖于点云，尽管点云提供了精确的几何信息，但由于其固有的稀疏性、噪声和数据稀缺性，仍然限制了感知性能。在这项工作中，我们引入了一种新颖的以图像为中心的3D感知模型BIP3D，该模型利用具有显式3D位置编码的表达性图像特征来克服以点为中心的方法的局限性。具体来说，我们利用预训练的二维视觉基础模型来增强语义理解，并引入空间增强模块来改进空间理解。这些模块共同使BIP3D能够实现多视图、多模态特征融合和端到端的三维感知。在我们的实验中，BIP3D在EmbodiedScan基准测试中超越了当前最先进的结果，在3D检测任务中提高了5.69%，在3D视觉定位任务中提高了15.25%。