摘要
arXiv:2411.16537v4 Announce Type: replace-cross
摘要:空间理解是使机器人能够感知其周围环境、对其环境进行推理并与其互动的一项关键能力。在现代机器人技术中,这些能力越来越多地由视觉语言模型提供。然而,这些模型在空间推理任务中面临着重大挑战,因为它们的训练数据基于普通用途的图像数据集,通常缺乏复杂的空间理解。例如,数据集经常未能捕捉到参考框架理解的能力,而有效的空间推理需要理解是从自我中心、世界中心还是物体中心的角度进行推理。为了解决这一问题,我们引入了RoboSpatial,这是一个大规模的空间理解数据集,应用于机器人技术。该数据集包含真实的室内和台面场景,以3D扫描和自我中心图像的形式捕获,并且附带了与机器人相关的丰富空间信息进行了标注。该数据集包括100万张图像、5000个3D扫描以及300万标注的空间关系。将2D自我中心图像与3D扫描配对使得该数据集既适合2D又适合3D的应用。我们的实验表明,使用RoboSpatial训练的模型在诸如空间可利用性预测、空间关系预测以及机器人操作等下游任务中表现优于基线模型。