摘要
arXiv:2411.16537v2 通告类型: replace-cross
摘要:空间理解是一种使机器人能够感知其周围环境、对其环境进行推理并与其进行有意义互动的关键能力。在现代机器人技术中,这些能力越来越多地由视觉-语言模型提供。然而,在空间推理任务中,这些模型面临着重大挑战,因为它们的训练数据主要基于通用图像数据集,这些数据集往往缺乏复杂的空间理解能力。例如,数据集经常未能捕捉到参考框架的理解,而有效的空间推理则需要理解从自我中心、世界中心还是物体中心视角进行推理。为了解决这一问题,我们引入了RoboSpatial,这是一个用于机器人领域空间理解的大规模数据集。它包括真实的室内和桌面上场景,以3D扫描和自我中心图像的形式捕捉,并且标注了与机器人相关的丰富空间信息。该数据集包含100万张图像、5000个3D扫描和300万个空间关系的标注。2D自我中心图像与3D扫描的配对使其同时适用于2D和3D任务。我们的实验表明,使用RoboSpatial训练的模型在下游任务如空间功能预测、空间关系预测和机器人操作方面优于基线模型。