摘要
arXiv:2411.16537v3 宣布类型: 替换交叉
摘要:空间理解是使机器人能够感知其周围环境、对其环境进行推理并与其进行有意义交互的关键能力。在现代机器人技术中,这些能力越来越依赖于视觉-语言模型。然而,这些模型在空间推理任务中面临重大挑战,因为它们的训练数据基于通用图像数据集,这些数据集通常缺乏复杂的空间理解。例如,数据集往往未能捕捉到参考框架的理解,而高效的 spatial 推理需要理解是从自我中心、世界中心还是对象中心的视角进行推理。为了解决这一问题,我们引入了 RoboSpatial,这是一个大规模的用于机器人空间理解的数据集。它包括真实的室内和台面场景,这些场景被捕捉为 3D 扫描和自我中心图像,并注释了与机器人相关的丰富空间信息。该数据集包含 100 万张图像、5000 个 3D 扫描和 300 万个注释的空间关系,并将 2D 自我中心图像与 3D 扫描配对使其既适用于 2D 也适用于 3D。我们的实验表明,使用 RoboSpatial 训练的模型在诸如空间可利用性预测、空间关系预测和机器人操作等下游任务上优于基线模型。