LLM2D

摘要

arXiv:2411.16537v4 Announce Type: replace-cross 摘要：空间理解是使机器人能够感知其周围环境、对其环境进行推理并与其互动的一项关键能力。在现代机器人技术中，这些能力越来越多地由视觉语言模型提供。然而，这些模型在空间推理任务中面临着重大挑战，因为它们的训练数据基于普通用途的图像数据集，通常缺乏复杂的空间理解。例如，数据集经常未能捕捉到参考框架理解的能力，而有效的空间推理需要理解是从自我中心、世界中心还是物体中心的角度进行推理。为了解决这一问题，我们引入了RoboSpatial，这是一个大规模的空间理解数据集，应用于机器人技术。该数据集包含真实的室内和台面场景，以3D扫描和自我中心图像的形式捕获，并且附带了与机器人相关的丰富空间信息进行了标注。该数据集包括100万张图像、5000个3D扫描以及300万标注的空间关系。将2D自我中心图像与3D扫描配对使得该数据集既适合2D又适合3D的应用。我们的实验表明，使用RoboSpatial训练的模型在诸如空间可利用性预测、空间关系预测以及机器人操作等下游任务中表现优于基线模型。