LLM2D
机器人空间感知:赋予二维和三维视觉语言模型机器人空间理解能力
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
作者: Chan Hee Song, Valts Blukis, Jonathan Tremblay, Stephen Tyree, Yu Su, Stan Birchfield
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16537v1

摘要

空间理解是机器人根据环境做出有效决策的关键能力。这项基础技能使机器人不仅能够感知周围环境,还能对环境进行推理并进行有意义的交互。在现代机器人技术中,这些能力由视觉语言模型承担,但在应用于空间推理环境时,它们面临着巨大的挑战,因为其训练数据来源存在局限性。这些来源利用通用图像数据集,往往缺乏复杂的空间场景理解能力。例如,这些数据集没有解决参考系理解的问题——空间关系需要清晰的上下文理解,无论是以自我为中心、以物体为中心还是以世界为中心,这才能实现有效的现实世界交互。为了解决这个问题,我们引入了RoboSpatial,这是一个大型空间理解数据集,包含作为3D扫描和以自我为中心的图像捕获的真实室内和桌面场景,并标注了与机器人相关的丰富空间信息。该数据集包含100万张图像、5000次3D扫描和300万个标注的空间关系,并配对2D以自我为中心的图像和3D扫描,使其既适用于2D也适用于3D。我们的实验表明,使用RoboSpatial训练的模型在空间可供性预测、空间关系预测和机器人操作等下游任务上优于基线模型。